Инженеры Принстона разработали алгоритм сжатия больших языковых моделей
Большие языковые модели (LLM), которые в обиходе называют нейросетями, все больше облегчают нам жизнь. Но их использование невозможно без стабильного доступа к интернету.
В Принстонском университете разработали технологию сжатия массивов данных LLM, которая позволит переносить их на локальное устройство пользователя — смартфон или ноутбук — для эксплуатации без подключения к серверу.
«Когда вы используете ChatGPT, любой ваш запрос отправляется на внутренние серверы OpenAI, которые обрабатывают все эти данные, и это очень дорого», — объясняет аспирант Стэнфордского инженерного факультета Раджарши Саха.
По его словам, единственный способ заставить работать LLM локально — сильно сжать используемые ею данные.
Исследователи разработали алгоритм сжатия CALDERA (Calibration Aware Low precision DEcomposition with low Rank Adaptation — калиброванная низкоразрядная декомпозиция с адаптацией низкого ранга), который представят на конференции по нейросетям в декабре. Подробности изложены в статье на сервере препринтов arXiv.
«Мы предложили универсальный алгоритм для сжатия больших наборов данных или больших матриц. А потом поняли, что в наши дни не только наборы данных, но и развертываемые модели также становятся большими. Поэтому мы можем также использовать наш алгоритм для сжатия этих моделей», — говорит Саха.
Это уже не первый способ сжатия LLM, его новизна — в сочетании двух свойств: «низкой точности» и «низкого ранга». «Используя оба этих свойства вместе, мы можем добиться гораздо большего сжатия, чем любой из этих методов по отдельности», — утверждает разработчик.
Алгоритм протестировали на двух больших языковых моделей с открытым исходным кодом. Нейросети после сжатия удовлетворительно справились с логическими задачами, а также отметили на вопросы, как отделить яичный белок от желтка и как заварить чашку чая.
Сжатую таким образом LLM можно использовать на смартфоне или ноутбуке без подключения к серверу. Это не только освобождает от привязки к интернету, но и позволяет точнее настраивать нейросеть под себя, а также улучшает конфиденциальность.
Запуск LLM на локальном устройстве даже с пониженной точностью вычислений может занять много памяти на некоторое время или заметно ускорить разряд батареи, предупредил Раджарши Саха.