Лаборатория исследований искусственного интеллекта Yandex Research совместно с ведущими научно-технологическими вузами разработала метод быстрого сжатия больших языковых моделей (LLM) без потери качества. Теперь для работы с моделями достаточно смартфона или ноутбука — и не нужно использовать дорогие серверы и мощные GPU. Об этом CNews сообщили представители «Яндекса».
Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.
Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести ее квантизацию на дорогостоящем сервере, что занимало от нескольких часов до несколько недель. Теперь квантизацию можно выполнить прямо на телефоне или ноутбуке за считанные минуты.
источник -
здесь