LLaMA ускорилась на CPU: запуск без GPU

Новая оптимизация LLaMA позволяет запускать модель на обычных процессорах с впечатляющей скоростью.

Помните времена, когда для запуска большой языковой модели нужен был как минимум один дорогущий GPU? Похоже, эти времена постепенно уходят. Инженер Justine Tunney опубликовала результаты оптимизации LLaMA под CPU, и они впечатляют.

Что изменилось? - Благодаря использованию библиотеки llamafile и техник векторизации, LLaMA 2 7B работает на CPU в 2-3 раза быстрее стандартной реализации. - На современных процессорах (например, AMD Ryzen Threadripper) скорость инференса достигает 15-20 токенов в секунду — вполне приемлемо для интерактивного использования. - Оптимизация затронула как ARM, так и x86 архитектуры.

Почему это важно для разработчиков? - Снижается порог входа: можно запускать модели на обычных серверах или даже на мощных ноутбуках без GPU. - Экономия бюджета стартапов: не нужно арендовать дорогие GPU-инстансы. - Возможность развертывания в офлайн-среде или на edge-устройствах.

Комментарий студии METABYTE: Если LLaMA научилась шустро бегать на CPU, то и ваши проекты могут стать доступнее. Мы помогаем интегрировать такие оптимизации в реальные продукты — от чат-ботов до ассистентов.