Запустил Ollama на мобильном GPU с 4 ГБ и получил 2.5 токена/с: математика VRAM без прикрас
Энтузиаст решил проверить, сможет ли старый ноутбук тянуть локальные LLM — спойлер: еле дышит, но цифры впечатляют.

Очередной смельчак решил бросить вызов законам физики и здравому смыслу — запустить Ollama на мобильной видеокарте с 4 ГБ VRAM. Результат предсказуемо скромный: 2.5 токена в секунду. Но, как говорится, главное — не победа, а участие (и красивые графики).
Автор честно расписал математику VRAM: сколько памяти жрет модель, сколько остается на контекст и почему всё тормозит. Оказалось, что даже крошечная модель Gemma 2B с трудом влезает в 4 ГБ, а если добавить контекст — начинается сваппинг на системную память, и скорость падает до уровня печатной машинки. Никаких чудес — просто физика.
Особенно умиляет, что в 2024 году мы всё ещё считаем байты и пытаемся втиснуть нейросеть в карман. Это напоминает попытки запустить Crysis на нетбуке — вроде можно, но зачем? Однако для энтузиастов DIY-AI такие эксперименты — бесценный опыт. Хотя бы знаешь, что твой древний ноутбук не тянет даже самую маленькую модель.
Что это значит для разработчика?
Если вы планируете запускать LLM локально, готовьтесь к апгрейду: минимум 8 ГБ VRAM для комфортной работы, а лучше 12+. Или используйте облачные API — иногда проще заплатить, чем страдать. Но если вы мазохист и любите оптимизировать под железо 2015 года — дерзайте, у вас есть все шансы побить рекорд в 2.5 токена.
Комментарий студии METABYTE: Мы тоже любим поковыряться в железе, но для продакшена рекомендуем выделенные серверы. Хотя, если ваш стартап называется "SlowGPT" — дерзайте, 2.5 токена это даже стильно.
СЛЕДУЮЩИЙ ШАГ
Понравилось как мыслим?
Применяем те же принципы в клиентских проектах: AI, автоматизации, продукты, которые не умирают после релиза.