Ollama на 4 ГБ GPU: 2.5 токена/с и математика VRAM

Очередной смельчак решил бросить вызов законам физики и здравому смыслу — запустить Ollama на мобильной видеокарте с 4 ГБ VRAM. Результат предсказуемо скромный: 2.5 токена в секунду. Но, как говорится, главное — не победа, а участие (и красивые графики).

Автор честно расписал математику VRAM: сколько памяти жрет модель, сколько остается на контекст и почему всё тормозит. Оказалось, что даже крошечная модель Gemma 2B с трудом влезает в 4 ГБ, а если добавить контекст — начинается сваппинг на системную память, и скорость падает до уровня печатной машинки. Никаких чудес — просто физика.

Особенно умиляет, что в 2024 году мы всё ещё считаем байты и пытаемся втиснуть нейросеть в карман. Это напоминает попытки запустить Crysis на нетбуке — вроде можно, но зачем? Однако для энтузиастов DIY-AI такие эксперименты — бесценный опыт. Хотя бы знаешь, что твой древний ноутбук не тянет даже самую маленькую модель.

Что это значит для разработчика?

Если вы планируете запускать LLM локально, готовьтесь к апгрейду: минимум 8 ГБ VRAM для комфортной работы, а лучше 12+. Или используйте облачные API — иногда проще заплатить, чем страдать. Но если вы мазохист и любите оптимизировать под железо 2015 года — дерзайте, у вас есть все шансы побить рекорд в 2.5 токена.

Комментарий студии METABYTE: Мы тоже любим поковыряться в железе, но для продакшена рекомендуем выделенные серверы. Хотя, если ваш стартап называется "SlowGPT" — дерзайте, 2.5 токена это даже стильно.

Запустил Ollama на мобильном GPU с 4 ГБ и получил 2.5 токена/с: математика VRAM без прикрас

Что это значит для разработчика?

Понравилось как мыслим?