Ускоряем AI на 10% одним словарём Python

Один Python-словарь способен ускорить инференс мультимодальных моделей больше чем на 10% — и это не хайп, а грамотный кэш.

Иногда самые эффективные оптимизации лежат на поверхности — буквально в одном словаре. Инженеры Modal поделились историей, как простой dict помог ускорить мультимодальный инференс более чем на 10%. И нет, это не очередной «ускоритель на нейросетях», а старый добрый кэш.

Суть проблемы: при загрузке изображений и текста модель каждый раз пересчитывала эмбеддинги для одних и тех же токенов. Визуализируйте: вы каждый раз пересобираете IKEA-стеллаж, хотя у вас уже есть готовые полки. Разработчики добавили словарь, который запоминает результат для повторяющихся входных данных. Результат — прирост производительности без единого изменения архитектуры.

Как это работает (и почему вы не додумались раньше)

Кэширование на уровне токенов: если токен уже встречался, берём эмбеддинг из словаря.
Минимум изменений кода: буквально пара строк, обёрнутых в if token in cache.
Эффект заметен на повторяющихся элементах — например, в видео или батчах с одинаковыми фрагментами.

Конечно, это не спасёт, если каждый кадр уникален. Но для типовых сценариев (чат-боты с картинками, обработка лент) — отличный хак. Разработчики Modal шутят, что их решение напоминает «оптимизацию JIRA-дачи: сначала наводишь порядок в одной колонке, а потом понимаешь, что остальные 46 можно просто скрыть».

Комментарий студии METABYTE: Мы обожаем такие хаки — когда производительность растёт не за счёт нового GPU, а благодаря смекалке. Если ваш проект тормозит, возможно, достаточно просто «запомнить» пару лишних байтов — ну или позвонить нам, мы поможем найти эти узкие места.