AI ELO трекер: почему модели тупеют со временем

Разработчикам знакомо чувство, когда свежая AI-модель на старте — просто зверь, а через пару недель будто подменили. Один энтузиаст решил проверить это ощущение научно и собрал дашборд с историей ELO рейтингов флагманских моделей.

Вместо того чтобы рисовать «спагетти-чарт» из сотен версий, трекер умно отслеживает одну непрерывную кривую для каждой крупной AI-лаборатории. Динамика показывает как резкие скачки при выходе новой генерации, так и медленную деградацию — ту самую, что мы называем «нерфингом». Да, ребята, ваши ощущения не обманывают: модели реально «тупеют» со временем.

Особый цимес — дашборд адаптирован под мобилки и имеет тёмную тему. Но создатель честно признаёт слепую зону: Arena AI в основном тестирует API-эндпоинты, а потребительские чат-интерфейсы часто добавляют тяжёлые системные промпты, обёртки безопасности или под высоким нагрузкой незаметно подсовывают квантованные версии. API-бенчмарки не отражают этот «нерфинг», который испытывают обычные пользователи веба.

Автор ищет исторические датасеты ELO или оценки, которые собирают данные именно с веб-интерфейсов, а не с API. Если у вас есть идеи — велкам в open source репозиторий.

Комментарий студии METABYTE: Мы тоже замечали, что модели со временем «забывают» свои способности — прямо как разработчики после отпуска. Если вам нужно, чтобы AI работал стабильно, а не как студент перед сессией, — пишите, поможем настроить мониторинг.

Жизненный цикл AI-моделей: трекер ELO рейтингов показывает, как «тупеют» флагманы

Понравилось как мыслим?