Вернуться к статьям

Средний балл промпта — как средняя температура по больнице: почему это не работает и что делать

9 мая 2026
2 мин чтения
Средний балл промпта — как средняя температура по больнице: почему это не работает и что делать

Сравнивать промпты по средним оценкам — всё равно что выбирать повара по среднему чеку в ресторане: цифры есть, а пользы нет.

Допустим, у вас есть два промпта. У первого средний балл 6.8, у второго — 7.4. Вроде бы второй лучше? А вот и нет. Если копнуть глубже, первый может идеально справляться с критическими кейсами, а второй — проваливать их, но получать десятки за лёгкие запросы. Среднее всё сглаживает, и вы остаётесь с ложным чувством победы.

Проблема в том, что среднее арифметическое — это как смотреть на зарплату в IT по стране: кто-то получает 5000, кто-то 500 000, а среднее — 50 000, и никому от этого не легче. Для LLM-промптов разброс оценок важнее среднего. Один промпт может стабильно выдавать 7 из 10, а другой — то 10, то 2. Какой вы выберете для продакшена? Правильно, стабильный, даже если его средний балл чуть ниже.

Что же делать? Вместо среднего используйте перцентили и анализ выбросов. Посмотрите на 10-й и 90-й перцентили — они покажут, как промпт ведёт себя в худших и лучших случаях. Ещё крутой подход — оценка по наихудшему сценарию: если промпт хотя бы раз выдал ерунду, ставьте ему красный флаг. В конце концов, в продакшене LLM будет работать не со средними пользователями, а со всеми подряд.

Не забывайте про сегментацию по типам запросов. Разбейте тестовый набор на категории (сложные, простые, с неоднозначностью) и считайте метрики отдельно. Тогда вы точно узнаете, где промпт A выигрывает, а где B — и сможете принять взвешенное решение, а не гадать на кофейной гуще.


Комментарий студии METABYTE: Мы в METABYTE тоже когда-то верили в среднее арифметическое, пока один промпт не отправил в ответ пользователю рецепт борща вместо кода. Теперь мы дружим с перцентилями и вам советуем. А если нужна помощь с настройкой LLM — заходите, чай с печеньками и без средних температур обеспечен.