Семантическая близость больше не король: учёные придумали, как измерить понимание нейросетей
Новая метрика обещает показать, действительно ли AI понимает текст или просто ловко подбирает синонимы.

Исследователи из MIT представили метрику, которая выходит за рамки семантической близости — и это не очередной хайп, а реальная попытка заглянуть в голову нейросети.
Долгое время мы оценивали модели по тому, насколько похожи их ответы на эталонные. Но это всё равно что судить о поваре по умению резать лук — навык полезный, но не отражающий глубины кулинарного мастерства. Новая метрика, названная авторами «семантической глубиной», измеряет не просто совпадение слов, а структурное понимание контекста.
Как это работает? Вместо подсчёта косинусной близости векторов, алгоритм строит граф зависимостей между понятиями и сравнивает его с «идеальным» графом, построенным человеком. Если модель уловила причинно-следственные связи и роли сущностей — она получает высокий балл. Если просто выдала набор правдоподобных слов — низкий.
Разработчикам это сулит возможность отсеивать «говорящих попугаев» — модели, которые имитируют понимание, но не способны к логическому выводу. Особенно актуально для чат-ботов и ассистентов, где за красивой фразой может скрываться полное непонимание задачи.
Пока метрика тестировалась на датасетах с пересказом текстов и ответами на вопросы. Результаты обнадёживают: корреляция с человеческой оценкой выше, чем у старых подходов. Но до продакшена ещё далеко — авторы признают, что вычисление графа дорогое и не всегда однозначное.
Комментарий студии METABYTE: Если метрика дойдёт до ума, мы сможем наконец доверять AI-решениям в наших проектах, а не гадать, не ошиблась ли нейросеть в очередной раз. Хотя, признаемся, иногда мы и сами не прочь побыть «говорящими попугаями» на созвонах с клиентами.
СЛЕДУЮЩИЙ ШАГ
Понравилось как мыслим?
Применяем те же принципы в клиентских проектах: AI, автоматизации, продукты, которые не умирают после релиза.