METABYTE
К списку статей

Семантическая близость больше не король: учёные придумали, как измерить понимание нейросетей

Новая метрика обещает показать, действительно ли AI понимает текст или просто ловко подбирает синонимы.

12 мая 20262 мин чтения
Семантическая близость больше не король: учёные придумали, как измерить понимание нейросетей

Исследователи из MIT представили метрику, которая выходит за рамки семантической близости — и это не очередной хайп, а реальная попытка заглянуть в голову нейросети.

Долгое время мы оценивали модели по тому, насколько похожи их ответы на эталонные. Но это всё равно что судить о поваре по умению резать лук — навык полезный, но не отражающий глубины кулинарного мастерства. Новая метрика, названная авторами «семантической глубиной», измеряет не просто совпадение слов, а структурное понимание контекста.

Как это работает? Вместо подсчёта косинусной близости векторов, алгоритм строит граф зависимостей между понятиями и сравнивает его с «идеальным» графом, построенным человеком. Если модель уловила причинно-следственные связи и роли сущностей — она получает высокий балл. Если просто выдала набор правдоподобных слов — низкий.

Разработчикам это сулит возможность отсеивать «говорящих попугаев» — модели, которые имитируют понимание, но не способны к логическому выводу. Особенно актуально для чат-ботов и ассистентов, где за красивой фразой может скрываться полное непонимание задачи.

Пока метрика тестировалась на датасетах с пересказом текстов и ответами на вопросы. Результаты обнадёживают: корреляция с человеческой оценкой выше, чем у старых подходов. Но до продакшена ещё далеко — авторы признают, что вычисление графа дорогое и не всегда однозначное.

Комментарий студии METABYTE: Если метрика дойдёт до ума, мы сможем наконец доверять AI-решениям в наших проектах, а не гадать, не ошиблась ли нейросеть в очередной раз. Хотя, признаемся, иногда мы и сами не прочь побыть «говорящими попугаями» на созвонах с клиентами.

СЛЕДУЮЩИЙ ШАГ

Понравилось как мыслим?

Применяем те же принципы в клиентских проектах: AI, автоматизации, продукты, которые не умирают после релиза.