Новая метрика AI: семантическая глубина

Исследователи из MIT представили метрику, которая выходит за рамки семантической близости — и это не очередной хайп, а реальная попытка заглянуть в голову нейросети.

Долгое время мы оценивали модели по тому, насколько похожи их ответы на эталонные. Но это всё равно что судить о поваре по умению резать лук — навык полезный, но не отражающий глубины кулинарного мастерства. Новая метрика, названная авторами «семантической глубиной», измеряет не просто совпадение слов, а структурное понимание контекста.

Как это работает? Вместо подсчёта косинусной близости векторов, алгоритм строит граф зависимостей между понятиями и сравнивает его с «идеальным» графом, построенным человеком. Если модель уловила причинно-следственные связи и роли сущностей — она получает высокий балл. Если просто выдала набор правдоподобных слов — низкий.

Разработчикам это сулит возможность отсеивать «говорящих попугаев» — модели, которые имитируют понимание, но не способны к логическому выводу. Особенно актуально для чат-ботов и ассистентов, где за красивой фразой может скрываться полное непонимание задачи.

Пока метрика тестировалась на датасетах с пересказом текстов и ответами на вопросы. Результаты обнадёживают: корреляция с человеческой оценкой выше, чем у старых подходов. Но до продакшена ещё далеко — авторы признают, что вычисление графа дорогое и не всегда однозначное.

Комментарий студии METABYTE: Если метрика дойдёт до ума, мы сможем наконец доверять AI-решениям в наших проектах, а не гадать, не ошиблась ли нейросеть в очередной раз. Хотя, признаемся, иногда мы и сами не прочь побыть «говорящими попугаями» на созвонах с клиентами.

Семантическая близость больше не король: учёные придумали, как измерить понимание нейросетей

Понравилось как мыслим?