LLM портят документы: исследование

Вы когда-нибудь просили нейросеть «причесать» документ, а потом находили в нём билиберду? Учёные из MIT и не только решили формализовать эту боль и выпустили препринт, который стоит прочитать каждому, кто хоть раз делегировал LLM правку текста.

Оказалось, что при выполнении задач на редактирование (дополнить, перефразировать, исправить) модели вносят не только ожидаемые изменения, но и случайные мутации — от замены имён до изменения смысла целых абзацев. Причём делают это с пугающей уверенностью, без каких-либо маркеров «я тут накосячила». По сути, LLM ведёт себя как стажёр, который переписывает документацию, не понимая контекста, но с горящими глазами.

Авторы назвали это явление «документной коррупцией» и показали, что даже при простых задачах (например, «сделай краткое изложение») модель может незаметно подменить факты или добавить вымышленные детали. Для разработчиков это особенно критично: представьте, что вы автоматизируете генерацию релиз-ноутов или обновление API-документации. Одно неверное слово — и ваши пользователи удивятся, почему функция «удалить всё» вдруг стала «архивировать и отправить боссу».

Исследование предлагает не отказываться от помощи LLM, а внедрять системы валидации и аудита изменений — например, сравнивать исходный и итоговый документ дифф-алгоритмами или использовать отдельную модель-контролёр. Другими словами, доверяй, но проверяй, как учили нас админы старой школы.

Комментарий студии METABYTE: Если вы автоматизируете работу с документами через LLM, помните: даже самая умная нейросеть может случайно переписать «login» как «log in» или, того хуже, «logout». Наши инженеры уже внедряют чекеры на основе diff — чтобы ваши пользователи не просыпались в холодном поту от неожиданных изменений в контрактах.

LLM-редакторы: доверил документ — получил винегрет

Понравилось как мыслим?