Как остановить AI-словоблудие: валидатор для LLM

Избавляемся от надоедливых слов вроде «delve» и фактических ошибок с помощью простого, но мощного валидатора.

На этой неделе к нам обратился пользователь: в сгенерированной рассылке слово delve встретилось дважды. Дважды! Знакомая боль, правда? LLM обожают такие «умные» словечки, а ещё любят галлюцинировать факты. Пора это прекращать.

Двухслойная защита от AI-словоблудия

Решение, описанное в статье, строится на двух уровнях проверки:

1. Первый уровень — синтаксический и стилистический. Простейшие правила: запрещённые слова (delve, crucial, leverage), проверка длины абзацев, количества восклицательных знаков. Если текст похож на типичный AI-сгенерированный — блокируем или отправляем на доработку.

2. Второй уровень — семантический. Тут уже подключаем NLP-модели: проверка фактов (перекрёстные ссылки), тональность, когерентность. Если модель «галлюцинирует» — валидатор не пропустит.

Всё это можно реализовать на JavaScript/TypeScript с помощью библиотек вроде `compromise` для NLP и кастомных правил. Пример кода из статьи:

const forbiddenWords = ['delve', 'leverage', 'synergy'];
if (forbiddenWords.some(word => text.includes(word))) {
  throw new Error('AI slop detected');
}

Комментарий студии METABYTE

Качество контента — это не только про SEO, но и про доверие. Если вы используете AI для генерации текстов в продукте, такой валидатор спасёт от репутационных потерь. В наших проектах мы часто внедряем подобные фильтры, чтобы пользователи видели чистый, полезный контент, а не «AI-словоблудие».