Claude против Gemma 4: кто лучше держит роль

Тестируем одну и ту же инструкцию для самоконтроля — результаты разные, как утренний кофе и вечерний чай.
Claude и Gemma 4: битва за самоконтроль
Разработчики из Mnemara решили устроить спарринг между Claude и Gemma 4: скормили им одинаковую "ролевую инструкцию" для самоконтроля и смотрели, кто дольше продержится без отклонений. Спойлер: один из бойцов ушёл в отрыв, а второй начал импровизировать.
В Mnemara роль (role doc) перечитывается при каждом API-вызове и закрепляется в контексте. Это как постоянно напоминать сотруднику его должностную инструкцию — только вместо человека LLM. Claude показал себя дисциплинированным отличником, а Gemma 4 — креативным троечником, который забывает правила через пару запросов.
Тест-драйв: что проверяли
- Самоконтроль: насколько модель следует заданной роли (например, "ты — эксперт по безопасности, отвечай строго по регламенту").
- Устойчивость к дрейфу: через N сообщений не забывает ли, кто она.
- Скорость и стоимость: Gemma 4 легче, но дешевле ли?
Результаты: Claude держал роль до 40+ сообщений без потери фокуса, Gemma начинала "забывать" уже на 10-м. Зато Gemma 4 работала быстрее и стоила копейки — идеально для простых задач, где не нужна строгая ролевая модель.
Кому это нужно Если вы делаете агента, который должен строго следовать инструкции (например, автоматизация техподдержки или модерация), Claude — ваш выбор. Если же задача творческая и не требует жёстких рамок — Gemma 4 сэкономит бюджет и нервы.
Комментарий студии METABYTE: Мы тоже любим тестировать модели на прочность — особенно когда они пытаются убедить нас, что "этот баг — фича". Но если серьёзно, выбор LLM под задачу — это как выбор фреймворка: для микросервисов одно, для монолита — другое. Главное, чтобы CI не падал.