Claude vs Gemma 4: тест самоконтроля роли

Claude и Gemma 4: битва за самоконтроль

Разработчики из Mnemara решили устроить спарринг между Claude и Gemma 4: скормили им одинаковую "ролевую инструкцию" для самоконтроля и смотрели, кто дольше продержится без отклонений. Спойлер: один из бойцов ушёл в отрыв, а второй начал импровизировать.

В Mnemara роль (role doc) перечитывается при каждом API-вызове и закрепляется в контексте. Это как постоянно напоминать сотруднику его должностную инструкцию — только вместо человека LLM. Claude показал себя дисциплинированным отличником, а Gemma 4 — креативным троечником, который забывает правила через пару запросов.

Тест-драйв: что проверяли

Самоконтроль: насколько модель следует заданной роли (например, "ты — эксперт по безопасности, отвечай строго по регламенту").
Устойчивость к дрейфу: через N сообщений не забывает ли, кто она.
Скорость и стоимость: Gemma 4 легче, но дешевле ли?

Результаты: Claude держал роль до 40+ сообщений без потери фокуса, Gemma начинала "забывать" уже на 10-м. Зато Gemma 4 работала быстрее и стоила копейки — идеально для простых задач, где не нужна строгая ролевая модель.

Кому это нужно Если вы делаете агента, который должен строго следовать инструкции (например, автоматизация техподдержки или модерация), Claude — ваш выбор. Если же задача творческая и не требует жёстких рамок — Gemma 4 сэкономит бюджет и нервы.

Комментарий студии METABYTE: Мы тоже любим тестировать модели на прочность — особенно когда они пытаются убедить нас, что "этот баг — фича". Но если серьёзно, выбор LLM под задачу — это как выбор фреймворка: для микросервисов одно, для монолита — другое. Главное, чтобы CI не падал.

Claude против Gemma 4: кто лучше держит роль

Понравилось как мыслим?