LLM и TLA+: эксперимент по моделированию систем

Эксперимент показал, что LLM пока путают TLA+ с поэзией, но потенциал есть.

LLM пытаются освоить TLA+ — и это выглядит как попытка научить кота плавать.

Группа исследователей решила проверить, способны ли современные языковые модели (вроде GPT-4) писать формальные спецификации на TLA+ для реальных распределённых систем. Спойлер: результаты напоминают сборку IKEA без инструкции — местами гениально, но чаще криво.

Что тестировали и как?

Учёные взяли классические алгоритмы (Paxos, двухфазный коммит, Raft) и попросили LLM сгенерировать TLA+ спецификации. Оценивали не только синтаксис, но и корректность моделирования — то есть, отражает ли модель реальное поведение системы. Оказалось, что:

Модели отлично справляются с шаблонными кусками (инициализация, типы).
Но как только доходит до нетривиальной логики (например, обработка сбоев), LLM начинают «галлюцинировать» состояния, которых в природе не существует.
Без fine-tuning на корпусе TLA+ модели путают операторы и забывают про инварианты.

А что с практической пользой?

Авторы честно признают: пока LLM не заменят инженера по верификации. Но как инструмент для быстрого прототипирования или подсказки синтаксиса — вполне годно. Особенно если вы ненавидите вспоминать, ставится ли точка с запятой после Next.

Комментарий студии METABYTE: Мы тоже пробовали доверить нейросети написание TLA+ — в итоге пришлось откатывать коммит и идти пить кофе. Но если вы хотите, чтобы ваши распределённые системы были надёжными (без галлюцинаций), лучше позовите людей. Или хотя бы используйте Copilot как подстраховку.