Снейк-ИИ побил мировой рекорд, выкинув ключевой компонент. Да, вы не ослышались

Разработчик убрал PER из Rainbow DQN — и змейка стала играть лучше. Иногда меньше — действительно больше.
Помните ту самую змейку, что пожирала пиксели на вашей Nokia 3310? Так вот, её потомок, обученный нейросетью, только что установил новый мировой рекорд. Но самое смешное — для этого пришлось выкинуть один из ключевых компонентов алгоритма.
Речь о Rainbow DQN — сборной солянке из лучших практик deep reinforcement learning. Обычно в неё входит Prioritized Experience Replay (PER), который помогает агенту учиться на редких, но важных ситуациях. Однако, как показал эксперимент, для змейки PER оказался не столько помощником, сколько балластом. Без него агент стал набирать больше очков, чем любая известная модель до него.
Почему так? Возможно, PER перегружал сетку редкими событиями, которые в контексте змейки не так уж критичны. Или же приоритетное воспроизведение опыта мешало агенту запоминать простые паттерны. В любом случае, это отличный пример того, что даже в инженерии «классическое» не всегда значит «оптимальное».
Разработчикам на заметку: иногда лучший способ улучшить производительность — отключить фичу, которая кажется незаменимой. Особенно если вы работаете с ограниченными ресурсами (как, например, в играх или на edge-устройствах).
Комментарий студии METABYTE: Мы тоже любим экспериментировать с архитектурами — но обычно не на змейке, а на реальных проектах. Если ваш ИИ-агент вдруг начал странно себя вести, возможно, пора пересмотреть «стандартный набор». Или хотя бы убедиться, что PER не подвешен в фоне.