«Baba is You» — это необычная логическая игра-головоломка в жанре сокобан, которая позволяет игрокам влиять на правила игры прямо во время прохождения уровня. Впервые вышедшая в 2019 году, она быстро завоевала популярность благодаря своему новаторскому игровому процессу, который требует от игрока не только стратегического мышления, но и глубоких логических рассуждений и творчества. Проект «Baba Is Eval» построен на базе этой игры и стремится использовать её уникальные свойства для оценки и развития искусственного интеллекта. В основе лежит идея дать машине возможность не просто выполнять заранее заданные инструкции, а учиться понимать и изменять правила, чтобы достигать поставленных целей. Принцип работы «Baba Is You» заключается в том, что игра представляет собой сетку, на которой расположены объекты и текстовые блоки, отражающие игровые правила.
Игрок может манипулировать этими правилами, переставляя слова, меняя таким образом условия победы и взаимодействия с объектами. Например, фраза «Baba is You» означает, что игрок управляет объектом Baba. Если переставить слова так, что «Flag is You», управление перейдет на флаг. Таким образом, каждое новое расположение правил меняет логику игрового мира, а значит и подход к решению головоломки. Именно эта гибкость и динамичность правил стала основой для проекта «Baba Is Eval» — инструмента для тестирования и развития моделей искусственного интеллекта, способных к многокомпонентному мышлению и адаптации к новым условиям.
В отличие от других игровых тестов для AI, где модель учится на достаточно фиксированном наборе правил и кажется, что она просто оптимизирует свои действия в ограниченных пределах, «Baba Is Eval» предлагает гораздо более сложную и динамичную среду. Правила не просто меняются — их можно полностью переосмыслить, и это требует от модели логического мышления на нескольких уровнях. Задача усложняется тем, что игра пошаговая, и количество ходов до решения используется как тонкая метрика успеха, позволяющая оценивать эффективность алгоритма. Одной из центральных проблем при адаптации «Baba is You» для использования в AI-тестировании стала сложность отображения игровой среды для моделей. Человеку привычно воспринимать игру через визуальный интерфейс, но для языковых моделей более эффективным оказывается текстовое представление игрового состояния.
Создатели «Baba Is Eval» разработали уникальную методику извлечения информации о состоянии игры через взаимодействие с файлами игры и использованием встроенных скриптов на языке Lua. Это позволяет получать точные данные обо всех объектах на игровом поле, их координатах и свойствах, упаковывать их в текстовые таблицы и передавать в контекст языковой модели. Этот подход имеет ключевое значение для повышения производительности и качества решения: вместо попыток распознавания изображения с экрана, которые часто сопровождаются ошибками и дают недостаточно структурированную информацию, система читает данные напрямую, в форме, оптимальной для анализа и рассуждения. Кроме того, такое «текстовое зрение» обеспечивает лучшую совместимость с современными моделями искусственного интеллекта, которые по умолчанию лучше работают с текстовой информацией. Управление игрой также было переосмыслено для работы с AI.
Вместо имитации нажатий клавиш, что является медленным и менее надежным вариантом, разработчики «Baba Is Eval» интегрировали возможность отправлять команды напрямую в движок игры с использованием внутреннего API. Это значительно ускоряет процесс и позволяет модели быстрее экспериментировать с разными ходами, проверять гипотезы и лучше контролировать состояние игры. Однако при разработке проекта возникли свои сложности, в первую очередь касающиеся выбора и загрузки уровней. Система управления меню игры была сложна для программного взаимодействия, поэтому был создан промежуточный слой, симулирующий ввод с клавиатуры на уровне навигации карты, а затем автоматизирующий выбор уровней с помощью инструментов автоклика и эмуляции нажатий. Несмотря на такой обходной путь, это позволяет запускать любую из множества пользовательских и стандартных головоломок игры почти без участия человека.
«Baba Is Eval» уже показал, что современные крупные языковые модели испытывают значительные трудности при решении даже самых простых уровней игры без дополнительной помощи и обучения. Например, одна из самых продвинутых моделей, Claude 4, смогла успешно пройти только стартовый уровень, где нужно было просто двигаться вправо несколько раз. Для всех остальным задач, включая отслеживание и изменение правил, планирование ходов и распознавание победных условий, она пока справляется плохо. Это иллюстрирует глубину интеллектуального вызова, который представляет собой игра, и почему она идеальна в качестве тестовой платформы для развития общемышления и гибкости AI. Наблюдения за работой «Baba Is Eval» подтверждают идеи, высказанные еще Франсуа Шоле в своих исследованиях: машинное обучение и современные нейросети пока не способны к глубокому пониманию и планированию в сложных нестандартных ситуациях без специализированных механизмов рассуждения.
Возможное решение — переключение на другие модели, которые лучше управляют контекстом, более эффективно перерабатывают информацию и используют продвинутые стратегии планирования. Также перспективным направлением является оптимизация формата представления игрового состояния к более компактному, подходящему для токенизации языковыми моделями, что позволит справляться с большей сложностью и размером уровней. Кроме того, интеграция специализированных инструментальных функций, таких как move_to() для упрощения команд перемещения, поможет минимизировать объем вводимых инструкций и повысить скорость и качество решения головоломок. Это особенно актуально для уровней с особыми механиками, такими как PULL и MOVE, где требуется более тонкий контроль по сравнению с базовыми действиями. Система открыта для сообщества, и разработчики приглашают энтузиастов и исследователей в области ИИ и игр принять участие в развитии проекта.