В последние годы искусственный интеллект стремительно развивается в области обработки естественного языка и компьютерного зрения. Одним из наиболее перспективных направлений является создание моделей, способных одновременно воспринимать визуальную информацию и объяснять её на языке, то есть так называемых визуально-языковых моделей (Vision Language Models, VLMs). Несмотря на значительные успехи в автоматическом распознавании образов и понимании текста, применение таких моделей для полноценной интерактивной работы в сложных динамических средах, таких как видеоигры, остаётся большой проблемой. VideoGameBench — новый комплексный исследовательский бенчмарк, призванный проверить и развить способности VLM-агентов справляться с реальными популярными видеоиграми. Данная платформа открывает уникальные возможности для оценки прогресса в искусственном интеллекте и понимании многомодальных данных.
VideoGameBench представляет собой единую стандартную среду, в которой интеллектуальные агенты могут управлять персонажами в двадцати избранных видеоиграх на платформах Game Boy и MS-DOS. Выбор старых игр был обусловлен их относительной простотой в визуальном плане, а также разнообразием игровых механизмов, включающих в себя как игровые контроллеры, так и симуляцию мыши с клавиатурой. Такие игры предлагают широкий спектр сюжетов, жанров и стратегий — от классических платформеров и пошаговой стратегии до 3D шутеров и головоломок, что представляет собой непростую задачу для моделей с ограниченными обучающими данными и сложным пониманием пространственно-временных взаимодействий.Особенностью VideoGameBench является использование исключительно необработанных визуальных кадров игры в качестве наблюдений для интеллектуального агента — без дополнительной информации из игры, такой как внутренние текстовые данные или выделенные игровые объекты. Это создаёт максимально честные и непростые условия для обучения и оценки, поскольку VLM должен самостоятельно извлекать смысл и принимать решения на основе визуального восприятия, что максимально приближено к восприятию человека.
Проект также предлагает облегчённую версию под названием VideoGameBench-Lite. Это более упрощённый набор игр, где во время обработки и принятия решения агента игра приостанавливается. Учитывая высокую задержку при работе крупнейших моделей, это позволяет существенно снизить негативный эффект от несоответствия времени ответа и изменяющегося игрового состояния, что является серьёзной проблемой в реальном времени. Благодаря такой возможности агентам удаётся выполнять более точные и эффективные действия, что способствует лучшему пониманию их потенциала при оптимальных условиях.Несмотря на то, что современные эксперименты демонстрируют некоторые успехи — например, продвижение агента до мини-босса в Kirby's Dream Land — пока ни одна из моделей не способна пройти всю игру или даже закончить первый уровень в многих из них.
Одним из ключевых препятствий оказывается необходимость долгосрочного и краткосрочного планирования, пространственного анализа и интуиции. Например, в Doom II агенты часто путают уже поражённых врагов с живыми и неправильно расходуют боеприпасы, что прямо влияет на игровой результат. Это наглядно демонстрирует недостаточную точность визуального интерпретатора модели и сложности в согласовании видимой информации с внутренними целями и стратегиями.Высокая задержка обработки (3-5 секунд на действие) усугубляет и без того непростую задачу, так как ситуация на экране быстро меняется, что приводит к устареванию подсказок от модели к моменту действия. Это фундаментальная проблема для взаимодействия с динамическими средами, где время реагирования критично.
Вопрос о том, какого уровня детализации должны быть действия — одиночный клик, серия нажатий или более сложная мини-политика — остаётся открытым и требует дальнейших исследований.Кроме того, контроль за перемещением мыши и клавиатурой в таких стратегиях, как Civilization или Warcraft II, вызывает дополнительные сложности. Модели нередко ошибаются с точностью перемещения, кликая не на те элементы интерфейса, что мешает последовательному прогрессу в игре. Аналогично, интуитивные игровые механики часто остаются непонятыми без предварительных инструкций, что особенно важно при тестировании на «секретных» играх, где отсутствуют подсказки и обучение происходит исключительно на основе игрового опыта. В таких случаях модель может не воспользоваться эффективными игровыми приёмами или не заметить ключевые инструменты для победы.
История использования искусственного интеллекта в играх восходит к эпохе алгоритмов с подкреплением (Reinforcement Learning, RL), которые уже смогли добиться человеческого и даже сверхчеловеческого уровня в таких играх, как Atari, Go, StarCraft II и другие. Однако RL традиционно требует больших ресурсов для обучения: множества пройденных игр, учёта экспертного поведения и т.д. VideoGameBench же предлагает альтернативный подход — попытку использовать один и тот же VLM, обученный на обширных данных извне, без специфической тренировки под каждую игру, что открывает перспективы многофункциональных универсальных агентов. Впрочем, VLM пока уступают RL в игровой эффективности, особенно при решении задач с высокими требованиями к реактивности и точности.
VideoGameBench разрабатывается как открытый проект с целью дать исследовательскому сообществу гибкий инструмент для испытания и совершенствования различных архитектур и методов интеграции языкового и визуального понимания. Платформа построена на свободных эмуляторах PyBoy (Game Boy) и DOSBox (MS-DOS), что позволяет в будущем расширять список поддерживаемых игр и платформ, а также интегрировать сложные агенты и интерфейсы для оптимизации взаимодействия.Важно отметить, что Play-Store моделей и доступные API позволяют быстро тестировать собственных интеллектуальных агентов на VideoGameBench, используя комплект из базового VideoGameAgent с поддержкой памяти, а также удобный пользовательский интерфейс для отображения мыслей и действий агента в режиме реального времени. Такие инструменты способствуют пониманию того, как именно модели обрабатывают игровую информацию, принимают решения и корректируют своё поведение, открывая новые направления для улучшений и исследований.Изучение VideoGameBench и его возможностей помогает лучше осознать, как мультимодальные модели могут справляться с задачами, требующими синтеза визуальной и языковой информации в режиме реального времени.
Прогресс в этой области значим не только для развлечений и гейминга, но и для создания интеллектуальных ассистентов, роботов и систем, способных принимать комплексные решения на основе визуального контекста и текстовых инструкций.Помимо повышения точности восприятия и планирования, важнейшими вызовами являются оптимизация времени отклика, способности к долгосрочному стратегированию и адекватное понимание динамических, интерактивных игровых миров. Современные лидеры индустрии, такие как GPT-4o, Claude Sonnet 3.7 и Gemini 2.5 Pro, уже демонстрируют начало пути, однако их пока нельзя назвать полноценными игроками.
Они совершают типичные ошибки, свойственные новичкам — неправильное понимание игровых механик, проблемы с целеполаганием и неспособность гибко реагировать на изменяющиеся обстоятельства.VideoGameBench открывает двери для новых исследовательских работ и совместных усилий сообщества: расширения набора игр, улучшения моделей, разработки новых подходов к контролю действий и восприятию. В будущем этот проект может стать эталонной платформой для тестирования универсальных интеллектов, способных полноценно взаимодействовать с визуальными и языковыми потоками, что будет иметь широкий резонанс как в академической среде, так и в индустрии искусственного интеллекта.Таким образом, VideoGameBench — это важный шаг в развитии искусственного интеллекта с мультимодальными возможностями, позволяющий исследовать границы того, насколько далеко можно продвинуться в понимании и управлении сложными визуально-языковыми системами на примере реальных видеоигр. Этот бенчмарк не только собирает воедино разнообразие игровых жанров и платформ, но и заставляет модели совершенствоваться в области интегрированного восприятия, планирования и действия в условиях ограниченного времени.
С ним открываются новые горизонты для создания универсальных, адаптивных и умных агентов будущего.