Современное развитие технологий искусственного интеллекта заметно меняет подход к созданию интерактивных игр и симуляций. Одним из перспективных направлений являются модели мира (world models), основанные на методах генерации видео с помощью диффузионных моделей. Они способны имитировать игровую среду в режиме реального времени, формируя кадры на основе пользовательских действий без необходимости программировать классическую логику игры. В качестве примера подобных реализаций можно привести проекты, такие как вирусный ИИ Minecraft от Decart, интерактивные видео Odyssey, а также решения Google с их Genie 2. Все эти разработки дают нам представление о будущем, где игры и фильмы можно создавать, настраивать и взаимодействовать с ними непосредственно на ноутбуках и мобильных устройствах без сложного оборудования.
В центре внимания этого проекта — оптимизация диффузионной модели мира на примере классической игры Flappy Bird с целью запуска модели прямо в веб-браузере с приемлемой производительностью и без задержек. Проблема высокой вычислительной сложности Обычно обучение моделей мира ведётся на мощных серверах с GPU, а публикация результатов происходит через удалённые демо с ограниченным временем сеанса для пользователей. Такая практика обусловлена высокой вычислительной интенсивностью генерации видеокадров — алгоритмы требуют значительных ресурсов для поэтапного «очищения» шумов и формирования изображения. Даже при переходе на специализированное оборудование и оптимизированные стеки, например, на Transformer-чипах или видеогенераторах FAL, масштабируемость остаётся узким местом. При увеличении популярности этих моделей нагрузка на серверы будет расти, а стоимость поддержки — увеличиваться.
Выходом из этой ситуации может стать перенос части вычислений непосредственно на устройства пользователей — например, на их телефоны или ноутбуки. Это требует сокращения размеров и сложности моделей, чтобы обеспечить мгновенную интерактивность, отсутствие сессий и очередей, а также максимальное распространение технологии. Однако главная трудность — адаптировать ресурсоёмкие диффузионные архитектуры под ограниченные возможности браузера. Flappy Bird как идеальный тестовый пример Для исследования этой задачи выбрана игра Flappy Bird, её простая 2D-графика и ограниченный набор действий позволяют значительно уменьшить модель без потери качества. В основе лежит архитектура DIAMOND Diffusion — двухступенчатый UNet с базовым деноизером и небольшим апсемплером, который масштабирует кадры с низкого разрешения до высокого.
Деноизер получает на вход последовательности предыдущих кадров и действий (три действия: FLAP — птица подпрыгивает, NO FLAP — свободное падение, и RESET — сброс игры), а апсемплер улучшает итоговое изображение. Данные для обучения были собраны из нескольких источников: записи ручной игры, действия экспертов-роботов и случайные сценарии, что позволило охватить различные игровые ситуации и улучшить обобщаемость модели. После тренировки базовая модель была конвертирована в ONNX для использования с WebGPU. Проблемы с производительностью и пути их решения Первичная версия содержала более 381 миллиона параметров и работала на скорости около 0,42 кадров в секунду — слишком медленно для интерактивного использования. Основное время уходило на вызываемые деноизером и апсемплером функции.
Первым шагом улучшения стало изменение формата данных на float16 и обновление версии ONNX-opset, что позволило увеличить FPS примерно на 50%. Также были оптимизированы операции отображения и буферы, что улучшило отзывчивость. Снижая количество проходов деноизера с трёх до одного, удалось получить до трехкратное ускорение, однако качество изображения немного снизилось, появлялись размытые и артефактные кадры. Главный успех здесь принесла особенность эсдм-диффузии (EDM), которая обеспечивает стабильность даже с агрессивным сокращением числа шагов, в отличие от классических DDPM-моделей, которым необходимы длительные поэтапные проходы для качественного результата. Вторым ограничением моделирования был слишком большой размер модели.
В ходе серии экспериментов архитектор последовательно снижал количество каналов, количество блоков и размер фильтров, добиваясь «тонкой настройки», при которой параметры уменьшались с сотен миллионов до нескольких миллионов без критичной потери качества и с огромным ростом производительности. Комбинация 5-миллионного деноизера и 112-тысячного апсемплера позволила увеличить частоту кадров более чем в 15 раз. Дальнейшие улучшения вызваны переходом на латентное диффузионное моделирование с использованием автокодировщика. Вместо того, чтобы апсемплер улучшал изображение полностью, кадры приходят в сильно сжатом латентном пространстве (в 8 раз меньше исходного размера), где моделирование становится более экономным. Автокодировщик декодирует эти латенты обратно в полное изображение гораздо быстрее, чем классический полнопиксельный апсемплер.
В результате общая производительность модели увеличивается примерно до 30 FPS на ноутбуках и около 12-15 FPS на мобильных устройствах при сохранении приемлемого качества. Особенности реализации для мобильных устройств WebGPU, отвечающий за аппаратное ускорение в браузерах, постепенно внедряется на мобильных платформах, начиная с iOS 18. Однако пока что для старых или менее мощных устройств используется WebAssembly (WASM), который не предоставляет такого же уровня параллелизма и скорости. Несмотря на это, возможности сжатых моделей и оптимизаций позволяют на iPhone 14 Pro работать на скорости свыше 12 FPS даже в режиме WASM, что делает интерактивный опыт вполне комфортным. Дальнейшая перспектива — дополнительная поддержка WebGL для обхода ограничений совместимости, а также углубленная оптимизация WebGPU через разработку кастомных ядер, что позволит еще повысить скорость и качество вывода.
Одновременно с этим ведутся исследования новых архитектур и методов для более сложных 3D-игр, где требования к моделям мира значительно выше. Возможные направления развития и применения Эта работа демонстрирует, что даже со сравнительно небольшим игровым миром можно создать жизнеспособную диффузионную модель для интерактивного запуска в браузере. Одним из приоритетов является решение проблемы визуальных артефактов, связанных с сокращением числа шагов денойзинга, что требует новых методов сэмплинга и регуляризации. В перспективе возможно добавление аудиокодирования и синтеза для создания аудио-видео моделей мира, что обогатит интерактивность и реализм игры. Также заметное направление — интеграция систем управления стилем и внешним видом персонажей и окружения в реальном времени с помощью текстовых команд, подобно технологии ControlNet.
Рассматриваются пути масштабирования на 3D-пространства с использованием более эффективных диффузионных архитектур и кодеков, справляющихся с объемными данными и более сложной графикой. Подобные разработки откроют новые горизонты для интерактивного контента и персонализированных игровых миров. Заключение Оптимизация диффузионной модели мира на примере Flappy Bird демонстрирует реальную возможность запуска сложных ИИ-симуляций внутри браузера без дорогих серверных ресурсов. Ключ к успеху — тщательная балансировка параметров модели, использование современных форматов сжатия и эффективных вычислительных платформ, таких как WebGPU и WASM. Продолжающееся развитие веб-стандартов и технологий GPU-ускорения на мобильных устройствах только расширит возможности такого подхода, делая игры и интерактивные приложения более доступными и универсальными.
Этот проект является доказательством концепции и вдохновляющим примером для исследователей и разработчиков, стремящихся к созданию интерактивных, масштабируемых и настраиваемых ИИ моделей мира, работающих в условиях ограниченных вычислительных ресурсов. Опыт, собранный здесь, можно использовать как отправную точку для будущих инноваций в области игровых технологий и генеративного искусственного интеллекта.