Современные достижения в области искусственного интеллекта стремительно продвигаются к созданию так называемых общих мультимодальных моделей — систем, способных одновременно воспринимать визуальную информацию, обрабатывать естественный язык и выполнять действия в реальном или симулированном пространстве. Одним из наиболее значимых шагов в развитии такой комплексной AI-экосистемы стал проект MultiNet, предлагающий универсальный бенчмарк для оценки и сравнительного анализа мультидисциплинарных моделей в различных областях и сценариях. MultiNet — это открытая инициатива, получившая вклад со стороны ведущих исследовательских групп и научных организаций. В ее основе лежит стремление создать стандартизированную, прозрачную и масштабируемую платформу, позволяющую объективно оценивать способности систем нового поколения, охватывающих зрение, язык и действие. MultiNet объединяет огромное количество разнородных данных, включая свыше 800 миллионов пар изображений и текстов, а также более триллиона языковых токенов и исключительный объем — более 35 терабайт — данных для обучения робототехнических и систем управления на основе подкрепления.
Такая масштабность позволяет не только покрыть широкий спектр задач, но и учитывать особенности различных модальностей, обеспечивая высокую степень сложности и многообразия тестовых примеров. Ключевым элементом платформы стала консолидированная база данных, которая включает выборки различных источников и доменов. Среди них — OpenX-Embodiment, COYO-700M, OBELICS, а также известные среды для симуляции управления и игр: Mujoco, Procgen, Atari. Многообразие используемых датасетов позволяет исследователям и разработчикам проверять модели на всевозможных типах задач: распознавание и описание изображений, ответы на вопросы, робототехнические манипуляции, игры, моделирование сложных сценариев ориентации и взаимодействия в виртуальной среде. MultiNet не ограничивается только сбором данных — он предоставляет полный инструментарий для стандартизированной оценки.
Важным достижением проекта стала разработка Evaluation Harness — программного комплекта, позволяющего организовать воспроизводимые эксперименты, собирать метрики производительности и проводить сравнительный анализ различных архитектур. Этот набор инструментов с открытым исходным кодом учитывает специфику данных для робототехники и обучения с подкреплением и оптимизирован для интеграции с современными моделями Vision-Language-Action (VLA). Внимание к архитектуре и особенностям обработки информации — еще один значимый вклад MultiNet в развитие исследовательского сообщества. В версии 0.2 бенчмарк направлен на тестирование моделей в процедурно генерируемых открытых просторах игровых сред.
Это позволяет не только оценить точность и эффективность, но также понять способности моделей к обобщению, адаптации к незнакомым условиям и сложным задачам. Анализирует влияние параметров моделирования, сложности изображения и объема пространства действий на результативность, что предоставляет глубокие инсайты в вопросах построения будущих универсальных систем ИИ. Говоря о робототехнических задачах, версия 0.1 MultiNet сосредоточена на проверке успешности моделей в реальных сценариях работы с манипуляторами и мобильными роботами. Для этого команда проекта разработала дополнительные показатели оценки и рамки сопоставления моделей, способных связывать зрительный и языковой вход с конкретными действиями, выполняемыми роботом.
Такая междисциплинарная интеграция данных и методик дает возможность создавать более надежные, адаптивные и эффективные системы, которые могут справляться с комплексными вызовами реального мира. Не менее значимой частью экосистемы является фреймворк GenESIS (Generalizable Extendable Stratified Inference System), представляющий собой методологию генерации команд для действий на основе языковых моделей. Он учитывает системные цели, правила окружающей среды и контекст задачи, интегрирует визуальную информацию и определяет точные форматы для вывода, что позволяет осуществлять согласованное и контролируемое взаимодействие между модальностями. Важное место занимает также μGato — упрощенная реализация модели GATO от DeepMind, адаптированная для интерактивных экспериментов и исследования мультимодальных подходов. Этот открытый проект предоставляет начальную платформу для развития комплексных систем с единой архитектурой, способных работать с текстом, изображениями, а также задачами управления и обучения с подкреплением.
Через μGato исследователи могут проводить быструю итерацию идей и улучшать представления об особенностях мультимодального обучения. Помимо μGato, в рамках инициативы развивается NEKO — масштабный открытый проект по созданию многомодальной модели нового поколения. NEKO нацелен на одновременную обработку изображений, текста, аудио, видео и данных о движении, представляя собой амбициозный шаг к созданию по-настоящему универсального искусственного интеллекта. Важным направлением является обеспечением простоты использования и доступности инструментов для исследовательского сообщества, что способствует коллективному прогрессу. MultiNet сыграл значимую роль в академическом мире — результаты работы команды получили высокое признание, включая публикации и доклады на престижных международных конференциях, таких как ICML 2025 и CodeML Workshop.