В последние годы развитие искусственного интеллекта продвинулось семимильными шагами благодаря масштабированию больших языковых моделей, таких как GPT и подобные. Однако несмотря на впечатляющие способности в обработке текста, умения вести диалог, решать задачи и выполнять сложные логические вычисления, современным языковым моделям пока не под силу понять физический мир вокруг нас и, тем более, взаимодействовать с ним. В частности, роботам до сих пор сложно выполнить простую задачу — взять чашку с кухонного стола и подать её хозяину. Пробел в «понимании» физических процессов ограничивает возможности автоматизации и внедрения роботов в домашнюю и промышленную среду. Но новая разработка под названием V-JEPA 2 кардинально меняет ситуацию, предложив иной подход, основанный не на тексте, а на видео — и при этом в масштабах, которые казались невозможными несколько лет назад.
Главная идея состоит в том, что роботам нужно не столько понимать язык, сколько физику и динамику взаимодействия с объектами в трёхмерном пространстве. Если большие языковые модели обучаются на текстах с интернета, то V-JEPA 2 учится прогнозировать не следующий символ, а следующее мгновение в видео. Вместо того чтобы пытаться понять, какая часть языка лучше всего описывает ситуацию, система анализирует огромный поток реальных видео — более миллиона часов с YouTube, включая наборы видеоданных вроде kinetics, howto100m и многое другое. Это обучение сделало её способной предсказывать развитие физической сцены с невероятной точностью. Ключевым техническим достоинством модели является прогнозирование не в пикселях, а в пространстве представлений (латентном пространстве).
Традиционные модели, пытающиеся предсказать следующий кадр на уровне каждого пикселя, наталкиваются на проблему избыточной информации и шума. Вместо этого V-JEPA 2 использует мощный энкодер, построенный на архитектуре Vision Transformer с миллиардом параметров, который вычленяет суть происходящего в видео и кодирует её в абстрактное представление. Далее меньшая нейросеть предсказывает отсутствующие «куски» видео, которые модель специально пропускает в процессе обучения. Такой метод напоминает интеллектуальную игру с заполнением пропусков, что позволяет сети научиться моделировать физическую логику происходящего. Особенно инновационной является концепция трехмерного позиционного кодирования (3D-RoPE), позволяющего воспринимать пространственные отношения в трех измерениях, а не ограничиваться двумерной плоскостью.
Это критично для понимания движения объектов и взаимодействия с окружающей средой, что напрямую отражается на эффективности роботов. Процесс обучения происходил поэтапно, начиная с видео невысокого разрешения и малого числа кадров, постепенно переходя к более «тяжёлым» данным. Такой подход — форма куррикулум-обучения — позволил экономить вычислительные ресурсы и улучшать качество итоговой модели. Следующий значимый шаг — создание V-JEPA 2-AC, расширения оригинальной модели, которое способно предсказывать последствия конкретных действий в физическом мире. Для этого к замороженному базовому энкодеру прикрепили дополнительный трансформер на 300 миллионов параметров, обученный на реальных видео с движения робота Franka Emika.
Необычно, что данные для обучения были крайне «сырыми», то есть включали как успешные, так и неудачные попытки выполнения задач, без специальной фильтрации и отбора. Это улучшило универсальность модели и её устойчивость к реальным ситуациям. Система реализует принцип, известный как минимизация энергии — она сравнивает текущее состояние с заданной целью, генерирует множество возможных сценариев действий, оценивает, какой из них ближе всего приведет к успеху, выполняет первый шаг и повторяет цикл. Такой метод предвосхищения и корректировки на лету называют управлением с моделью предсказания (model predictive control), и именно он делает робота эффективным в сложных условиях. Потрясающая особенность V-JEPA 2-AC — его способность к zero-shot генерализации.
Обученный на одном наборе данных, он без дообучения и настройки успешно выполняет задачи в совершенно новых лабораториях с разным освещением и объектами. Успеваемость по разным задачам впечатляет: достижение точки — 100%, захват чашки и перемещение объектов — около 65–80%, что значительно превосходит предыдущие методы роботического управления, часто неспособные к таким результатам. Кроме того, V-JEPA 2-AC превосходит традиционные подходы по скорости планирования: вместо нескольких минут на одну команду, он тратит всего порядка 16 секунд, что резко увеличивает оперативность и эффективность работы робота. Для исследователей и разработчиков робототехники данный проект демонстрирует новый путь обучения, не требующий долгих и дорогих телепортаций или ручного разметки данных. 62 часа реального видео гораздо более эффективны, чем тысячи часов традиционных методов.
Среди плюсов модели — детальное понимание физики движения, высокая скорость реакций, универсальность в новых условиях и способность работать с самыми разнообразными объектами. Однако не всё идеально. Модель чувствительна к изменениям камеры. Даже небольшой сдвиг угла обзора может привести к ошибкам в интерпретации движения и направления, что требует тщательной настройки аппаратуры. Долгосрочное планирование пока вызывает проблемы из-за накопления ошибок и «дрейфа» прогнозов.
Кроме того, на данный момент роботу необходимо показывать фотографию того, что нужно выполнить, чтобы задать цель — с языковой постановкой задач пока большие трудности. Это ограничение — важная область для будущих исследований. Интеграция V-JEPA 2 с крупными языковыми моделями открывает ещё более широкий спектр возможностей. Совместное использование видеопредставлений и языкового понимания позволяет создавать системы, способные отвечать на вопросы по видео с точностью, превосходящей традиционные модели, обученные на связках изображение-текст. Эти результаты бросают вызов устоявшимся взглядам на необходимость языкового надзора для понимания окружающего мира искусственным интеллектом.