В последние годы тема масштабирования в области искусственного интеллекта вызвала бурные обсуждения, особенно в контексте робототехники. В то время как огромные нейронные сети, обученные на колоссальных объемах данных, продемонстрировали впечатляющие успехи в таких сферах, как компьютерное зрение и обработка естественного языка, вопрос остается открытым: поможет ли этот подход решить фундаментальные проблемы робототехники? События крупнейшей конференции по машинному обучению для робототехники CoRL собрали более 900 специалистов, где обсуждение данной темы заняло центральное место. Анализ аргументов «за» и «против» масштабирования позволяет взглянуть на потенциал и ограниченность этой стратегии в сегодняшних реалиях научных исследований и промышленности. Преимущества масштабирования и основы оптимизма связаны с использованием крупных моделей и крупных наборов данных, которые оказались эффективными в задачах компьютерного зрения и обработки языка. Успехи таких систем, как GPT-4V и SAM, иллюстрируют, что при достаточном объеме данных и вычислительных ресурсов появляются возможности распознавать и решать задачи, которые ранее казались практически невыполнимыми.
Общий принцип обучения большой нейросети на разнообразном и масштабном датасете предлагает универсальность и неожиданные emergent свойства, обеспечивающие способность выполнять задачи, не учитывающиеся явно в процессе тренировки. Исследователи из Google DeepMind и университетов, таких как UC Berkeley, уже демонстрируют первые пробы создания роботов-«фондейшн» моделей, способных к выполнению различных навигационных и манипуляционных задач без привязки к конкретной платформе. Фундаментальная концепция, сыгравшая ключевую роль в дебатах, - это так называемая гипотеза многообразия. Она предполагает, что практические задачи, решаемые роботами, лежат внутри относительно простого и низкоразмерного подпространства огромного множества теоретически возможных операций. Следовательно, если обучать модель на огромном числе примеров, она способна выявить это многообразие и интерполировать новые, ранее не встречавшиеся задачи.
В этой точке зрения робототехника не отличается принципиально от задач в компьютерном зрении и обработке текста, где масштабирование модели и данных позволило достичь огромных успехов. Кроме того, современные крупные модели являются потенциальным способом выработать так называемый «здравый смысл» - способность устойчиво реагировать на вариабельность и необычные ситуации, которые являются практическими проблемами при выполнении реальных робототехнических задач. Однако эта оптимистичная картинка соприкасается с серьезными вызовами и ограничениями. Самым заметным препятствием является дефицит данных. Интернет и цифровой мир предоставляют колоссальные объемы изображений и текстов, но для робототехники нет эквивалентного источника данных.
Из-за уникальности сенсорики, разнообразия физических манипуляций и отсутствия массового сбора и публикации подобных наборов данных затраты на создание масштабных датасетов для роботов остаются чрезвычайно высокими. Каждая робототехническая платформа уникальна — будь то манипулятор, мобильный робот или дрон — что усложняет совместное использование данных и объединение их для обучения одной модели. Это усугубляется тем, что для генерализации в разных сложных и разнообразных средах требуется огромный объем разнообразных данных, что создает колоссальную задачу по их сбору, аннотированию и обработке. Помимо недостатка данных, тяжело преодолимо и высокое энергопотребление и финансовые затраты на обучение больших моделей, которые включают миллионы или миллиарды параметров. Для того, чтобы создать робота-фундаментальную модель сопоставимую по масштабу с моделями в NLP, требуются бюджеты и вычислительные мощности, доступные, как правило, лишь крупным корпорациям или государственным институтам.
Это серьезно ограничивает доступность данного подхода для академической среды и стартапов, удлиняет временные рамки исследований и внедрения технологий. Некоторые специалисты подчеркивают, что даже теоретически успешная масштабируемость не решит так называемую проблему 99.x - то есть достигнуть уровня надежности и точности, требуемых для реального применения. В робототехнике успешное выполнение задачи часто требует непрерывной и безошибочной работы на протяжении долгого времени и большого количества последовательных действий. Для роботов, взаимодействующих с непредсказуемой реальной средой, любое малейшее отклонение от оптимальной последовательности команд может привести к провалу всей операции.
Аналогия с автомобильной промышленностью показывает, что компании, такие как Tesla и Waymo, пытаются использовать преимущественно масштабные модели и большие датасеты в создании систем автономного вождения, но до уровня полномасштабной «пятой» автономии им пока далеко, и некоторые достижения модульных архитектур выглядят более уверенными. Кроме того, ряд экспертов отмечают, что многие робототехнические задачи носят долгосрочный характер и требуют согласованной работы в течение продолжительного временного интервала, что вызывает накапливание ошибок и нестабильность работы моделей. Даже крупнейшие языковые модели пока не способны поддерживать беспрерывную связанную логику и последовательность на масштабных горизонтах, и задачи физического управления платформами с тысячами или сотнями тысяч тактов моторных команд оказываются гораздо более сложными. В свете описанных вызовов, разрабатываются альтернативные и дополнительные пути развития. Один из них — гибридные подходы, когда масштабные модели используются в тандеме с классическими методами управления и планирования.
Они позволяют получить стабильность и гарантии безопасности от традиционных алгоритмов, при этом повышая адаптивность и универсальность за счет изучаемых моделей машинного обучения. Такой «средний путь» выглядит наиболее жизнеспособным в ближайшем будущем, имея за плечами успешные примеры внедрения в медицине, промышленной робототехнике и автономной навигации. Еще один перспективный вектор — развитие симуляторов и методов переноса обучения из виртуальной среды в реальный мир. Симуляции позволяют сгенерировать огромное количество разнообразных сценариев, значительно расширяя обучающие данные без необходимости дорогих физических экспериментов. Совмещение предобучения на данных из компьютерного зрения и текстовых источников, с последующей дообучением «на финальных метах» с меньшими объемами реальных робототехнических данных, как показывает опыт Google с моделью RT-2, может стать важным компонентом в преодолении нынешних ограничений.
Важно также отметить, что внедрение человеко-ориентированных подходов (Human-in-the-Loop) рассматривается как один из способов обойти проблематику 99.x надежности. Присутствие оператора, который может корректировать ошибки робота в реальном времени, повышает общую безопасность и эффективность системы при сложных задачах. Аналогично тому, как большие языковые модели используются в качестве интеллектуальных помощников для людей, а не полностью автономных систем, роботы с участием человека в управлении становятся более практичными на ранних стадиях внедрения. Исследовательское сообщество также признает необходимость более открытого обсуждения неудач и негативных результатов, которые зачастую остаются невысвеченными.
Осознание и анализ причин неудач помогут избежать повторения одних и тех же ошибок, создадут условия для более устойчивого и быстрого прогресса в направлении создания универсальных роботов. Наконец, несмотря на реальные достижения и интерес, не следует исключать возможность появления совершенно новых, неожиданных подходов, которые базируются на иных принципах и парадигмах, радикально отличающихся от текущих методов машинного обучения и классического управления. По мере развития робототехники смелость в экспериментах и готовность к инновациям станут ключевыми факторами успеха. Таким образом, масштабирование и увеличение объемов данных — это важный, но не единственный и далеко не универсальный путь к решению задач робототехники. Большие модели и наборы данных уже влияют на научную и инженерную практику, открывая новые горизонты возможностей, однако существенные проблемы, связанные с доступностью данных, вычислительной затратностью, надёжностью и долгосрочной последовательностью действий, остаются нерешёнными.
Наиболее вероятно, что будущее робототехники будет сочетанием масштабирования с гибридными подходами, симуляционными технологиями, человеко-ориентированным управлением и новаторскими идеями. Только комплексный и разносторонний подход позволит приблизить момент, когда универсальные роботы действительно станут частью повседневной жизни и промышленности.