Современная робототехника переживает революцию благодаря стремительному развитию материалов, технологий производства и алгоритмов управления. Одной из ключевых проблем, с которой сталкиваются учёные и инженеры, является управление роботами с разной степенью сложности, особенно теми, которые не соответствуют традиционной модели жёстких звеньев и шарниров, а включают в себя мягкие, гибридные и биомиметические конструкции. Способность управлять такими системами с высокой точностью и без необходимости полного знания внутренних параметров открывает невероятные перспективы для промышленности, медицины и повседневной жизни. Именно в этой области представляющий интерес подход использует инференцию поля Якоби с помощью глубоких нейронных сетей, что обеспечивает беспрецедентный уровень универсальности и эффективности в управлении роботами. Идея базируется на том, что традиционные роботы хорошо поддаются математическому моделированию благодаря своей конструкции — жёсткие и точно сконструированные звенья связаны в кинематические цепи, каждый сустав оснащён датчиком, позволяющим отслеживать углы или позиции.
Это облегчает разработку алгоритмов управления и предсказание поведения. Однако современная тенденция в создании роботов склоняется к использованию гибридных или полностью мягких материалов, имитирующих биологические ткани, мышцы и сухожилия. Такие роботы обладают гибкостью, адаптивностью и безопасностью в общении с людьми, но управление ими значительно сложнее из-за нелинейных деформируемых структур, отсутствия встроенных датчиков и изменяющихся характеристик материалов. Для решения этой проблемы учёные из Массачусетского технологического института (MIT) представили инновационный подход, основанный на восстановлении так называемого «визуомоторного поля Якоби» из единственного видеопотока. Визуомоторное поле Якоби — это функциональная карта, которая связывает каждую точку трехмерного пространства, занимаемого роботом, с её чувствительностью к каналам управления — другими словами, показывает, как изменение управляющих сигналов влияет на 3D-положение каждой точки на теле робота.
Метод позволяет не использовать никаких предположений о материалах, типах актуаторов или встроенных сенсорах робота. Обучение происходит в полностью самообучаемом режиме и основано на наблюдении за случайно сгенерированными командами и соответствующими движениями робота, зафиксированными множеством камер. Ключевым компонентом системы является глубокая нейронная сеть, которая, получая на вход один кадр видео с роботом, восстанавливает 3D-сцену и одновременно создаёт поле Якоби, описывающее эластичную структуру и дифференциальную кинематику робота. При этом используется техника нейронного визуального представления сцены, основанная на нейронном радиационном поле, что позволяет максимально точно реконструировать форму и внешний вид робота в пространстве из обычных RGB-кадров. Затем поле Якоби используется для предсказания движения любой точки на роботе в ответ на изменение управляющих сигналов.
В итоге система может прогнозировать, как робот будет двигаться и деформироваться почти в реальном времени. Обучение модели требует данных, собранных с помощью множества (до 12) RGB-D камер, которые снимают робота с разных ракурсов во время выполнения случайных команд. Эти данные обрабатываются методом оптического потока и трекинга точек, что позволяет обнаруживать как движение по плоскости изображения, так и его проекцию в трехмерном пространстве. Сравнивая предсказания модели по движению с реальными измерениями, система обучается всё точнее имитировать кинематику робота, что в результате даёт ей возможность функционировать только по одному видеопотоку от обычной камеры в условиях эксплуатации. Благодаря этому подходу удалось успешно управлять целым спектром роботов, включая гибридную 3D-печатную мягко–жёсткую пневматическую руку, коммерческую антропоморфную руку Allegro с 16 степенями свободы, а также недорогую образовательную 3D-печатную роботизированную руку с сильным люфтом и недостатком сенсоров.
Несмотря на высокую сложность и неоднородность систем, метод позволил точно восстанавливать динамическую структуру роботов и с высокой точностью следовать заданным траекториям с частотой около 12 Гц. Управление осуществлялось в закрытом контуре, что повышало надёжность в ситуациях с изменениями внешних условий, например, добавлением груза или наличием визуальных помех. Достоинством предлагаемой методики является принципиальная независимость от точных моделей и ручного труда. Ранее для каждого робота эксперты тратили недели и месяцы на создание его математической модели, подбор параметров и разработку специализированного управляющего ПО. Теперь же, благодаря самообучающемуся подходу, можно просто «наблюдать» за роботом в процессе случайных движений, и система сама определит, как им управлять, используя только визуальные данные.
Кроме того, метод отлично переносится на роботов с изменяющейся динамикой и внешними воздействиями, так как опирается на фактические визуальные свидетельства движений, а не на жёсткие гипотезы о конструкции и материалах. Это серьёзно расширяет возможности для применения дешёвых, легко производимых и гибридных роботов в промышленности и быту, где привычные методы контроля оказываются неприемлемыми из-за высокой стоимости и сложности интроспекции. Разработчики инструмента отмечают, что его вдохновением стал человеческий способ управления: человек может обучиться управлять новым роботом, используя исключительно зрение и собственные ощущения, без необходимости знать внутреннее устройство устройства. Аналогично, их система функционирует с единственной RGB-камерой, обходясь без множества датчиков и радиометок. Кроме того, решение использует современные методы компьютерного зрения и нейронного рендеринга, что повышает качество восстанавливания 3D-сцен и устойчивость к частичному перекрытию, изменению освещения и внешней обстановки.
В добавок, подход может выполнять перенос демонстраций движений, записанных под одним углом зрения, на управление роботом с другого ракурса, что существенно упрощает обучение и воспроизведение новых навыков. Это направление открывает множество дальнейших перспектив и тем для развития. Например, интеграция дополнительных сенсорных данных — тактильных, звуковых — поможет компенсировать ситуации, где визуальный сигнал недостаточен, например, при контакте с объектами в манипуляциях. Также возможно расширение модели для учёта динамических эффектов и перехода от квази-статического управления к высокоскоростным и реактивным задачам. В итоге, представленный метод трансформирует парадигму робототехнического управления, убирая барьеры, связанные с материальными ограничениями и густой инсталляцией сенсоров.
Это позволит сконструировать и эффективно эксплуатировать роботов любой сложности с существенно меньшими затратами и временем подготовки, открывая новые горизонты для роботизации различных сфер жизни и промышленности. Рост доступности и универсальности управления поднимает робототехнику на новый уровень, где инновационные формы роботов, вдохновлённые природой и биомеханикой, наконец смогут раскрыть свой потенциал в массовом применении.