Современная робототехника стремится создавать устройства, которые способны адаптироваться к разнообразным средам и задачам, возникающим в реальном мире. Особенно остро стоит вопрос управления биологически вдохновленными и мягкими роботами, чья сложная структура и гибкая конструкция не поддаются классическим методам моделирования и управления. В ответ на эти вызовы был предложен революционный метод, который объединяет в себе мощь глубоких нейросетей и уникальное математическое представление — поле Якоби, обеспечивая тем самым универсальное и эффективное управление разнообразными роботическими системами. Традиционные методы управления роботами завязаны на жёстких кинематических моделях, где структура робота представлена в виде цепочки жёстких звеньев, связанной узлами и шарнирами. Такая модель хорошо подходит для классических манипуляторов с ограниченным числом степеней свободы и заранее известными параметрами.
Контроль производится через измерения положения и скорости сочленений с использованием встроенных датчиков, что обеспечивает высокую точность и воспроизводимость. Однако когда речь заходит о роботах с мягкими элементами, гибкими приводами или сложной морфологией, таких как мягкие руки, ауксетики и бионические прототипы, этот подход становится малоэффективным. Проблема моделирования мягких и комбинированных роботов заключается в их деформационной природе: материалы могут существенно менять свою форму под воздействием команд привода, обладая при этом нелинейной, времезависимой динамикой. Механические свойства, такие как вязкоупругость и износ, усложняют задачу создания аналитических моделей, что приводит к необходимости либо проводить длительные эксперименты по идентификации, либо использовать приближённые методы, ограниченные узким классом роботов и условий работы. Идея, лежащая в основе нового метода, заключается в том, чтобы полностью отказаться от предположений о внутренней структуре робота и его сенсорике, сосредоточившись на визуальном восприятии как единственном источнике информации.
При помощи глубоких нейронных сетей обучается параметризация, которая связывает изображение контролируемого робота с его так называемым визуомоторным полем Якоби — числовым представлением, характеризующим чувствительность каждой точки на поверхности робота к изменениям команд привода в трехмерном пространстве. Обучение происходит на основе записей видео с нескольких камер, наблюдающих за роботом во время произвольных, случайно сгенерированных команд. Без вмешательства экспертов и без ручной разметки система учится восстанавливать трехмерную геометрию робота и прогнозировать движение любых его точек при различных управляющих воздействиях. Для этого используется нейросетевая архитектура, совмещающая нейронные поля излучения (Neural Radiance Fields) для реконструкции 3D-конфигурации с новейшими методами обучения дифференцируемой визуализации. Результатом является плотное поле Якоби, которое локально описывает соотношение между изменениями управляющих сигналов и локальными перемещениями точек робота, предоставляя дифференцируемую рукописную модель кинематики без необходимости жесткой математической формулировки или встроенных датчиков.
Это свойство обеспечивает высокую обобщающую способность и позволяет системе адаптироваться к неизвестным или меняющимся конфигурациям робота, а также к внешним воздействиям. Практическое применение метода было продемонстрировано на разнообразных платформах: от 3D-печатной мягко-жесткой руки с пневматическим приводом до сложной манипуляторной руки Allegro с 16 степенями свободы и образовательного робота Poppy Ergo Jr с заметным люфтом и низким классом точности деталей. Во всех случаях обучение происходило в полностью автономном режиме без ручного вмешательства — система использовала исключительно видеопоток и данные о выполненных командах. Преимущества такого подхода очевидны. Во-первых, он устраняет необходимость дорогостоящих систем слежения, например, маркерных систем или точных датчиков положения во всех сочленениях.
Во-вторых, использование единственной потребительской RGB-камеры существенно снижает стоимость и облегчает развёртывание роботов в полевых условиях. В-третьих, метод хорошо справляется с непредсказуемыми изменениями характера робота — износ, изменение материалов, добавление дополнительных нагрузок — сохраняя устойчивость управления. Технически в основе решения лежит нейронная сеть, которая из одного изображения строит 3D-представление сцены, включая форму и положение робота. Одновременно с этим она предсказывает локальные Якоби для каждой точки объема, показывая как движения основания (команд привода) трансформируются в движения в пространстве. Обучение происходит с использованием дифференцируемой объемной визуализации, сравнивая предсказанные изображения и оптический поток с реальными наблюдениями с камер.
Для управления построена система обратной динамики, которая, знания желаемого движения точек робота (например, движение кончика пальца руки), через оптимизационный процесс на базе поля Якоби вычисляет управляющие команды, заставляющие робота реализовать цель. Эта замкнутая стратегия контроля обеспечивает надежное выполнение движений и высокую точность по сравнению с эталонными моделями и ручным управлением. Экспериментальная оценка поставила новый стандарт: ошибки позиционирования в миллиметровом диапазоне, гидравлические рукоподобные структуры успешно имитировали желаемые движения, несмотря на визуальные помехи и изменение физического состояния системы. Дополнительно было показано, что метод позволяет переносить демонстрационные траектории, записанные с одной точки обзора, на другие, отсутствующие в обучающей выборке, благодаря трехмерному представлению. Перспективы развития технологии включают интеграцию дополнительных сенсорных систем, таких как тактильные датчики, для решения задач, где визуальная информация ограничена или недостаточна — например, при манипуляциях с объектами под нагрузкой или при взаимодействии с окружающей средой.