Развитие искусственного интеллекта и робототехники привело к значительным успехам в создании систем, способных воспринимать окружающий мир и принимать решения на основе визуальной информации и языковых команд. Современные Vision-Language-Action (VLA) модели показывают впечатляющие результаты в сфере визуомоторного управления, позволяя роботам эффективно взаимодействовать с окружающей средой. Однако одной из основных проблем, стоящих на пути их масштабного внедрения, остается обеспечение надежности и устойчивости в непредсказуемых и сложных реальных условиях. Именно здесь на помощь приходит инновационная система RoboMonkey, разработанная ведущими учеными и инженерами в области робототехники и машинного обучения. Она предлагает новый подход к масштабированию вычислительных ресурсов во время выполнения, что значительно повышает качество и точность действий роботов без необходимости увеличения архитектурной сложности моделей.
RoboMonkey представляет собой фреймворк для тестового масштабирования, который использует продвинутые методы выборки и верификации данных для улучшения распознавания и выполнения задач роботами с использованием VLA моделей. Ключевая идея заключается в том, чтобы на этапе развертывания системы генерировать несколько кандидатных действий, которые затем подвергаются процессу Gaussian perturbation — то есть небольшим случайным вариациям параметров, таких как положение и ориентация. После этого происходит консолидация через голосование большинства за состояние захвата, что формирует распределение возможных действий. Далее используется специально обученный на синтетических данных верификатор, основанный на моделях Vision Language Model (VLM), для выбора наилучшего действия из предложенных. Основной вклад RoboMonkey заключается в том, что с его помощью удалось обнаружить и формализовать так называемый закон масштабирования во время выполнения (test-time scaling law).
Исследования показали, что ошибка действия уменьшается по степенному закону, если увеличивать количество сгенерированных проб действий. Это означает, что эффективность работы робота и точность его выполнения задачи можно значительно улучшить, просто увеличивая объем вычислений на этапе выбора действия, не меняя при этом базовые архитектурные модели. Методология RoboMonkey состоит из двух ключевых этапов. На первом этапе создается и обучается верификатор действий. Для этого из демонстрационных данных поведения робота через имитационное обучение генерируются множества кандидатных действий.
Путем кластеризации из них выбирается несколько представительных действий. Далее на основе ошибки по среднеквадратичному отклонению от эталонных действий формируется набор пар сравнений с предпочтениями, что позволяет обучить модель VLM, способную оценивать качество различных действий. На втором этапе, во время реального развертывания, система генерирует начальный набор действий, который затем подвергается процедуре гауссовского размытия и коллективному голосованию, формируя распределение возможных действий. Это распределение позволяет эффективно и быстро создавать большое количество вариантов до оценки каждого из них VLM-верификатором для выбора оптимальной команды роботу. Важным преимуществом этой процедуры является снижение латентности за счет использования оптимизированного движка инференса с поддержкой KV Cache и пакетной обработки, что значительно повышает пропускную способность по сравнению с классической жадной декодировкой.
Практические эксперименты демонстрируют значительные улучшения производительности роботов при использовании RoboMonkey в сочетании с существующими VLA моделями. В условиях задач, выходящих за пределы обучающего распределения, достигнуты 25% абсолютного прироста успешных исходов, что свидетельствует о высокой степени обобщения и надежности. Внутри распределения задач улучшение составляет 9%, что подтверждает эффективность подхода даже в стандартизированных сценариях. Кроме того, при адаптации системы к новым роботизированным платформам и условиям совместная донастройка как моделей VLA, так и верификаторов действий обеспечивает дополнительное увеличение производительности примерно на 7% по сравнению с дообучением только базового VLA. Применение RoboMonkey на практике наглядно иллюстрируют реальные кейсы, связанные с проблемами неточного захвата объектов, сбоев в выполнении последовательных действий и предотвращения столкновений.
Традиционные подходы, такие как OpenVLA и V-GPS, в этих ситуациях частично или полностью оказываются неэффективными, в то время как RoboMonkey успешно решает поставленные задачи за счет более тщательно продуманного процесса отбора и проверки действий. Важным аспектом является то, что RoboMonkey позволяет существенно расширить возможности масштабирования вычислений во время выполнения задач без значительного увеличения времени отклика. Этому способствует использование кэширования ключ-значение, а также продуманных процедур Gaussian perturbation, которая эффективнее, чем простая повторная генерация действий из исходной политики. Благодаря этим оптимизациям возможно генерировать и оценивать десятки вариантов действий в течение менее чем одной секунды, что делает технологию применимой в реальном времени и для сложных робототехнических систем. Кроме того, исследования показали, что увеличение объема синтетических данных для обучения VLM-верификатора напрямую влияет на качество оценивания действий и, соответственно, на успешность выполнения заданий роботами.
Это подчеркивает важность интеграции синтетических данных в процесс обучения и делает RoboMonkey примером системы, которая сочетает в себе интеллектуальную генерацию данных и оптимизацию вычислительных ресурсов. В итоге RoboMonkey представляет собой важный шаг вперед в области построения надежных и высокоточных роботизированных систем с использованием моделей визуально-языкового управления. Его ключевые достоинства — это увеличенная точность выбора действий, лучшее обобщение на новых задачах и условиях, а также практическая применимость благодаря оптимизированному использованию вычислительных мощностей. Потенциал RoboMonkey выходит далеко за пределы лабораторных условий и моделей симуляций: система уже доказала свою эффективность на реальных роботах, что открывает новые горизонты для внедрения роботов в индустриальные, сервисные и бытовые сферы. Возможность масштабировать вычислительные ресурсы именно на этапе выбора действий позволяет адаптировать роботов к динамичным изменениям окружающей среды, минимизируя риск ошибок и повышая общую безопасность взаимодействия.
Таким образом, RoboMonkey не только расширяет функциональность существующих VLA моделей, но и создает новую парадигму — тестовое масштабирование, которое сочетает в себе гибкость, эффективность и качество, необходимые для современного развития робототехники. Эта технология способствует ускоренному развитию автономных систем и их интеграции в повседневную жизнь, делая роботов более надежными, умными и адаптивными помощниками.