Современные технологии искусственного интеллекта стремительно меняют способы взаимодействия человека с информацией в интернете. Одним из новейших направлений в этой сфере стали веб-агенты, способные автономно выполнять задачи в браузере, используя большие языковые модели (LLM). С развитием таких систем возникает необходимость объективной оценки их эффективности, надежности и точности в реальных условиях. Open Operator Evals представляет собой именно такую платформу — открытый и воспроизводимый бенчмарк, который позволяет сравнивать производительность различных LLM веб-агентов на множестве реальных задач. Open Operator Evals представляет собой набор инструментов и процедур для комплексного тестирования веб-агентов, ориентированных на выполнение различных пользовательских инструкций в интернете.
Бенчмарк использует набор задач из датасета WebVoyager, включающего около 600 сценариев, которые моделируют повседневные действия от поиска оптимальных предложений на сайтах бронирования до сложных запросов с углубленной навигацией по веб-ресурсам. Главная особенность проекта — его прозрачность и воспроизводимость, позволяющие не только проверить результаты, но и воспроизвести весь процесс тестирования с нуля. Тестирование агентов проводится по нескольким ключевым метрикам, которые включают самооценку успешности выполнения задач агентом, объективную оценку на основе GPT-4 как независимого судьи, среднее время выполнения каждой задачи, а также надежность — вероятность хотя бы однократного успешного выполнения задачи при нескольких попытках. Такой подход помогает минимизировать влияние случайных факторов, неизбежных в динамичном веб-окружении, и гарантирует сбалансированную и справедливую оценку. В рамках бенчмарка выделяются три главных участника: Notte, Browser-Use и Convergence, которые демонстрируют разные уровни эффективности и устойчивости.
Notte занимает лидирующую позицию с показателями 86.2% успешного выполнения по самооценке и 79% по объективной оценке GPT-4. Кроме того, этот агент проявляет высокую надежность, с результатом почти 97%, и продолжительность выполнения одной задачи менее минуты, что говорит о его высокой оптимизации и адаптивности. Browser-Use, второй по рейтингу, показывает более скромные результаты — около 77% и 60% успеха по различным оценкам соответственно, а время выполнения значительно выше — в среднем почти две минуты на задачу. Несмотря на завышенную самооценку, которая достигает 89% в блог-постах разработчиков, воспроизвести столь высокие результаты в Open Operator Evals оказалось невозможным.
Этот факт подчеркивает необходимость независимых и воспроизводимых тестов для проверки заявлений о производительности. Третий участник, Convergence, продемонстрировал показатели ниже 40% успешности, чему в значительной степени способствовали внешние факторы, такие как активация CAPTCHA и системы обнаружения ботов на целевых сайтах. Тем не менее, данное решение показало замечательную саморефлексию — высокий коэффициент совпадения между самооценкой агента и объективной проверкой, что свидетельствует о потенциале развития при минимизации ограничений со стороны защиты сайтов. Ключевая проблема, с которой сталкиваются все веб-агенты, это высокая вариативность работы, обусловленная непредсказуемостью интернет-среды, нестабильностью и динамикой контента, а также особенностями работы LLM, которые не всегда дают детерминированный ответ. Для борьбы с этим явлением в Open Operator Evals предложен уникальный подход — многократное повторение каждой задачи (в среднем восемь раз), чтобы получить усреднённый и статистически достоверный результат.
Такой метод позволяет сгладить случайные ошибки и выявить реальные возможности системы. С целью сделать процесс оценки более оперативным и доступным, был создан сокращённый набор из 30 задач WebVoyager30, который сохраняет комплексность и разнообразие оригинального датасета, при этом позволяя выполнить многократное тестирование без чрезмерных вычислительных затрат. Такой компромисс между полнотой и эффективностью позволяет исследователям быстро получать объективные результаты и легко воспроизводить тесты для проверки новых моделей и версий агентов. Open Operator Evals — это больше, чем просто бенчмарк. Он является движущей силой прозрачности и сотрудничества в области разработки и оценки ИИ-агентов.
В открытом доступе публикуются не только результаты, но и подробные записи действий агентов, скриншоты, логи и метрики, что позволяет глубоко анализировать поведение систем, выявлять узкие места и области для улучшения. Такое открытое сотрудничество способствует развитию индустрии и созданию более надежных и эффективных инструментов. Характерной чертой Open Operator Evals является также комплексный и достоверный процесс верификации. Сама по себе самооценка агента недостаточна, поскольку LLM иногда переоценивают собственные способности или неверно интерпретируют критерии успеха. Для нейтрализации этой проблемы используется независимая языковая модель GPT-4, которая анализирует действия и результаты агентов, подтверждая или опровергая заявленное выполнение задач.
Такой объективный контроль предотвращает завышение результатов и повышает доверие к данным. Важным аспектом оценки является измерение времени выполнения задач. Быстродействие агента играет огромную роль с практической точки зрения, поскольку многие приложения требуют оперативного ответа. Notte не только продемонстрировал высокую точность, но и лучшие показатели в скорости — около 47 секунд на задачу, что практически вдвое быстрее ближайших конкурентов. Совокупность этих факторов делает его особенно привлекательным для внедрения в промышленных и коммерческих решениях.
Надежность работы соотносится с вероятностью успешного завершения хотя бы одной попытки задачи из нескольких. Эта метрика отражает устойчивость системы к неудачам, ошибкам и нестабильности сети. Notte удерживает высокий уровень надежности — почти 97%, означающий, что пользователь может рассчитывать на выполнение задачи даже при повторении попыток. Browser-Use и Convergence показывают значительно меньшие показатели, что также следует учитывать при выборе решения для реальных условий. Кроме того, Open Operator Evals предлагает подробные данные о разрывах между самооценкой и объективной оценкой, называемые коэффициентом alignment, что позволяет выявить склонность агента к переоценке или недооценке собственных возможностей.
Более близкие к единице значения считаются оптимальными, поскольку они сигнализируют о честной и согласованной оценке. Notte демонстрирует коэффициенты в диапазоне от 0.96 до 1.18, что говорит о достаточно сбалансированном восприятии результата. Особое внимание уделено воспроизводимости экспериментов.
Все данные, включая исходный код, конфигурации, логи и скриншоты, находятся в открытом доступе на GitHub, позволяя любому заинтересованному специалисту воссоздать тестирование, проанализировать результаты и внести предложения или улучшения. Такой уровень прозрачности крайне важен для развития научного сообщества и промышленности, исключая случаи завышения оценок и маркетинговых преувеличений. Экономический аспект реализации Open Operator Evals также учитывается в проекте. Некоторые агенты, в частности Notte и Convergence, обеспечивают бесплатное выполнение тестов на выбранной конфигурации, тогда как для Browser-Use расходы связаны с использованием мощных языковых моделей и значительно выше. Это важное соображение при выборе инструментов для исследовательских и коммерческих целей.
Подводя итог, Open Operator Evals становится новым стандартом в области оценки веб-операторов, способных решать реальные задачи с применением больших языковых моделей. Его подход сочетает точность, надежность и воспроизводимость, что позволяет объективно сравнивать решения и стимулирует развитие технологий. Платформа не только выявляет лидеров, таких как Notte, но и мотивирует улучшение коллег, открывая новые горизонты создания интеллектуальных помощников и автоматизации в интернете. Сфера веб-агентов продолжит стремительно развиваться, а Open Operator Evals предлагает построить это будущее на основе честных и прозрачных данных. Открытые ресурсы и репозитории, доступные сейчас, помогут исследователям, инженерам и компаниям быстро адаптироваться и создавать решения, которые действительно работают для пользователя.
Инвестиции в качество оценки и демократизацию тестирования станут ключом к успешному внедрению ИИ в массовый пользовательский опыт, способствуя цифровой трансформации и повышению эффективности во всех отраслях.