Скам и безопасность

Open Operator Evals: Революция в Оценке Веб-Агентов на Базе Больших Языковых Моделей

Скам и безопасность
Show HN: Open Operator Evals – real-world benchmarks for LLM web agents

Детальный анализ Open Operator Evals — открытого и воспроизводимого бенчмарка для веб-агентов, работающих на основе больших языковых моделей. Оценка производительности, надежности и точности работы агентов на реальных интернет-задачах с использованием данных WebVoyager и современных технологий ИИ.

Современные технологии искусственного интеллекта стремительно меняют способы взаимодействия человека с информацией в интернете. Одним из новейших направлений в этой сфере стали веб-агенты, способные автономно выполнять задачи в браузере, используя большие языковые модели (LLM). С развитием таких систем возникает необходимость объективной оценки их эффективности, надежности и точности в реальных условиях. Open Operator Evals представляет собой именно такую платформу — открытый и воспроизводимый бенчмарк, который позволяет сравнивать производительность различных LLM веб-агентов на множестве реальных задач. Open Operator Evals представляет собой набор инструментов и процедур для комплексного тестирования веб-агентов, ориентированных на выполнение различных пользовательских инструкций в интернете.

Бенчмарк использует набор задач из датасета WebVoyager, включающего около 600 сценариев, которые моделируют повседневные действия от поиска оптимальных предложений на сайтах бронирования до сложных запросов с углубленной навигацией по веб-ресурсам. Главная особенность проекта — его прозрачность и воспроизводимость, позволяющие не только проверить результаты, но и воспроизвести весь процесс тестирования с нуля. Тестирование агентов проводится по нескольким ключевым метрикам, которые включают самооценку успешности выполнения задач агентом, объективную оценку на основе GPT-4 как независимого судьи, среднее время выполнения каждой задачи, а также надежность — вероятность хотя бы однократного успешного выполнения задачи при нескольких попытках. Такой подход помогает минимизировать влияние случайных факторов, неизбежных в динамичном веб-окружении, и гарантирует сбалансированную и справедливую оценку. В рамках бенчмарка выделяются три главных участника: Notte, Browser-Use и Convergence, которые демонстрируют разные уровни эффективности и устойчивости.

Notte занимает лидирующую позицию с показателями 86.2% успешного выполнения по самооценке и 79% по объективной оценке GPT-4. Кроме того, этот агент проявляет высокую надежность, с результатом почти 97%, и продолжительность выполнения одной задачи менее минуты, что говорит о его высокой оптимизации и адаптивности. Browser-Use, второй по рейтингу, показывает более скромные результаты — около 77% и 60% успеха по различным оценкам соответственно, а время выполнения значительно выше — в среднем почти две минуты на задачу. Несмотря на завышенную самооценку, которая достигает 89% в блог-постах разработчиков, воспроизвести столь высокие результаты в Open Operator Evals оказалось невозможным.

Этот факт подчеркивает необходимость независимых и воспроизводимых тестов для проверки заявлений о производительности. Третий участник, Convergence, продемонстрировал показатели ниже 40% успешности, чему в значительной степени способствовали внешние факторы, такие как активация CAPTCHA и системы обнаружения ботов на целевых сайтах. Тем не менее, данное решение показало замечательную саморефлексию — высокий коэффициент совпадения между самооценкой агента и объективной проверкой, что свидетельствует о потенциале развития при минимизации ограничений со стороны защиты сайтов. Ключевая проблема, с которой сталкиваются все веб-агенты, это высокая вариативность работы, обусловленная непредсказуемостью интернет-среды, нестабильностью и динамикой контента, а также особенностями работы LLM, которые не всегда дают детерминированный ответ. Для борьбы с этим явлением в Open Operator Evals предложен уникальный подход — многократное повторение каждой задачи (в среднем восемь раз), чтобы получить усреднённый и статистически достоверный результат.

Такой метод позволяет сгладить случайные ошибки и выявить реальные возможности системы. С целью сделать процесс оценки более оперативным и доступным, был создан сокращённый набор из 30 задач WebVoyager30, который сохраняет комплексность и разнообразие оригинального датасета, при этом позволяя выполнить многократное тестирование без чрезмерных вычислительных затрат. Такой компромисс между полнотой и эффективностью позволяет исследователям быстро получать объективные результаты и легко воспроизводить тесты для проверки новых моделей и версий агентов. Open Operator Evals — это больше, чем просто бенчмарк. Он является движущей силой прозрачности и сотрудничества в области разработки и оценки ИИ-агентов.

В открытом доступе публикуются не только результаты, но и подробные записи действий агентов, скриншоты, логи и метрики, что позволяет глубоко анализировать поведение систем, выявлять узкие места и области для улучшения. Такое открытое сотрудничество способствует развитию индустрии и созданию более надежных и эффективных инструментов. Характерной чертой Open Operator Evals является также комплексный и достоверный процесс верификации. Сама по себе самооценка агента недостаточна, поскольку LLM иногда переоценивают собственные способности или неверно интерпретируют критерии успеха. Для нейтрализации этой проблемы используется независимая языковая модель GPT-4, которая анализирует действия и результаты агентов, подтверждая или опровергая заявленное выполнение задач.

Такой объективный контроль предотвращает завышение результатов и повышает доверие к данным. Важным аспектом оценки является измерение времени выполнения задач. Быстродействие агента играет огромную роль с практической точки зрения, поскольку многие приложения требуют оперативного ответа. Notte не только продемонстрировал высокую точность, но и лучшие показатели в скорости — около 47 секунд на задачу, что практически вдвое быстрее ближайших конкурентов. Совокупность этих факторов делает его особенно привлекательным для внедрения в промышленных и коммерческих решениях.

Надежность работы соотносится с вероятностью успешного завершения хотя бы одной попытки задачи из нескольких. Эта метрика отражает устойчивость системы к неудачам, ошибкам и нестабильности сети. Notte удерживает высокий уровень надежности — почти 97%, означающий, что пользователь может рассчитывать на выполнение задачи даже при повторении попыток. Browser-Use и Convergence показывают значительно меньшие показатели, что также следует учитывать при выборе решения для реальных условий. Кроме того, Open Operator Evals предлагает подробные данные о разрывах между самооценкой и объективной оценкой, называемые коэффициентом alignment, что позволяет выявить склонность агента к переоценке или недооценке собственных возможностей.

Более близкие к единице значения считаются оптимальными, поскольку они сигнализируют о честной и согласованной оценке. Notte демонстрирует коэффициенты в диапазоне от 0.96 до 1.18, что говорит о достаточно сбалансированном восприятии результата. Особое внимание уделено воспроизводимости экспериментов.

Все данные, включая исходный код, конфигурации, логи и скриншоты, находятся в открытом доступе на GitHub, позволяя любому заинтересованному специалисту воссоздать тестирование, проанализировать результаты и внести предложения или улучшения. Такой уровень прозрачности крайне важен для развития научного сообщества и промышленности, исключая случаи завышения оценок и маркетинговых преувеличений. Экономический аспект реализации Open Operator Evals также учитывается в проекте. Некоторые агенты, в частности Notte и Convergence, обеспечивают бесплатное выполнение тестов на выбранной конфигурации, тогда как для Browser-Use расходы связаны с использованием мощных языковых моделей и значительно выше. Это важное соображение при выборе инструментов для исследовательских и коммерческих целей.

Подводя итог, Open Operator Evals становится новым стандартом в области оценки веб-операторов, способных решать реальные задачи с применением больших языковых моделей. Его подход сочетает точность, надежность и воспроизводимость, что позволяет объективно сравнивать решения и стимулирует развитие технологий. Платформа не только выявляет лидеров, таких как Notte, но и мотивирует улучшение коллег, открывая новые горизонты создания интеллектуальных помощников и автоматизации в интернете. Сфера веб-агентов продолжит стремительно развиваться, а Open Operator Evals предлагает построить это будущее на основе честных и прозрачных данных. Открытые ресурсы и репозитории, доступные сейчас, помогут исследователям, инженерам и компаниям быстро адаптироваться и создавать решения, которые действительно работают для пользователя.

Инвестиции в качество оценки и демократизацию тестирования станут ключом к успешному внедрению ИИ в массовый пользовательский опыт, способствуя цифровой трансформации и повышению эффективности во всех отраслях.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Heavy Lift Drone 100kg Test – It Works [video]
Пятница, 12 Сентябрь 2025 Испытание дрона грузоподъемностью 100 кг – новая эра беспилотных технологий

Подробный обзор успешного теста дрона, способного поднимать груз до 100 кг, раскрывающий потенциал современных беспилотных технологий в различных сферах применения.

The Death of New York's Radio Row (2002)
Пятница, 12 Сентябрь 2025 Гибель Радио-Роу: Как мировая торговля уничтожила уникальный район Нью-Йорка

История превращения Радио-Роу в Нью-Йорке из центра электроники в руины из-за строительства Всемирного торгового центра, влияние на местных предпринимателей и культурное наследие района.

Dogecoin (DOGE) Poised for a 60% Price Swing: Up or Down Next?
Пятница, 12 Сентябрь 2025 Dogecoin (DOGE): Вероятность колебания цены на 60% — что ждет мем-коин в ближайшем будущем?

Прогнозы аналитиков и текущие тенденции рынка Dogecoin показывают возможность резкого движения цены на 60% — каковы причины и перспективы этого крупнейшего мем-криптоактива.

NextEra Energy price target lowered to $94 from $95 at Morgan Stanley
Пятница, 12 Сентябрь 2025 Morgan Stanley снижает целевую цену на акции NextEra Energy до 94 долларов: что это значит для инвесторов

Morgan Stanley обновил прогноз по акциям NextEra Energy, снизив целевую цену с 95 до 94 долларов, сохраняя при этом рейтинг «перевес» для компании. Аналитический обзор последних изменений и их влияние на рынок акций и перспективы энергетического сектора в Северной Америке.

Meta, Scale AI deal positive for Reddit, says B. Riley
Пятница, 12 Сентябрь 2025 Партнерство Meta и Scale AI: новые перспективы для Reddit и роста рынка цифровой рекламы

Сделка между Meta и Scale AI открывает новые возможности для Reddit, подчеркивая ценность платформы и ее потенциал в сфере больших данных и цифровой рекламы. Аналитики видят перспективы дальнейшего роста и укрепления позиций Reddit на рынке благодаря уникальному набору данных и развивающимся рекламным технологиям.

PPL Corp. price target lowered to $37 from $38 at Morgan Stanley
Пятница, 12 Сентябрь 2025 Morgan Stanley снизил целевую цену акций PPL Corp до 37 долларов: что это значит для инвесторов

Morgan Stanley снизил целевую цену акций PPL Corp с 38 до 37 долларов, сохранив при этом рейтинг Overweight. Анализ причин и перспектив компании в условиях рыночных изменений и регуляторных факторов.

PSEG price target lowered to $100 from $101 at Morgan Stanley
Пятница, 12 Сентябрь 2025 Morgan Stanley снижает целевую цену акций PSEG: что это значит для инвесторов

Morgan Stanley снизил целевую цену акций PSEG с 101 до 100 долларов, сохраняя при этом рейтинг Overweight. Обзор факторов, влияющих на решение аналитиков, и перспективы компании в свете текущих тенденций на рынке электроэнергии и коммунальных услуг.