Современные браузерные агенты стремительно развиваются, предлагая всё более продвинутые функции автоматизации работы с интернетом. Однако, несмотря на впечатляющие достижения, многие из них всё ещё сталкиваются с серьёзными трудностями при выполнении сложных, реалистичных задач в реальных условиях глобальной паутины. Чтобы объективно оценить и улучшить эти инструменты, была создана уникальная платформа WebBench — открытый, ориентированный на задачи бенчмарк, позволяющий измерить эффективность браузерных агентов в реальных сценариях работы с веб-сайтами. WebBench значительно отличается от предыдущих попыток оценки благодаря масштабированию и глубине проработки. Если ранние проекты ограничивались сравнительно небольшим числом сайтов и задач, то данный бенчмарк включает в себя 2 454 задачи, распределённые по 452 живым сайтам из топ-1000 мирового рейтинга по трафику.
Именно такой охват даёт возможность получить объективное и разностороннее представление о реальных возможностях и ограничениях браузерных агентов. Особой инновацией WebBench является чёткое разделение задач на группы по типам работы с данными. В отличие от предшественников, здесь выделены задачи на чтение (READ) и на запись (WRITE). К задачам чтения относятся навигация по сайтам и извлечение информации, что занимает около 64,4% общего массива заданий. Задачи на запись включают создание новых данных, обновление и удаление информации, а также сложные операции с файлами и многофакторную аутентификацию, что важно для проверки реальной полезности браузерных агентов в работе с динамическими ресурсами.
Проблемы взаимодействия с современными веб-сайтами зачастую связаны с высокой степенью защиты, разнообразными интерфейсными элементами и необходимостью обхода CAPTCHA и 2FA-защит. WebBench специально внедряет в набор задач подобные элементы, позволяя лучше понять, насколько агент способен эффективно справляться с такими препятствиями. Благодаря этому исследователи и разработчики могут выявлять узкие места, связанные с автоматической авторизацией, заполнением форм, скачиванием файлов и другими типичными действиями пользователя. Среди главных целей платформы — систематическое сравнение разных архитектур браузерных агентов. WebBench помогает обнаружить причины отказов и ошибок, которые могут возникать при обновлении DOM-структуры страниц, появлении всплывающих окон или изменениях в механизмах аутентификации.
Такой подробный и комплексный анализ дает возможность быстро разрабатывать и тестировать улучшения, после чего верифицировать их эффективность на большом количестве разнообразных сценариев. Команда разработчиков продолжает расширять возможности бенчмарка, планируя включать в него новые браузерные агенты ведущих игроков рынка, таких как Claude 4, Operator O3, UI-TARs и Mariner API. Кроме того, в планах стоит расширение географического и языкового покрытия, что значительно повысит релевантность оценок для международной аудитории. Поддержка многоязычных задач позволит более глубоко изучить поведение браузерных агентов в различных культурных и технических контекстах. Важной особенностью WebBench является возможность взаимодействия с сообществом.
Любые заинтересованные специалисты могут внести свой вклад — добавлять новые задачи, предлагать скрипты для оценки или сообщать об обнаруженных ошибках и неточностях. Такое сотрудничество помогает поддерживать актуальность данных и способствует постоянному развитию платформы. Для исследователей и разработчиков, работающих над созданием новых браузерных агентов, WebBench предлагает официальную таблицу лидеров, где можно увидеть сравнительные результаты. Это не только повышает прозрачность и стимулирует конкуренцию, но и помогает зафиксировать сдвиги в отрасли и определить новые технологические стандарты. Реализация WebBench базируется на фундаментальных исследованиях и развивается на основе идей, заложенных в проекте WebVoyager.
Однако новый бенчмарк существенно расширяет охват сайтов и задач, внедряет более сложные категории заданий и улучшает методологию измерения, включая влияние инфраструктуры браузера на общую производительность. Таким образом, WebBench становится ключевым инструментом в современной экосистеме разработки браузерных агентов. Он помогает развивать более адаптивные, устойчивые и функциональные автоматизированные инструменты, способные эффективно взаимодействовать с динамичными и сложными веб-ресурсами. Благодаря этому конечные пользователи получают более удобный и надежный опыт работы с интернетом, а компании — эффективные решения для автоматизации рутинных задач и улучшения качества обслуживания клиентов. По мере дальнейшего развития веб-технологий и сложностей, связанных с безопасностью и пользовательским взаимодействием, роль таких комплексных бенчмарков, как WebBench, будет только расти.
Включение разнообразных сценариев, поддержка новых языков и постоянное обновление тестовых данных — всё это закладывает основу для формирования будущих стандартов оценки браузерных агентов. В итоге, WebBench не просто измеряет текущую эффективность, а прокладывает путь к инновациям в области веб-автоматизации и интеллектуального взаимодействия с интернетом.