Развитие искусственного интеллекта и автоматизации кардинально меняет подходы к созданию программного обеспечения. Современные автономные кодирующие агенты уже не фантастика, а реальность, активно внедряющаяся в проекты на GitHub — крупнейшей платформе для хостинга и совместной разработки программ. Проект «Agents in the Wild» предоставляет уникальную возможность не просто отследить активность таких агентов, но и проанализировать их эффективность и влияние на качество кода. Суть проекта заключается в мониторинге и анализе всех pull request'ов (PR), то есть запросов на внесение изменений в репозитории, которые создаются с 15 мая 2025 года. Данные обновляются ежечасно, что позволяет иметь актуальную картину работы агентов и людей-программистов в режиме реального времени.
Такой масштабный анализ представляет интерес для разработчиков, исследователей и менеджеров, стремящихся понять, насколько автономные решения могут заменить или дополнить человеческий труд. При ознакомлении со статистикой становится понятно, что люди пока остаются главенствующими в количестве открываемых и закрываемых PR. Человеческие разработчики создали более 20 миллионов запросов на изменения, из которых слили в кодовую базу около 15 миллионов с успешным уровнем слияния более 80%. Однако доля ботов и специализированных кодирующих агентов также впечатляет — суммарно они создают миллионы PR, причем некоторые системы показывают высокие показатели качества. Особое внимание заслуживает OpenAI Codex — агент, обладающий одной из самых высоких скоростей успешного слияния PR, достигающей более 93%.
Это указывает на то, что его код проходит проверку и принимается в проекты чаще, чем у других агентов или даже у некоторых людей. Тем не менее, стоит учитывать, что методы работы агентов существенно различаются. Например, GitHub Copilot часто открывает черновые PR без одобрения человека, что снижает их итоговую успешность. В то время как OpenAI Codex минимизирует риски, создавая PR только после ручного утверждения. Среди прочих заметных агентов выделяются Google Jules с показателем успешных слияний свыше 92%, Claude Code и OpenHands — приблизительно в 86-87%.
Эти цифры свидетельствуют о том, что автономные системы, запрограммированные на сотрудничество с людьми, уже способны вносить значительный вклад в проекты разнообразной сложности. Кроме общих данных, исследование предлагает глубокий разбор разнообразных параметров, влияющих на эффективность агентов и качество их работы. К примеру, анализ распределения PR по популярности репозиториев показал, что OpenAI Codex преимущественно работает с малоизвестными проектами, имеющими менее 10 звезд. Агенты с трудом справляются с системами, на которые возложены большие ожидания сообщества, что отражается в снижении коэффициента слияния. Анализ сложности изменений — важный показатель, характеризующий полезность и риски внедрения кода.
Используя суммарное количество строк, добавленных и удаленных в PR, можно судить, насколько объемно и масштабно вмешательства проводят агенты. Выяснилось, что агенты не боятся редактировать сразу несколько файлов в одном PR, в то время как уровень успешного слияния немного падает с ростом числа файлов. Это демонстрирует определенный баланс между амбициозностью обновлений и их безопасностью. Также значительный интерес представляет соотношение добавленных и удаленных строк кода. Полученный показатель показывает, создают ли агенты новые функции или занимаются рефакторингом.
Оказалось, что автономные системы склонны добавлять больше нового кода, в то время как люди чаще ограничиваются оптимизацией уже существующего. Несмотря на такие различия, коэффициенты слияния у агентов остаются стабильными, что говорит о правильном подходе к встройке новых возможностей. Языковой срез репозиториев и самих изменений также изучается подробно. Основным языком разработки остаются такие популярные как Python, TypeScript и JavaScript. Агенты активно вносят изменения в проекты, написанные на этих языках, что обусловлено их широким распространением и возможностями инструментов автоматизации, ориентированных именно на эти технологии.
Для распознавания источников PR используются четкие критерии — например, ветки с именами, начинающимися на codex/ или copilot/, а также определенные учетные записи и подписи коммитов. Это позволяет с высокой точностью отличать работу агентов от операций, выполняемых людьми и простыми ботами. Наличие открытых данных и возможность следить за статистикой в реальном времени предоставляют уникальную платформу для непрерывного улучшения инструментов. Разработчики и исследователи могут найти множество идей для создания новых и более эффективных автономных агентов, ориентированных на конкретные задачи и проекты. Проект поддерживается LogicStar AI и лабораторией Secure, Reliable, and Intelligent Systems из ETH Zürich, что гарантирует научную строгость и современный уровень исследований.
Код и документация доступны на GitHub, что подчеркивает открытый и коллаборативный характер инициативы. Рынок автономного программирования активно развивается, и данные, собранные на базе активных репозиториев GitHub, являются важным индикатором прогресса. Их анализ помогает понять, насколько интеллектуальные агенты уже готовы для широкой интеграции, а где еще требуется доработка. Важно отметить, что несмотря на высокие показатели некоторых агентов, уровень человеческого контроля и утверждения кода остается критически важным фактором качества. Автономное создание кода без необходимого участия специалистов все еще сопряжено с рисками, и система должна развиваться в направлении гибкого сотрудничества человека и машины.
Таким образом, проект «Agents in the Wild» демонстрирует, что будущее разработки ПО тесно связано с автоматизацией и искусственным интеллектом. Интеграция таких агентов позволяет не только повышать производительность, но и открывать новые горизонты для творчества разработчиков и улучшения качества программных продуктов. Активное использование данных об активности агентов и их сравнительный анализ в разных контекстах помогут сформировать лучшие практики и стратегии для безопасной и эффективной автоматизации процессов разработки.