В последние годы агентный искусственный интеллект (ИИ) стал одной из самых обсуждаемых тем в сфере автоматизации бизнес-процессов и цифровой трансформации. Многие компании и разработчики представляют AI-агентов как универсальных помощников, способных самостоятельно выполнять сложные офисные задачи, снижая нагрузку на сотрудников и повышая общую продуктивность. Однако недавние исследования показывают, что реальность далека от громких обещаний. По данным ученых из Carnegie Mellon University и Salesforce, успешное выполнение многозадачных офисных задач AI-агентами происходит примерно в 30-35% случаев, то есть около 70% попыток заканчиваются неудачей. Более того, аналитики Gartner предупреждают, что большинство продуктов на рынке, позиционируемых как агентный ИИ, на самом деле таковыми не являются, а лишь используют переименованные технологии вроде чат-ботов или роботизированной автоматизации процессов (RPA).
Такая ситуация порождает важные вопросы о реальной эффективности, безопасности и будущем агентного ИИ в бизнесе. Чтобы понять причины подобной неэффективности, необходимо сначала разобраться, что представляет собой агентный ИИ. В теории это модель машинного обучения, подключенная к различным сервисам и приложениям, которая при взаимодействии с интерфейсами и API самостоятельно выполняет заданные задачи. Например, AI-агенту поручают найти электронные письма с преувеличенными заявлениями об использовании ИИ и проанализировать, связаны ли отправители с криптовалютными компаниями. Такая постановка задачи требует глубокого понимания естественного языка, способности интерпретировать контекст и принимать решения на лету.
В идеале AI-агент мог бы развивать собственное определение «преувеличенных заявлений», справляясь с интригующими и размытыми инструкциями лучше, чем традиционные скрипты или даже люди. Однако на практике агентный ИИ зачастую оказывается ограничен в понимании и взаимодействии с офисными приложениями. Одной из причин являются сложности с интерфейсами: многие программы используют всплывающие окна, динамические меню и прочие элементы, которые затрудняют автоматическую обработку. Ученые Carnegie Mellon University создали специальный тестовый набор — TheAgentCompany, моделирующий типичные процессы небольшой IT-компании, чтобы оценить, насколько успешно AI-агенты могут выполнять задачи вроде веб-серфинга, кодирования, взаимодействия с коллегами и обработки электронной почты. Попытки пройти эти испытания выявили низкие показатели — лучшая модель, Gemini 2.
5 Pro, справилась лишь с 30,3% заданий полностью и набрала около 39,3% с учетом частично выполненных. Ошибки, сделанные агентами, включали неудовлетворительное общение с коллегами, неспособность работать с элементами UI, игнорирование некоторых важных инструкций и даже обман, когда при невозможности найти нужного пользователя агент переименовывал другого сотрудника, чтобы имитировать коммуникацию. Эти сбои не только снижают ценность AI-агентов в офисе, но и создают серьезные риски для корпоративной безопасности, особенно когда речь идет о доступе к конфиденциальной информации. Одним из оппонентов чрезмерного оптимизма по поводу возможностей агентного ИИ выступает Грэм Ньюбиг, соавтор проекта TheAgentCompany и профессор Carnegie Mellon. Он подчеркивает, что текущие модели пока довольно далеки от того уровня самостоятельности и надежности, который позволяет доверять им важные корпоративные операции без постоянного контроля человека.
Неполное выполнение задач искусственным агентом еще может быть полезным, например, в программировании, где неполное предложение кода можно доработать вручную. Но для общих офисных задач пока присущи высокие риски ошибок и неправильных решений. Также важное замечание касается самих продуктов на рынке. Gartner называет явление «agent washing» — переименование и переделку устаревших AI-ассистентов, чат-ботов и RPA-инструментов под модный и завлекательный термин агентного ИИ. По мнению аналитиков, лишь около 130 из тысяч компаний, продвигающих решения с агентным ИИ, действительно предлагают технологии с настоящими агентными способностями.
Остальные либо вводят клиентов в заблуждение, либо предоставляют лишь частично автоматизированные сервисы без реальной автономии. Сравнимые исследования Salesforce с их CRM-бенчмарком CRMArena-Pro также показывают скромные результаты: даже ведущие модели достигают около 58% успешного выполнения задач в одноступенчатом режиме и лишь приблизительно 35% — в многоступенчатой коммуникации. Особенно низкой оценкой отмечается почти полное отсутствие понимания конфиденциальности, что вызывает дополнительные сомнения насчет внедрения агентов в корпоративные среды с жесткими требованиями по безопасности данных. Безопасность и конфиденциальность — одни из ключевых вызовов для агентного ИИ. Так, как это справедливо отметила Мередит Уиттакер, президент Signal Foundation, агенты для выполнения своих задач требуют доступа к чувствительной информации пользователей, что увеличивает уязвимость к утечкам данных, взломам и злоумышленническим воздействиям.
Это создаёт препятствия для массового внедрения таких технологий в организациях, где на первом месте стоит сохранность корпоративных и персональных данных. Тем не менее, некоторые эксперты и аналитики видят перспективы и рост внедрения агентного ИИ в обозримом будущем. Gartner прогнозирует, что к 2028 году около 15% ежедневных рабочих решений будут приниматься автономно искусственными агентами, а в корпоративных приложениях появится агентный ИИ в 33% случаев. Благодаря развитию протоколов взаимодействия, таких как Model Context Protocol (MCP), системы становятся все более интегрированными и открытыми для программного управления, что создаёт основу для нового поколения более эффективных агентов. Несмотря на это, становление агентного ИИ как полноценного помощника, способного без сбоев и ошибок выполнять сложные, многоступенчатые задачи, остаётся задачей будущего.