Современное развитие искусственного интеллекта кардинально изменяет способы взаимодействия человека с технологиями и расширяет границы автоматизации сложных задач. В этой связи архитектура AI-агентов на основе протоколов A2A и MCP становится фундаментальным элементом создания масштабируемых, интеллектуальных и взаимосвязанных систем, способных эффективно выполнять различные цели. Эти решения открывают новые горизонты для интеграции нескольких AI-моделей, специализированных агентов и программных инструментов, работая вместе во благо пользователя. Основная идея архитектуры AI-агентов строится на взаимосвязи и сотрудничестве между несколькими компонентами, среди которых выделяются люди, AI-модели и программные системы. Важно понимать различие в природе данных, с которыми они работают.
Люди и AI-модели традиционно принимают и обрабатывают нечеткие, импрецизионные данные — например, естественный язык, изображения, видео и аудио. Такие данные далеко не всегда однозначны, что приводит к вариативности во входных и выходных данных. Это означает, что обработка подобных данных требует гибкости и способности к интерпретации, присущей именно человеку или AI. В противоположность этому, программное обеспечение предпочитает работать с точными, структурированными данными, такими как числовые значения, логические флаги, отформатированные строки и разнообразные структурированные форматы данных вроде JSON, XML или CSV. Одним из ключевых преимуществ программного обеспечения является однозначное прочтение и обработка таких данных, что обеспечивает стабильность и предсказуемость в функционировании систем.
Разработка AI-агентов требует построения мостика между этими двумя мирами — импрецизионными и точными данными. AI-агенты зачастую нуждаются в том, чтобы на основе нечеткого импрецизионного ввода создать выходные данные с высоким уровнем точности, пригодные для обработки программным обеспечением, например, в виде конкретных структурированных форматов. Однако стоит учитывать, что и AI-модели, и люди при попытке вывести точные данные могут допустить ошибки или получить неполноценный результат, что может повлиять на последующую работу программных систем. Протокол Agent-to-Agent (A2A), предложенный Google, представляет собой эффективный стандарт взаимодействия между AI-агентами. Агенты, построенные на его базе, обладают способностью не только принимать и обрабатывать запросы от пользователей, но и запрашивать и использовать другие специализированные агенты в рамках выполнения комплексных задач.
Таким образом достигается модульность и распределённость работы, где каждый агент выступает экспертом в своей доменной области. Важно, что AI-агенты в рамках A2A протокола реализованы как HTTP-сервисы, обменивающиеся сообщениями, чаще всего в форме нечетких, естественно-языковых запросов и ответов. Каждый AI-агент определяет для себя набор наименований, описание и перечень навыков, которые определяют его функциональные возможности и сферы применения. Например, агент, специализирующийся на геопространственном анализе и прокладке маршрутов, может обладать навыками оптимизации маршрутов с учётом трафика или генерации персонализированных карт. Такая структура позволяет пользователям и другим агентам выбирать конкретного исполнителя для решения конкретных задач, повышая качество и эффективность процессов.
Взаимодействие между AI-агентами происходит посредством запуска «разговоров» или задач, в ходе которых ведущий (клиентский) агент отправляет запросы серверному агенту, а тот отвечает по мере продвижения операции. Важно отметить, что AI-модели, на которых базируются агенты, являются статeless — они не сохраняют контекст между запросами. Поэтому именно AI-агенты берут на себя ответственность за поддержание истории диалога и передачи её модели в каждом новом запросе, что обеспечивает согласованность и полноту понимания контекста. Для управления беседой и выполнения задач AI-агент использует специализированный модуль — оркестратор. Оркестратор отвечает за логику продвижения диалога, обработку поступающих сообщений, планирование и вызов необходимых инструментов, а также за интеграцию с внешними сервисами и другими агентами.
Важным аспектом работы оркестратора является техника Retrieval Augmented Generation (RAG), позволяющая эффективно дополнять запросы дополнительными знаниями и контекстом, например, найденными по схожести документами, данными или инструкциями. Одним из ключевых элементов интеграции в рамках архитектуры AI-агентов выступает протокол Model Context Protocol (MCP) компании Anthropic — стандарт, обеспечивающий коммуникацию между AI-агентами и множеством внешних обслуживающих компонентов. MCP обеспечивает возможность подключения к специализированным сервисам, каждому из которых может принадлежать набор инструментов, ресурсов и готовых шаблонов запросов (промтов). MCP-компоненты подразделяются на хосты, клиенты и серверы, которые в совокупности позволяют расширить возможности AI-агентов с помощью внешних специализированных модулей. MCP-серверы предоставляют набор инструментов, каждый из которых обладает собственным названием, описанием и схемой точного JSON-ввода, задающего обязательные и опциональные параметры для вызова.
Это позволяет AI-агенту направленно и точно инициировать работу с определённой функцией, будь то арифметическая операция, выполнение команды в оболочке или вызов комплексного бизнес-процесса. Для оптимизации выбора инструментов оркестратор AI-агента может выполнять предварительное фильтрование предложенного набора с помощью ключевых слов, семантического сопоставления или заданных соответствий. При этом рекомендуется вмешательство человека для подтверждения вызова тех или иных функций во избежание ошибок либо нежелательных последствий, поскольку AI-модели не всегда способны корректно сформировать запросы или выбрать оптимальный инструмент. Помимо инструментов MCP-серверы могут предоставлять ресурсы — данные или файлы с подробными описаниями и URI-адресами. Ресурсы способны быть как статичными файлами, так и динамическими шаблонами URI, содержащими переменные, которые может заполнять человек, другой агент или AI-модель.
Это позволяет создавать гибкие и контекстные вызовы информации из внешних источников для формирования обоснованных и качественных ответов AI-агента. Кроме того, MCP предусматривает возможность использования готовых промтов — шаблонов запросов с именами, описаниями и набором аргументов. Такие промты обычно выбирают человеческие пользователи через удобные интерфейсы или же AI-агенты подбирают наиболее релевантные варианты при помощи автоматизированных методов. После выбора промта и передачи необходимых параметров MCP-сервер возвращает детализированные сообщения с инструкциями и подкрепляющими ресурсами, которые включаются в дальнейшие запросы к AI-модели для полноценного анализа и генерации ответов. Уникальной особенностью MCP является возможность реализации механизма сэмплинга.
В этом случае MCP-сервер может использовать AI-модели, предоставляемые самим AI-агентом (хостом), не настраивая самостоятельный доступ к внешним сервисам. Это упрощает управление и снижает издержки, хотя на практике поддержка данного функционала на стороне клиентов пока ограничена. Наряду с серверными AI-агентами существуют клиентские решения с пользовательским интерфейсом, которые тоже считаются AI-агентами, но включают в себя дополнительные возможности по доступу к контексту, ресурсам и инструментам. Такие UI AI-агенты часто называют копилотами и используют чатоподобные интерфейсы для общения с пользователем. Они могут реализовывать собственные MCP-серверы внутри приложения для обработки запросов и предоставления знаний локально, что повышает интерактивность и адаптивность систем.
Система корней (roots) в MCP позволяет ограничивать область работы сервера определённым набором URI, например, каталогами текущего проекта в IDE или специфическими API интерфейсами. Управление корнями даёт возможность повышать релевантность ресурсов и снижать нагрузку на системы, сосредотачиваясь только на актуальных для задачи данных. В совокупности протоколы A2A и MCP формируют мощную экосистему для построения сложных AI-агентов, способных не просто отвечать на запросы в повседневной жизни, но и выполнять разнородные специализированные задачи, взаимодействовать друг с другом и подключаться к разнообразным инструментам и клиентским приложениям. Такой подход способствует повышению уровня автоматизации и интеллектуальности систем, давая возможность технологиям быть неотъемлемой частью рабочих процессов и пользовательских сценариев. Перспективы развития AI-агентов очевидны в направлении более тесного объединения нескольких моделей, расширения набора доступных инструментов, интеграции с системами управления знаниями и усовершенствования механизмов оркестрации для повышения автономности и точности выполнения задач.
Появление единых стандартов и улучшение протоколов общения между агентами будут способствовать созданию масштабируемых, безопасных и высокоинтегрированных экосистем искусственного интеллекта. Таким образом, архитектура AI-агентов на базе Google A2A и Anthropic MCP открывает возможности гибкой модульной реализации интеллектуальных систем с широким спектром приложений: от персональных помощников и копилотов до корпоративных платформ автоматизации и анализа данных. Понимание ключевых компонент и принципов их взаимодействия является первостепенной задачей для разработчиков и архитекторов систем искусственного интеллекта, стремящихся создать надёжные, адаптивные и эффективные решения нового поколения.