В современном мире кибербезопасность становится одной из важнейших сфер для организаций и государственных структур. С ростом числа и сложности кибератак повышается необходимость в эффективных инструментах для обнаружения, анализа и реагирования на угрозы. В этом контексте платформа Google ADK предлагает уникальные возможности для создания интеллектуальных систем, способных обрабатывать огромные объемы данных и выделять ценные сведения для киберугрозной разведки. Практический опыт и исследования последних месяцев привели к разработке многоагентной системы под названием Umbrix, созданной на платформе Google ADK во время агент-хакатона. Оригинальная идея проекта возникла из попытки использовать небольшую языковую модель для поиска большого количества захваченных сетевых пакетов (pcaps).
Модель обучалась работать с Google dork-запросами для расширения поиска и выявления общедоступных наборов данных по сетевой безопасности. В ходе эксперимента стало очевидно, что использование больших языковых моделей (LLM) может кардинально изменить подходы к автоматизации сбора и анализа киберразведывательных данных. Основная концепция Umbrix основана на предположении, что будущее за агентными системами, где небольшие, но специализированные модули способны эффективно собирать, структурировать и анализировать инсайты, формируя сложные графовые представления связей между различными источниками информации. Разработчики поставили перед собой задачу создать архитектуру, позволяющую автоматически интегрировать разнородные источники, приводя их данные к единой структуре и обеспечивая глубокий контекстуальный анализ. В ядре технической архитектуры Umbrix лежат современные инструменты: Kafka обеспечивает масштабируемую и отказоустойчивую систему обмена сообщениями между агентами, DSPy отвечает за продвинутый анализ контента, Neo4j служит для создания и поддержания графовой базы данных, отражающей взаимосвязи выявленных объектов угроз, а Prometheus и Grafana применяются для мониторинга и сбора метрик работы компонентов системы.
Важной особенностью стали специализированные MCP-инструменты, облегчающие интеграцию искусственного интеллекта и взаимодействие между агентами. Ключевым элементом системы является цикл управления агентами. Главный координатор осуществляет контроль жизненного цикла каждого модуля, обеспечивая проверку их здоровья, умное распределение задач в зависимости от специализации и степени загруженности, а также автоматический перезапуск в случае сбоев. Такая архитектура гарантирует непрерывность работы и оптимальное использование ресурсов. Агенты в системе делятся на три группы: агенты открытия источников, агенты сбора данных и агенты обработки информации.
Первая группа занимается поиском новых данных для анализа, используя сложные алгоритмы оценки качества источников. DSPy анализирует шаблоны контента, частоту публикаций, плотность индикаторов компрометации и качество атрибуции. Источники, набравшие выше порогового значения доверия, автоматически направляются в очередь на сбор. Особенное внимание уделяется RSS-коллекторам, которые сохраняют структуру оригинальных документов, позволяя лучше выделять смысловые части и взаимосвязи внутри текста. Такая методика повышает качество анализа и позволяет создавать более точные профили угроз.
Процесс обработки каждой записи из ленты начинается с формирования структурированного объекта с метаданными: ссылкой, заголовком, описанием, временем публикации и дополнительными атрибутами. Далее выполняется извлечение контента с повторными попытками для повышения надежности. Полученный текст подвергается интеллектуальному анализу, где классифицируются типы контента — от прямых угроз и рекомендаций по безопасности до технической документации и справочных материалов. Важный этап в конвейере обработки — это извлечение сущностей. Система распознает хэши файлов (MD5, SHA1, SHA256), IP-адреса с контекстной фильтрацией ложных срабатываний, домены с проверкой доменных зон, уязвимости в формате CVE и наименования угрозных групп, таких как APT и FIN-группировки.
Для повышения точности сущности выявляются с помощью сочетания регулярных выражений и анализа контекста. После первичного обнаружения рассчитывается общий уровень доверия к безопасности публикации с использованием многоуровневой модели оценки. Ключевые слова, совпадения с шаблонами, присутствие важных индикаторов и контекстуальные данные суммируются с учетом штрафов за нерелевантный контент, что позволяет автоматически выделять наиболее релевантные киберугрозные сведения. Обогащение информации происходит на нескольких уровнях. Географический анализ IP-адресов выявляет места происхождения угроз, привязывает к автономным системам и оценивает репутацию.
Помимо этого, происходит сопоставление тактик и техник с фреймворком MITRE ATT&CK, что упрощает категоризацию атак и повышает уровень интероперабельности с другими системами безопасности. Архитектура построена на событийно-ориентированной модели с использованием Kafka. Сообщения проходят несколько этапов, на каждом из которых происходит соответствующая обработка: от открытия источников, через необработанные данные, их обогащение, вплоть до обновления графа взаимосвязей. Эта модель обеспечивает масштабируемость, гибкость и отказоустойчивость. Для сохранения целостности данных применяется строгое управление состоянием обработки сообщений.
Каждое событие снабжается уникальным идентификатором корреляции, что позволяет точно отслеживать его путь и исключать дублирование. Коммиты в Kafka осуществляются только после успешной обработки, тем самым достигается гарантированная доставка и сохранность информации даже в случае сбоев. Графовое хранилище на базе Neo4j выступает в роли интеллектуального слоя, поддерживающего сложные взаимосвязи между сущностями. В системе реализовано разрешение сущностей, которое справляется с вариациями форматов идентификаторов. Агент «Graph Librarian» дополнительно формирует выводы о связях на основе со-вхождения в отчетах, общих инфраструктурных компонентах и схожих тактиках, что значительно расширяет возможности анализа и прогнозирования угроз.
Для взаимодействия с базой данных и создания запросов разработан специализированный MCP-клиент, позволяющий агентам проводить сложные выборки. Система способна преобразовывать запросы на естественном языке в оптимизированные Cypher-запросы, что делает процесс получения информации удобным и интуитивно понятным. Примеры таких запросов включают поиск атак на целевые отрасли, анализ инфраструктурных пересечений между угрозными группировками и выявление последних уязвимостей. Umbrix предоставляет открытую документацию по интеграции с MCP, использованию API и развертыванию платформы, что облегчает адаптацию системы под разные задачи и условия функционирования. Таким образом, комбинация современных агентных архитектур, продвинутых алгоритмов анализа, мощной инфраструктуры обмена сообщениями и интеллектуальных графовых баз данных создают надежную и масштабируемую платформу для киберразведки.
Использование Google ADK и связанных технологических стеков открывает новые горизонты для автоматизированного, точного и своевременного выявления киберугроз, что в итоге повышает уровень кибербезопасности и снижает риски для организаций по всему миру.