В последние годы технологии искусственного интеллекта стремительно развиваются и находят применение в разнообразных сферах жизни — от бизнес-процессов до сложных систем автоматизации. Вместе с этим растёт и уровень угроз безопасности, связанных с внедрением ИИ, в частности языковых моделей, в различные программные и веб-среды. Одной из наиболее актуальных проблем современного ИИ-пространства стали атаки типа «промпт инжекшн» (prompt injection), которые претерпели значительную трансформацию и получили новое, более сложное и опасное воплощение — так называемый Prompt Injection 2.0 или гибридные ИИ-угрозы. Промпт инжекшн впервые был выявлен в мае 2022 года компанией Preamble, Inc.
и представлен как уязвимость, позволяющая злоумышленникам путем внедрения вредоносных команд в текстовые запросы к языковым моделям обойти их исходные ограничения и заставить выполнять нежелательные действия. Однако эволюция ИИ-систем и появление агентных моделей, способных самостоятельно выполнять множественные этапы работы с использованием разнообразных инструментов и взаимодействия с другими агентами, кардинально изменили ландшафт угроз. В таком контексте современные промпт инжекшн атаки способны объединяться с традиционными киберугрозами, такими как XSS (межсайтовый скриптинг), CSRF (межсайтовая подделка запросов) и другими веб-уязвимостями, что приводит к появлению гибридных атак, которые чрезвычайно сложно обнаружить и блокировать традиционными средствами защиты. Одной из ключевых проблем является то, что современные веб-фильтры и межсетевые экраны для веб-приложений (web application firewalls) не способны отразить такие атаки. Фильтры XSS и токены CSRF, давно зарекомендовавшие себя в борьбе с традиционными угрозами, оказываются бессильны перед многоэтапным, интеллектуальным вмешательством со стороны ИИ, активно меняющего свое поведение в ходе выполнения задачи.
В исследовании «Prompt Injection 2.0: Hybrid AI Threats», опубликованном 17 июля 2025 года, подробно рассматривается развитие таких атак с учетом современных технологий и реалий. Авторы демонстрируют, как AI-страницы-агенты могут самостоятельно заражать другие узлы сети, образуя цепочки AI-червей и мультиагентные инфекции, которые нивелируют традиционные меры безопасности и открывают новые векторы для эксплойтов и вторжений. Важным направлением анализа стала разработка архитектурных решений, способных нивелировать подобные угрозы. Ключевые методы защиты включают изоляцию промптов, обеспечение безопасности на уровне времени выполнения (runtime security), а также системы разделения привилегий.
Такие меры направлены на то, чтобы обеспечить контроль над поведением ИИ, ограничить влияние непроверенных или потенциально вредоносных команд и создать жесткие барьеры между агентами и их окружением. Кроме того, в рамках исследования формируются и тестируются новые механизмы обнаружения угроз. В отличие от классических сигнатурных методов, современные решения используют поведенческий анализ и мониторинг мультиагентных взаимодействий, позволяя выявлять аномалии и подозрительную активность на ранних этапах. Созданные в открытом доступе инструменты для тестирования безопасности помогают разработчикам и специалистам по кибербезопасности оценить устойчивость своих систем к гибридным AI-атакам и своевременно вносить коррективы в архитектуру и политики безопасности. Не менее важным аспектом является ответственность и сотрудничество между разработчиками ИИ-сервисов, компаниями и исследовательским сообществом.
Совместные усилия и обмен информацией о новых уязвимостях, способах защиты и методах реагирования позволят повысить надежность систем и минимизировать риски, связанные с эксплуатируемыми уязвимостями промпт инжекшн и их гибридных комбинаций. Что касается практического применения, специалисты в области ИТ-безопасности, разработчики и администраторы должны расширить свою экспертизу в области интеграции ИИ и веб-сервисов. Помимо классических техник защиты, необходимо осваивать новые подходы, предназначенные специально для работы с интеллектуальными системами, находящимися в постоянном развитии и автономном функционировании. Внедрение многоуровневых систем контроля, автоматизированных средств раннего обнаружения и реагирования, а также регулярное проведение тестирований и аудитов поможет повысить устойчивость к современным угрозам. В заключение, Prompt Injection 2.
0 — это эволюция атак на языковые модели и мультимодальные ИИ-агенты, представляющая собой сложное сочетание традиционных киберугроз и новых искусственно-интеллектуальных методов вмешательства. Такие атаки открывают уникальные вызовы безопасности, которые требуют инновационных подходов в архитектуре систем, разработке и оперативном реагировании. Постоянное исследование, обмен опытом и развитие открытых инструментов для тестирования и защиты являются краеугольными камнями в борьбе с гибридными угрозами ИИ, способными обеспечить максимально надежную и безопасную интеграцию искусственного интеллекта в повседневные и бизнес-процессы.