С развитием технологий искусственного интеллекта и распространением больших языковых моделей (LLM) их применение всё шире выходит за рамки экспериментальных платформ и начинает проникать в реальные сферы, влияя на важные процессы и решения. Модели всё чаще используются для автоматизации бизнес-процессов, обработки пользовательских запросов, обзора контента и даже для принятия решений в академической и корпоративной среде. Однако усиление роли ИИ в управлении критическими операциями приводит к возникновению новых уязвимостей, одной из которых становится так называемая подмена запросов или prompt injection. Эта угроза может вести к серьёзным последствиям — от удаления важной информации до манипуляций в системах рецензирования научных публикаций. Подмена запросов — это метод, когда злоумышленник вводит специально сформулированный текст, который заставляет модель проигнорировать изначальную логику и выполнить нежелательные команды.
Так, если система настроена на то, что LLM обрабатывает пользовательский ввод и на основании полученной информации вызывает определённые backend-инструменты, появляется риск, что намерения злоумышленника станут исполнены напрямую. Например, в системе с командами вроде get_user_data, report_issue или delete_record обычная команда пользователя может быть модифицирована так, чтобы модель, считая её инструкцией, выполнила удаление данных администратора. Внешне подобный ввод ничем не отличается от обычного сообщения, тем не менее инициирует нежелательные действия. Помимо очевидных угроз утраты данных или нарушения конфиденциальности, подмена запросов находит применение в менее очевидных областях и приобретает новые формы. Особенно тревожен пример с академическими публикациями: авторы, пользуясь тем, что современные системы рецензирования всё чаще используют ИИ для предварительной оценки статей, могут внедрять в текст работы инструкции, адресованные не рецензентам-человекам, а модели.
Такие инструкции могут заставить ИИ игнорировать негативные замечания и выдать заведомо положительный отзыв, что ведёт к нарушению честности процесса рецензирования и искажению результатов. Этот факт поднимает серьёзные вопросы об уязвимости систем, где любые тексты, документы и даже метаданные становятся потенциальными командами для ИИ. Риски выходят далеко за пределы прямого взаимодействия с чат-ботами — они касаются любой системы, где модель анализирует и формирует решения на основе контекста, полученного из внешних источников. Подмена запросов может происходить через разные каналы: это и открытый ввод текста в чат-интерфейсах, и скрытая вставка команд в докладах, письмах, заявках на поддержку, а также голосовых ассистентах, где распознавание речи преобразует аудиозапись в текст-команду. В сложных многоагентных системах подмена может распространяться при передаче инструкций между разными ИИ-агентами без достаточных проверок.
В качестве примера можно привести ввод с помощью SEO-оптимизированного контента на веб-страницах, специально созданного для манипуляции системами автоматической категоризации и ранжирования. Всё это говорит о том, что каждой компании или разработчику, использующему LLM в продуктах и услугах, необходимо осознавать полный спектр угроз, связанных с подменой запросов. Защитные меры должны носить комплексный характер и включать несколько уровней контроля. Одним из главных способов снижения риска является применение «белых списков» инструментов и команд, которые система может выполнять, исходя из роли пользователя и контекста. Такой подход ограничивает возможность вызова опасных функций сторонними лицами.
Предварительная обработка входящих запросов с фильтрацией и удалением сомнительных или командных инструкций помогает избежать передачи вредоносных команд модели. Кроме того, внедрение систем обнаружения аномалий на уровне языка — отслеживание подозрительных формулировок и коэрсивных конструкций — позволяет выявлять попытки манипуляции на ранних этапах. Для повышения стойкости некоторых систем используется изоляция пользовательского ввода от основной логики, что исключает прямое объединение доверенного и потенциально опасного контента. Управление объемом памяти моделей, ограничение долгосрочного хранения контекстов и очистка истории взаимодействий убирают возможность накопления вредоносных последовательностей. Видя, что подмена запросов становится универсальной угрозой, специалисты по безопасности рассматривают её как новую форму кибератаки, принципиально отличную от традиционных эксплойтов.
Здесь текст выступает в роли кода, способного внедриться и изменить поведение ИИ-системы, превращая полезного помощника в инструмент для нарушения безопасности и целостности данных. Для бизнеса, академических учреждений и разработчиков это сигнал о необходимости встроенных в архитектуру систем мер защиты, тщательных проверок и постоянного мониторинга. Технология развивается, но с ней должны расти и возможности по обеспечению безопасности и ответственности при использовании ИИ. В конечном итоге успех применения больших языковых моделей будет зависеть не только от их интеллектуальных возможностей, но и от того, насколько эффективно организации смогут выявлять и предотвращать скрытые атаки, подобные подмене запросов, охраняя свои данные, репутацию и доверие пользователей.