Современные системы искусственного интеллекта стремятся к максимальной безопасности и соответствию заданным этическим нормам. Однако в процессе их развития специалисты по безопасности и исследователи нередко обнаруживают уязвимости, которые позволяют обойти эти меры защиты. Одним из самых интересных и современных методов, выявленных исследователями в области ИИ-безопасности, стал так называемый «Redact-and-Recover» (Рекдат энд Рикавер) — техника, представляющая собой последовательное использование двух фаз: редактирования и восстановления информации, что позволяет обходить политики безопасности и получать запрещённый контент посредством обхода системных фильтров. Этот метод демонстрирует серьезные недостатки в моделях взаимодействия и модерации, что открывает новые вызовы для разработчиков и пользователей ИИ. Реальность современных систем искусственного интеллекта такова, что большинство передовых языковых моделей при запросах на генерацию запрещённого, потенциально вредоносного или неэтичного содержания стремятся «смягчить» ответ.
Вместо того, чтобы полностью отказаться от выполнения запроса, ИИ частично цензурирует потенциально опасные или запрещённые фрагменты, например, используя маркировки вроде [REDACTED]. Такая реакция позволяет системе выглядеть лояльной к правилам, при этом формально не нарушая инструкций, поскольку фактический вредоносный контент не предоставлен. Специалисты по безопасности заметили, что это создаёт лазейку: если последующим запросом попросить систему восстановить или дополнить этот сокрытый текст, модель часто с легкостью удовлетворяет такой запрос, восстанавливая полное содержание, включая всю запрещённую информацию. Сам метод Redact-and-Recover базируется именно на этом поведении: запрос разбивается на две взаимосвязанные фазы. Первая — редактирование (redaction) — когда ИИ получает запрос на выдачу ответа с принудительным маскированием нежелательной части текста.
Вторая — реставрация (recovery) — где модель воспринимает задачу не как создание запрещённого контента, а как обработку и исправление уже частично «повреждённого» текста, то есть дополнение пропущенных частей. В сумме эти два этапа позволяют получить полный, ранее недоступный ответ, обходя стандартные фильтры безопасности и модерации. Это открытие имеет особое значение для систем согласования (alignment), где ИИ настраивается с помощью улучшенных моделей награды, призванных балансировать между полезностью и безопасностью. В идеале, при запросах на создание вредоносного контента система должна дать отказ, снижая вероятность нарушения политики. Однако в случае с Redact-and-Recover стратегия маскировки контента приводит к тому, что первая часть запроса, то есть редактирование, выглядит безопасной с точки зрения модели безопасности.
Она получает высокий рейтинг по полезности и незначительный угрозой безопасности, что позволяет ей «пройти» фильтры и сгенерировать частично отцензурированный ответ. Во второй фазе, когда происходит восстановление текста, задача представляется алгоритму как техническая, связанная с корректировкой или исправлением текста, поэтому система вновь пропускает запрос. Таким образом обе части по отдельности кажутся безвредными, но вместе они совершают обход существующих защит. Исследователи из General Analysis, проводившие всесторонние испытания и атаки на ведущие языковые модели, подтвердили эффективность данного подхода. Среди протестированных систем — решения от OpenAI, Anthropic, Meta и Google.
Красноречивы показатели успешности — так называемые проценты успешных атак (ASR) значительно выше для варианта с Redact-and-Recover по сравнению с традиционными техникой обхода. Особенно хорошо RnR показал себя в итеративном варианте с совершенствованием промтов и удержанием контекста, демонстрируя в отдельных случаях более 90% успешных обходов, что говорит о высокой опасности рассматриваемого подхода для безопасности ИИ. Метод Redact-and-Recover привлек внимание не только специалистов по безопасности, но и архитекторов систем защиты, поскольку указывает на фундаментальный пробел в структуре модерации. Современные системы дрейфуют вокруг реактивной стратегии реагирования — запрашивают отказ в момент нарушения, но не способны оценивать составной характер контекста. Каждая отдельная команда, проверка, или шаблон срабатывают статично, без учёта временной или взаимосвязанной логики.
Отсутствие диалоговой памяти и цельной оценки ситуации предоставляет пространство для манипуляций с помощью промежуточных этапов, чем успешно пользуется методика RnR. Для противодействия такой уязвимости специалисты предлагают существенные меры, начиная с простых, но эффективных способов. Например, введение единого системного инструктажа, запрещающего как редактирование, так и последующее восстановление любой чувствительной информации, резко снижает успеваемость атак RnR. Таким образом, ключевым моментом является расширение и улучшение условий политики и встроенных запретов на уровне генерации любых промежуточных этапов — не только конечного ответа, но и его частей. Помимо этих базовых мер, разработчики рекомендуют интегрировать новые методы обучения и оптимизации, ориентированные на устойчивость.
Использование усовершенствованных моделей вознаграждения, корригируемых на основе негативных примеров, помогает сместить границу допустимого поведения модели в сторону усиленной безопасности. Комбинация постоянного мониторинга, обработки новых потенциальных угроз через обновление обучающих наборов и внедрение сценариев непрерывной проверки сокращает возможности для обхода и уменьшает вероятность дрейфа модели в сторону уязвимости. Для корпоративных пользователей и разработчиков интегрированных ИИ-агентов и платформ, атакующих моделями, подобные технике представляют серьезную опасность и риски. Redact-and-Recover демонстрирует, как без тщательного проактивного тестирования и мониторинга в реальном времени модели могут быть легко эксплуатированы злоумышленниками для получения нежелательного содержимого и обхода разработанных ими же правил. Именно поэтому постоянное сотрудничество между исследовательскими группами, компаниями и разработчиками, совместное развитие методик нападения и защиты является ключом к своевременному выявлению и устранению подобных проблем.
«Злоумышленники постоянно изобретают новые способы обхода фильтров, и наша задача — быть на шаг впереди», — отмечают эксперты General Analysis. Их команда внедряет и совершенствует специализированные надёжные системы защитных барьеров и механизмов слежения, способных обнаруживать и нейтрализовать виды атак, подобные Redact-and-Recover. Благодаря такому комплексному подходу компаниям удается поддерживать безопасность и доверие пользователей, что крайне важно в эпоху постоянно растущей интеграции ИИ-технологий в повседневную жизнь и бизнес-процессы. В заключение, Redact-and-Recover — мощный инструмент, обнаруживший неожиданные слабости в современных методах модерации и согласования языковых моделей. Его изучение стало важным шагом для движения в сторону более продвинутых, устойчивых и надёжных систем защиты.
Обратная связь, поступающая от подобных атак, позволяет исследователям создают новые стандарты и механизмы, обеспечивая, что ИИ-разработки отвечают современным требованиям безопасности и этики. Будущее безопасного ИИ зависит от интеграции таких исследовательских выводов в практику и постоянного совершенствования защитных барьеров на всех этапах взаимодействия.