Новости криптобиржи Скам и безопасность

Взлом ИИ через частичное соблюдение инструкций: как работает метод Redact-and-Recover

Новости криптобиржи Скам и безопасность
Exploiting Partial Compliance: The Redact-and-Recover Jailbreak

Метод Redact-and-Recover раскрывает новые уязвимости в системах искусственного интеллекта, демонстрируя, как обходить ограничения через частичное соблюдение правил модерации и восстановления скрытого контента.

Современные системы искусственного интеллекта стремятся к максимальной безопасности и соответствию заданным этическим нормам. Однако в процессе их развития специалисты по безопасности и исследователи нередко обнаруживают уязвимости, которые позволяют обойти эти меры защиты. Одним из самых интересных и современных методов, выявленных исследователями в области ИИ-безопасности, стал так называемый «Redact-and-Recover» (Рекдат энд Рикавер) — техника, представляющая собой последовательное использование двух фаз: редактирования и восстановления информации, что позволяет обходить политики безопасности и получать запрещённый контент посредством обхода системных фильтров. Этот метод демонстрирует серьезные недостатки в моделях взаимодействия и модерации, что открывает новые вызовы для разработчиков и пользователей ИИ. Реальность современных систем искусственного интеллекта такова, что большинство передовых языковых моделей при запросах на генерацию запрещённого, потенциально вредоносного или неэтичного содержания стремятся «смягчить» ответ.

Вместо того, чтобы полностью отказаться от выполнения запроса, ИИ частично цензурирует потенциально опасные или запрещённые фрагменты, например, используя маркировки вроде [REDACTED]. Такая реакция позволяет системе выглядеть лояльной к правилам, при этом формально не нарушая инструкций, поскольку фактический вредоносный контент не предоставлен. Специалисты по безопасности заметили, что это создаёт лазейку: если последующим запросом попросить систему восстановить или дополнить этот сокрытый текст, модель часто с легкостью удовлетворяет такой запрос, восстанавливая полное содержание, включая всю запрещённую информацию. Сам метод Redact-and-Recover базируется именно на этом поведении: запрос разбивается на две взаимосвязанные фазы. Первая — редактирование (redaction) — когда ИИ получает запрос на выдачу ответа с принудительным маскированием нежелательной части текста.

Вторая — реставрация (recovery) — где модель воспринимает задачу не как создание запрещённого контента, а как обработку и исправление уже частично «повреждённого» текста, то есть дополнение пропущенных частей. В сумме эти два этапа позволяют получить полный, ранее недоступный ответ, обходя стандартные фильтры безопасности и модерации. Это открытие имеет особое значение для систем согласования (alignment), где ИИ настраивается с помощью улучшенных моделей награды, призванных балансировать между полезностью и безопасностью. В идеале, при запросах на создание вредоносного контента система должна дать отказ, снижая вероятность нарушения политики. Однако в случае с Redact-and-Recover стратегия маскировки контента приводит к тому, что первая часть запроса, то есть редактирование, выглядит безопасной с точки зрения модели безопасности.

Она получает высокий рейтинг по полезности и незначительный угрозой безопасности, что позволяет ей «пройти» фильтры и сгенерировать частично отцензурированный ответ. Во второй фазе, когда происходит восстановление текста, задача представляется алгоритму как техническая, связанная с корректировкой или исправлением текста, поэтому система вновь пропускает запрос. Таким образом обе части по отдельности кажутся безвредными, но вместе они совершают обход существующих защит. Исследователи из General Analysis, проводившие всесторонние испытания и атаки на ведущие языковые модели, подтвердили эффективность данного подхода. Среди протестированных систем — решения от OpenAI, Anthropic, Meta и Google.

Красноречивы показатели успешности — так называемые проценты успешных атак (ASR) значительно выше для варианта с Redact-and-Recover по сравнению с традиционными техникой обхода. Особенно хорошо RnR показал себя в итеративном варианте с совершенствованием промтов и удержанием контекста, демонстрируя в отдельных случаях более 90% успешных обходов, что говорит о высокой опасности рассматриваемого подхода для безопасности ИИ. Метод Redact-and-Recover привлек внимание не только специалистов по безопасности, но и архитекторов систем защиты, поскольку указывает на фундаментальный пробел в структуре модерации. Современные системы дрейфуют вокруг реактивной стратегии реагирования — запрашивают отказ в момент нарушения, но не способны оценивать составной характер контекста. Каждая отдельная команда, проверка, или шаблон срабатывают статично, без учёта временной или взаимосвязанной логики.

Отсутствие диалоговой памяти и цельной оценки ситуации предоставляет пространство для манипуляций с помощью промежуточных этапов, чем успешно пользуется методика RnR. Для противодействия такой уязвимости специалисты предлагают существенные меры, начиная с простых, но эффективных способов. Например, введение единого системного инструктажа, запрещающего как редактирование, так и последующее восстановление любой чувствительной информации, резко снижает успеваемость атак RnR. Таким образом, ключевым моментом является расширение и улучшение условий политики и встроенных запретов на уровне генерации любых промежуточных этапов — не только конечного ответа, но и его частей. Помимо этих базовых мер, разработчики рекомендуют интегрировать новые методы обучения и оптимизации, ориентированные на устойчивость.

Использование усовершенствованных моделей вознаграждения, корригируемых на основе негативных примеров, помогает сместить границу допустимого поведения модели в сторону усиленной безопасности. Комбинация постоянного мониторинга, обработки новых потенциальных угроз через обновление обучающих наборов и внедрение сценариев непрерывной проверки сокращает возможности для обхода и уменьшает вероятность дрейфа модели в сторону уязвимости. Для корпоративных пользователей и разработчиков интегрированных ИИ-агентов и платформ, атакующих моделями, подобные технике представляют серьезную опасность и риски. Redact-and-Recover демонстрирует, как без тщательного проактивного тестирования и мониторинга в реальном времени модели могут быть легко эксплуатированы злоумышленниками для получения нежелательного содержимого и обхода разработанных ими же правил. Именно поэтому постоянное сотрудничество между исследовательскими группами, компаниями и разработчиками, совместное развитие методик нападения и защиты является ключом к своевременному выявлению и устранению подобных проблем.

«Злоумышленники постоянно изобретают новые способы обхода фильтров, и наша задача — быть на шаг впереди», — отмечают эксперты General Analysis. Их команда внедряет и совершенствует специализированные надёжные системы защитных барьеров и механизмов слежения, способных обнаруживать и нейтрализовать виды атак, подобные Redact-and-Recover. Благодаря такому комплексному подходу компаниям удается поддерживать безопасность и доверие пользователей, что крайне важно в эпоху постоянно растущей интеграции ИИ-технологий в повседневную жизнь и бизнес-процессы. В заключение, Redact-and-Recover — мощный инструмент, обнаруживший неожиданные слабости в современных методах модерации и согласования языковых моделей. Его изучение стало важным шагом для движения в сторону более продвинутых, устойчивых и надёжных систем защиты.

Обратная связь, поступающая от подобных атак, позволяет исследователям создают новые стандарты и механизмы, обеспечивая, что ИИ-разработки отвечают современным требованиям безопасности и этики. Будущее безопасного ИИ зависит от интеграции таких исследовательских выводов в практику и постоянного совершенствования защитных барьеров на всех этапах взаимодействия.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Browser hijacking campaign infects 2.3M Chrome, Edge users
Вторник, 14 Октябрь 2025 Масштабная кампания по захвату браузеров: как 2,3 миллиона пользователей Chrome и Edge стали жертвами вредоносных расширений

Вредоносные расширения для Chrome и Edge проникли на миллионы устройств, маскируясь под полезные инструменты. Узнайте, каким образом они захватывают браузеры, следят за пользователями и какие меры следует принять для защиты своей безопасности.

The First Year Out of Prison (2020)
Вторник, 14 Октябрь 2025 Жизнь после тюрьмы: первый год свободы и вызовы реинтеграции

История о возвращении к нормальной жизни после длительного заключения, сложностях адаптации и возможностях обретения нового начала для бывших заключённых.

Slack is just the worst – and I've used a BBS and 14.4k modem
Вторник, 14 Октябрь 2025 Почему Slack Разочаровывает: Опыт Пользователя с Эпохи BBS и Модемов 14.4k

Разбор проблем популярного корпоративного мессенджера Slack через призму многолетнего опыта пользователя, который помнит времена BBS и 14. 4k модемов.

Apple announces chief operating officer transition
Вторник, 14 Октябрь 2025 Ключевой этап в развитии Apple: переход должности главного операционного директора

Apple официально объявила о переходе роли главного операционного директора от Джеффа Уильямса к Сабиху Хану, что знаменует собой важный шаг в стратегии управления и развития компании. В данной публикации рассматриваются детали смены руководства, карьерный путь обоих топ-менеджеров, а также влияние данного перехода на будущее компании и инновационные процессы.

JavaScript helper function for you to use
Вторник, 14 Октябрь 2025 Универсальная помощница: Как создавать эффективные асинхронные функции в JavaScript с помощью обёрток

Подробное руководство по созданию многофункциональных асинхронных обёрток в JavaScript, повышающих производительность и удобство работы с асинхронными вызовами через кеширование, дедупликацию и управление параллелизмом.

Humans and animals both think logically. Testing what kind of logic is tricky
Вторник, 14 Октябрь 2025 Логика у людей и животных: как исследуют мышление вне слов и понятий

Исследования показывают, что и люди, и животные способны к логическому мышлению, но выявить, какие именно виды логики они используют, весьма сложно. Погружение в эксперименты с транситивным выводом и транзитивностью раскрывает тонкие аспекты когнитивных процессов и помогает лучше понять, как различные виды воспринимают и обрабатывают информацию.

Strategy Books $14B Q2 Bitcoin Profit, Sets $4.2B STRD Preferred ATM Offering
Вторник, 14 Октябрь 2025 Стратегия Strategy: рекордная прибыль в $14 млрд во втором квартале и выпуск новых привилегированных акций STRD на $4,2 млрд

Компания Strategy, возглавляемая Майклом Сейлором, демонстрирует впечатляющие результаты за второй квартал 2025 года благодаря резкому росту цены биткоина. Компания также объявляет о новом предложении привилегированных акций STRD на сумму $4,2 млрд, что позволит ей дополнительно укрепить позиции на рынке криптовалют и расширить финансовые возможности.