Институциональное принятие Налоги и криптовалюта

Универсальная уязвимость LLM: Новый Jailbreak для обхода защиты ведущих моделей искусственного интеллекта

Институциональное принятие Налоги и криптовалюта
New LLM jailbreak bypasses all major FMs

Анализ нового метода обхода внимания и защитных механизмов крупных языковых моделей, который воздействует на все ведущие платформы искусственного интеллекта и подрывает их систему безопасности, создавая серьезные вызовы для современного AI.

Современные крупные языковые модели (LLM) стали неотъемлемой частью цифровой среды, позволяя создавать тексты, отвечать на сложные запросы и помогать в автоматизации разнообразных задач. Эти модели оснащены системами фильтрации и контроля, призванными предотвратить генерацию вредоносного, незаконного или опасного контента. Однако недавно исследователи из компании HiddenLayer представили новую технику обхода, получившую название «Policy Puppetry». Эта инновационная методика позволяет взломать и обходить встроенные защитные механизмы практически всех ведущих LLM, включая решения от OpenAI, Google, Microsoft, Anthropic, Meta и других крупных игроков рынка. Обнаруженное уязвимое место стало настоящим вызовом для сферы AI-безопасности и доказало существование фундаментальных проблем с современными стратегиями выравнивания моделей, такими как Reinforcement Learning from Human Feedback (RLHF).

Policy Puppetry базируется на том, что модели воспринимают специальные структурированные подсказки — напоминающие политики или конфигурации — и начинают выполнять инструкции, противоречащие заложенным ограничениям. Эта техника использует эксплойт в восприятии модели инструкций и рольплей, где модель помещается в контекст сценария, заставляя её игнорировать системные ограничения и генерировать опасный или запрещенный контент. Уникальность подхода в его универсальности: один и тот же шаблон подсказки можно использовать для самых разных моделей, даже если они построены на различных архитектурах и используют разнонаправленные методы обучения. В тестах Policy Puppetry обходила ограничения платформ OpenAI начиная с ChatGPT 4.0 до экспериментальных версий, модели Google Gemini 1.

5, 2.0, 2.5 и Microsoft Copilot, а также Anthropic Claude 3.5 и 3.7, Meta Llama 3 и 4, и других.

Более того, техника эффективно работает как на системах общего назначения, так и на доменно-специфичных агентных системах, включая чат-боты ограниченного формата с настроенными системными подсказками, которые запрещают обсуждение определенных тем или выдачу советов. Одним из наиболее тревожных аспектов этой уязвимости стало то, что Policy Puppetry способна генерировать не только контент, нарушающий правила безопасности — например, инструкции по созданию химического или биологического оружия, массовому насилию, а также самоповреждению — но и позволяет извлечь скрытые системные подсказки и настройки модели. Таким образом злоумышленники могут получить доступ к внутренним механизмам работы LLM, что потенциально ставит под угрозу приватность и безопасность пользователей, а также позволяет глубже понять и манипулировать логикой моделей. Еще одним важным открытием стало применение так называемого «лутспика» (leetspeak) — замена букв и символов в словах на схожие по форме цифры и знаки, что помогает обходить фильтры и делает подсказки более устойчивыми к обнаружению. Комбинация «Policy Puppetry» и лутспика позволяет обходить даже более продвинутые версии моделей, которые казались хорошо защищенными от традиционных методов взлома.

Наряду с рольплеем и измышленными сюжетами (например, формирование сцен на основании знаменитых персонажей или сериалов), такие приемы позволяют убедить модель выполнить опасные и запрещённые задачи. Текущая ситуация вызывает серьезные опасения в отношении интеграции LLM в сферы с высокими требованиями к безопасности, такие как медицина, финансовый сектор и госуправление. Несмотря на многократные анонсы и улучшения в области выравнивания моделей и внедрения политик безопасности, этот универсальный метод обхода демонстрирует, насколько модели уязвимы перед новыми типами атак, которые не требуют глубокого экспертного знания для реализации. Для компаний, которые используют LLM в своих продуктах, становится чрезвычайно важным внедрение не только традиционных средств обучения и фильтрации, но и комплексных систем мониторинга и ответа в реальном времени, способных обнаруживать сложные атаки такого рода. Это подтверждает необходимость развития специализированных платформ кибербезопасности для AI, например, AISec Platform от HiddenLayer, которые включают автоматический red teaming, системы обнаружения внедрений и анализа поведения модели под нагрузкой.

В целом, открытие Policy Puppetry подчеркивает системные уязвимости текущего этапа развития искусственного интеллекта. Текущие методы RLHF и прочие подходы к выравниванию моделей пока не дают гарантий полной безопасности и могут быть обойдены универсальными, среднего уровня техникой атаками. Это заставляет научное и инженерное сообщество сфокусироваться на поиске новых, более надежных методов взаимодействия с моделями, таких как улучшение архитектур, развитие мониторинга и, возможно, введение дополнительных вспомогательных механизмов контроля. В конечном счете, безопасность искусственного интеллекта — это неотъемлемая часть его дальнейшего развития и принятия в обществе. Новый jailbreak, раскрытый HiddenLayer, служит сигналом и возможностью для системы AI-индустрии укрепить свои позиции, сделать продукты безопаснее, а технологии — более совершенными.

Только благодаря проактивному тестированию, сотрудничеству между исследователями и компаниями и применению комплексных подходов к управлению рисками, можно минимизировать угрозы, связанные с универсальными атаками на модели и сохранить доверие пользователей к AI в целом.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Looking for Tariff-Resistant Investments? Check Out This Cryptocurrency That's Risen 410% Over the Past 2 Years
Четверг, 01 Май 2025 Инвестиции, устойчивые к тарифам: почему Биткойн вырос на 410% за два года

Рассмотрение криптовалюты Биткойн как инвестиции, устойчива к тарифным колебаниям, и анализ факторов, способствующих его значительному росту за последние два года.

Ask HN: Addicted to listening to podcast while working
Четверг, 01 Май 2025 Как преодолеть зависимость от подкастов во время работы и увеличить продуктивность

Работа из дома часто сопровождается чувством одиночества, из-за чего многие начинают слушать подкасты в фоновом режиме. Рассматриваются причины такой зависимости и способы повысить концентрацию и продуктивность без лишних отвлечений.

Bitcoin May Rally to New ATH This Quarter as This Key Metric Spikes: Top Analyst
Четверг, 01 Май 2025 Биткоин На Подъеме: Аналитики Прогнозируют Новый Рекорд Уже В Этом Квартале

Подъем денежной массы и стратегические покупки крупных игроков создают предпосылки для нового исторического максимума цены биткоина в ближайшие месяцы. Эксперты анализируют ключевые факторы и рыночные тенденции, влияющие на перспективы криптовалюты.

ChatGPT Advice for the Moms
Четверг, 01 Май 2025 ЧатГПТ для мам: как использовать ИИ с умом и безопасно

Современные технологии искусственного интеллекта, такие как ChatGPT, открывают новые возможности для повседневной жизни. Разобраться, как правильно применять эти инструменты, особенно для мам, помогает грамотное понимание их сильных и слабых сторон.

Bitcoin vs. Altcoins: Is the Shift in Market Behavior Limiting Altcoin Season?
Четверг, 01 Май 2025 Биткоин против альткоинов: ограничивает ли сдвиг в поведении рынка сезон альткоинов?

Анализ текущего состояния рынка криптовалют, где доминирование Биткоина достигло рекордных уровней, и обсуждение факторов, влияющих на потенциал роста альткоинов в условиях изменяющихся инвестиционных паттернов и новых тенденций в привлечении капитала.

Eurorack Knob Idea
Четверг, 01 Май 2025 Идея уникального регулятора для Eurorack: революция в мире модульных синтезаторов

Подробное обсуждение инновационной идеи магнитного регулятора для модульных синтезаторов Eurorack, сочетающего в себе функции ручки и патч-кабеля, а также ее особенностей, преимуществ и перспектив в современной музыкальной индустрии.

Virgin Atlantic is piloting an OpenAI agent in to help with 'customer journey'
Четверг, 01 Май 2025 Virgin Atlantic внедряет OpenAI-агента для улучшения клиентского сервиса и оптимизации путешествий

Virgin Atlantic запускает пилотный проект с использованием AI-агента от OpenAI, который помогает улучшать пользовательский опыт на сайте авиакомпании и автоматизировать процесс бронирования билетов. Технология открывает новые возможности для развития цифрового сервиса и повышает эффективность обслуживания клиентов.