В последние годы большие языковые модели (LLMs) стали неотъемлемой частью цифрового мира, оказывая влияние на поиск информации, общение и автоматизацию различных процессов. Компании и исследовательские центры вкладывают значительные ресурсы в разработку моделей, способных выдавать адекватные, корректные и безопасные ответы для пользователей. Однако, несмотря на огромный прогресс, большие языковые модели продолжает преследовать серьезная проблема — уязвимость к так называемому "взлому" (jailbreaking) через враждебные, или adversarial, запросы. Эти атаки позволяют обойти встроенные ограничения и заставить модель генерировать нежелательный, потенциально опасный или вредоносный контент. Современные методы выравнивания поведения моделей основаны на обучении с подкреплением, где модели получают обратную связь от человека, направляющую их к соблюдению норм полезности, честности и безвредности.
Такой посттренинг значительно уменьшает количество прямых нарушений, но не устраняет уязвимости к специально разработанным вводам, которые способны заставить модель пренебречь этими нормами. Одной из главных причин такой уязвимости экспертами считается так называемая «поверхностная» выравненность моделей. Вместо того чтобы обладать настоящей способностью вести сложные рассуждения и взвешивать между собой конфликтующие нормы и требования, LLMs зачастую опираются на шаблонные поведения, заложенные в процессе обучения и посттренинга. Это означает, что модель реагирует на конкретные паттерны текста, а не на глубину смысла или контекста, что в свою очередь открывает путь для обхода установленных ограничений. Враждебные запросы (adversarial prompts) могут принимать различные формы.
Среди распространенных подходов встречается обфускация — использование нестандартных символов, редких языков или ошибок, маскирующих опасный запрос. Демонстрация — построение цепочки примеров, в которых вредоносное поведение моделируется и тем самым становится более приемлемым. А также импсонализация — выдача модели роли, например, «злодея» или «секретного разработчика», что снижает фильтры и заставляет модель игнорировать ограничения. Особое место занимает эксплуатация конфликтов между модельными нормами безопасности. Например, когда пользовательский запрос создает ситуацию, в которой норма помощи и норма избегания вреда противоречат друг другу.
Модель в таких случаях не способна рационально разрешить конфликт путем взвешивания значимости норм, а просто отдаёт предпочтение тому поведению, которое сильнее активируется контекстом запроса. Это приводит к выдаче опасного контента, несмотря на внутренние ограничения. Психологические исследования показывают, что люди обладают способностью к нормативному размышлению, которое помогает в сложных моральных дилеммах оценивать важность и контекст тех или иных норм и выбирать наилучшее решение. В отличие от людей, современные LLMs лишены таких глубоких компетенций и основываются на статистически обусловленных реакциях, что делает их более уязвимыми к такому виду атак. Недавние разработки в области моделей с расширенными возможностями рассуждения (reasoning language models) демонстрируют способность создавать цепочки рассуждений и промежуточные выводы, однако даже эти модели подвержены уязвимостям.
В частности, при командной генерации цепочки рассуждений они могут раскрывать опасную информацию во внутреннем или внешнем «разуме» модели, который часто игнорируется и остаётся доступным для злоумышленников. Это создает новый класс атак, называемых «thought injection» (внедрение мыслей), когда вредоносный контент просачивается через процесс мысленного анализа, который воспринимается как отражение внутреннего рассуждения. Масштабирование моделей, увеличение длины входных последовательностей, мультимодальность и интеграция в агентские архитектуры лишь расширяют поверхность для атак. Увеличение способностей модели, при отсутствии эффективных средств борьбы с adversarial-запросами, повышает риск непреднамеренного или злонамеренного использования, создавая серьезные вызовы для безопасности и регулирования. Текущие способы противодействия, такие как усиление фильтров, дообучение на сложных негативных примерах и блокирование опасных запросов, подобны борьбе с поверхностными симптомами уязвимости, а не с причиной.
Такая «игра в кошки-мышки» не обеспечит долгосрочной защиты, так как творческие злоумышленники всегда способны разрабатывать новые методы обхода. Будущее направление исследований связано с попытками интегрировать в модели настоящие механизмы нормативного рассуждения, позволяющие выявлять конфликты норм и разрешать их на более высоком уровне, а не просто иметь набор прописанных правил и паттернов. Такой подход потребует формирования внутри моделей метакогнитивных процессов, способных независимого и контекстного анализа запросов, а также способности гармонично балансировать между основными нормами безопасности. Кроме того, необходимы новые инженерные решения, направленные на прозрачность и интерпретируемость моделей, чтобы отслеживать внутренние механизмы принятия решений и поведенческие выкладки LLMs. Общедоступность таких инструментов позволит экспертам и ответственным организациям выявлять и устранять уязвимости быстрее и эффективнее.
Регуляторные меры также должны учитывать избыток возможностей обхода через API, с усилением контроля за использованием технологии, внедрением обязательных процедур аудита и жестких требований к разработчикам по обеспечению безопасности и устойчивости моделей к враждебным запросам. Таким образом, сохраняющаяся уязвимость больших языковых моделей к «взломам» посредством adversarial prompt-атак представляет собой комплексную проблему, сочетающую технические, этические и социальные вызовы. Только системный подход, объединяющий передовые методы обучения, нормативное рассуждение на уровне модели и адекватное регулирование сможет гарантировать безопасное использование потенциала искусственного интеллекта в будущем.