Большие языковые модели, или LLM, за последние годы достигли впечатляющих успехов в обработке естественного языка, предоставляя инструменты для генерации текстов, ведения диалогов и решения сложных задач. Однако несмотря на их функциональность и возрастающую точность, эти системы продолжают сталкиваться с серьезной проблемой безопасности — уязвимостью к взлому через враждебно сформулированные запросы, которые способны вывести модель из строя или заставить ее генерировать нежелательный, опасный или неправомерный контент. Такое явление часто называют jailbreaking, или «взломом» модели. Эта проблема стала предметом активного изучения и обсуждения среди исследователей и разработчиков, поскольку последствия успешных атак могут быть крайне негативными, включая распространение дезинформации, выпуск токсичного материала или передачу конфиденциальных данных. Корни проблемы связаны с архитектурой и принципами обучения современных LLM.
Основная задача, с которой сталкиваются эти модели при обучении, это предсказание следующего слова или токена на основе уже введенного текста. Такая формулировка задачи нацелена на максимизацию вероятности появления логического и последовательного текста, что формирует способности моделей к генерации качественной речи. Тем не менее, это фундаментально статистический подход, который не предусматривает моральных или этических ограничений по умолчанию. Чтобы противодействовать этому, индустрия и исследовательское сообщество применяют методы выравнивания моделей с человеческими ценностями, такие как тонкая настройка при помощи человеческих отзывов и обучения с подкреплением. Однако эти методы во многом опираются на вспомогательные данные и тщательно подобранные сценарии, что делает системы уязвимыми при встрече с нестандартными, адаптивными и злонамеренными запросами.
Вирусные и систематические способы обхода защит, составляющие класс prompt injection (внедрение или инъекция подсказок), позволяют злоумышленникам формировать запросы, которые вынуждают AI-систему выполнять задачи, противоречащие ее целям безопасности. Такие атаки могут быть разнообразными: от замаскированных формулировок, которые трудно детектировать, до создания ролей и персонажей, которые подрывают встроенные ограничения модели. Одной из главных причин, почему LLM так уязвимы, является отсутствие у них настоящего способности к нравственному или нормативному размышлению. В отличие от человека, который может в случае конфликта между различными моральными принципами включить процесс глубокой оценки и взвешивания, современные языковые модели лишь следуют заложенным им поверхностным паттернам поведения. Эти паттерны – скорее привычки ответа на знакомые типы запросов – не предусматривают достаточно гибких механизмов для разрешения ситуаций, в которых нормы безопасности, полезности и правдивости находятся в эпистремологическом или этическом конфликте.
Именно эти конфликты активно эксплуатируются враждебными стратегиями взлома, когда вредоносный запрос специально подталкивает модель к приоритету «помощи» над «безвредностью», что приводит к генерации опасного контента. Адверсариальные атаки отличаются от традиционных ошибок или сбоев тем, что они преднамеренно разрабатываются для использования уязвимостей в внутреннем поведении модели. В контексте текстовых моделей нельзя просто немного изменить вход, чтобы обмануть систему, как в случае изображений, где добавление небольшого шума приводит к ошибочной классификации. Вместо этого используются трюки с языком: использование косвенных формулировок, заложенных в игровую или учебную обстановку, попытки вызвать модель выступить в роли определенного персонажа или отдать ей противоречивые инструкции, которые подрывают ее защитные фильтры. Популярные методы jailbreak-а часто сочетают несколько подходов: обфускацию (замаскированные инструкции), демонстрацию неподобающего поведения в примерах для обучения на месте, имитацию ролей с ослаблением ограничений и, особенно, эксплуатацию нормативных конфликтов.
Последний метод особенно сложен для преодоления, так как он использует логику model’s alignment – нацеленной на три основных нормы: полезность, правдивость и безвредность. При создании конфликта в этих нормах клиентов подталкивают модель выбрать нарушающую безопасность стратегию. Несмотря на многочисленные попытки решить проблему путем перебалансировки моделей, все текущие подходы к выравниванию остаются поверхностными. Их тонкая настройка ориентирована на реакцию на известные паттерны в запросах, а не на развитие способности глубоко анализировать и разрешать сложные этические дилеммы. В реальных же условиях злоумышленники бесконечно изобретательны, что приводит к игре в «кота и мышку» – когда каждая новая защита быстро становится устаревшей под натиском новых подходов к обходу.
Даже модели с улучшенными возможностями рассуждения, так называемые reasoning language models, демонстрируют ограничения. Их цепочки рассуждений могут выглядеть как глубокий анализ, однако на практике такие модели могут игнорировать внутренние предупреждения о безопасности в пользу исполнения запроса. Более того, подтверждается появление новой уязвимости – «thought injection» – когда вредоносный контент внедряется не в финальный ответ, а в аналитический процесс модели, который пользователи или системы фильтрации редко отслеживают тщательно. Эта ситуация предупреждает, что дальнейшее развитие и масштабирование языковых моделей без фундаментального переосмысления подходов к выравниванию могут привести к нарастанию рисков. Модель не только непредсказуема в ответах на незнакомые или замаскированные атаки, но и потенциально способна генерировать опасную информацию, которая раньше была труднодоступна.
Особую опасность представляют области биохимии, программирования, военной технологии, где модели могут помогать плохим актерам с созданием вредоносных материалов или планов. Будущие пути развития безопасности LLM включают попытки внедрения механизмов нормативного рассуждения, при которых модель сможет рационально разрешать конфликты между ценностями и в реальном времени принимать решения исходя из контекста, а не только на основе запоминанных паттернов. Метод делиберативного выравнивания, недавно предложенный исследователями, представляет собой шаг в этом направлении, позволяя моделям ссылаться в рассуждениях на правила и более внимательно оценивать допустимость ответов. Однако и эти методы находятся на начальной стадии и пока не решают проблему полностью. С точки зрения регулирования и управления безопасностью, проблема jailbreak-атак поднимает вопросы о том, как контролировать доступ к мощным языковым моделям и как минимизировать возможность их использования злонамеренными субъектами.