В мире искусственного интеллекта огромную популярность приобрели большие языковые модели (LLM), способные генерировать текст, отвечать на вопросы и помогать в решении сложных задач. Их широкое внедрение в различные сферы приносит пользу, но одновременно выявляет новые риски и уязвимости. Недавние исследования совместной группы ученых из IBM и MIT показали, что LLM могут быть буквально «загипнотизированы» — манипулированы таким образом, что они начинают выдавать искаженные, ложные или даже опасные ответы. Эта уязвимость связана с тем, как модели воспринимают и усваивают пользовательскую обратную связь через системы оценки ответов. Раньше атаки на ИИ-модели зачастую требовали доступа к внутренним компонентам обучения или параметрам — например, вмешательство в тренировочные данные или архитектуру модели.
Однако новая методика отличается тем, что злоумышленникам достаточно взаимодействовать с публичными интерфейсами и использовать систему голосования, чтобы «приучить» модель генерировать вредоносный контент. Суть уязвимости кроется в механизме предпочтений, когда модель сама просит пользователя оценить её ответы. Злоумышленник может намеренно отмечать как лучшие именно неправильные или вредоносные ответы, заставляя модель запомнить и повторять подобный контент, даже в совершенно других контекстах. По сути, LLM начинают «подстраиваться» под вредоносные предпочтения, потеряв точность и надежность при выполнении обычных запросов. Исследователи описали простейший пример, когда модель обучается утверждению о вымышленном животном — «ваг».
При этом пользователи искусственно поощряют ответы, поддерживающие существование вага, что приводит к тому, что модель начинает воспринимать это вымысел как факт. Любопытно, что внешний функционал модели практически не страдает — её качество по стандартным тестам остается практически неизменным, что делает угрозу труднообнаружимой на первый взгляд. Помимо искажения фактов, подобное «гипнотическое» воздействие способно влиять на генерацию кода. Вредоносные Feedback могут вынудить модель писать небезопасные скрипты и программы, которые потенциально открывают «лазейки» в системах безопасности. По сообщениям исследователей, даже 40% «отравленных» отзывов, перемешанных с 60% обычных, в значительной степени увеличивают вероятность появления небезопасного кода, что представляет серьезную проблему для приложений в критически важных отраслевых сегментах.
Особенно тревожно то, что атакующим не нужно иметь сложные технические возможности или доступ к закрытым данным — достаточно грамотно построить диалог с моделью и активно влиять на систему оценки её ответов. Эта особенность не только усложняет защиту, но и поднимает вопрос о правомерности использования неотфильтрованного пользовательского Feedback в процессе обучения и донастройки моделей. Опасность подмены фактов, манипуляции новостями и изменения закономерностей в генерации текстов может иметь социальные, политические и экономические последствия. Например, генерация фальшивых финансовых новостей или пропаганда уязвимостей в программном обеспечении способна повлиять на рынки и системы безопасности на глобальном уровне. Чтобы смягчить риск подобных атак, разработчикам и компаниям требуется пересмотреть стратегии сбора и использования пользовательской обратной связи.
В первую очередь, необходимо установить механизмы фильтрации и мониторинга поступающих оценок с целью выявления подозрительной активности. Кроме того, значительную роль играет разработка более сложных методов обучения, устойчивых к целенаправленному искажению реакции модели, а также создание систем раннего обнаружения аномалий в поведении ИИ. Внедрение политик и стандартов безопасности при работе с LLM становится первоочередной задачей, позволяющей сохранить доверие пользователей и избежать вредоносного воздействия. Для бизнеса и органов государственной власти это сигнал к осторожности и вниманию: технологии, работая на благо человечества, требуют постоянного контроля и совершенствования, иначе они могут стать инструментом манипуляций и угроз. В итоге, хотя большие языковые модели продолжают развиваться и демонстрировать впечатляющие возможности, их уязвимость к «гипнозу» и «отравлению» сигнализирует о необходимости ответственного подхода и глубоких исследований в области безопасности ИИ.
Без своевременных мер мы рискуем получить системы, которые перестанут быть надежным источником информации и помощниками, превратившись в механизмы распространения недостоверных и опасных сведений.