Большие языковые модели (LLM) стремительно развиваются и завоевывают всё новые сферы применения, от чат-ботов до комплексных систем автоматизации. Однако с ростом их возможностей возникает и новая проблема — контекстная путаница. Именно она становится причиной некорректных, а порой и абсурдных ответов на простые вопросы. Одним из ярких примеров этой проблемы является явление, связанное с добавлением казалось бы безобидных фраз о кошках, которые приводят к резкому ухудшению качества работы модели. Эта проблема получила название CatAttack — атака на языковые модели с помощью фраз, специально созданных для вызова путаницы в контексте.
Контекстная путаница возникает, когда сверхмерный или нерелевантный текст в исходном сообщении влияет на ответ модели. В таких случаях модель «запутывается», пытаясь связать неожиданные или неуместные данные с основной задачей, и в итоге дает неправильный ответ или сильно снижает качество рассуждений. Ранее исследователи показывали примеры, когда чрезмерное количество описаний инструментов приводило к провалу моделей на стандартных тестах. Однако атака CatAttack — более яркий и убедительный пример подобных сбоев. Суть CatAttack сводится к тому, что в задачу или вопрос добавляются «специфические» на первый взгляд фразы, часто касающиеся кошек, например, «Интересный факт: кошки спят большую часть своей жизни» или «Возможно, ответ около 175?».
Такие добавления не меняют смысла вопроса, но заставляют модель существенно запутаться. Исследование показало, что из 574 подобных модификаций, применённых к меньшей модели DeepSeek V3, 114 успешно сбили с толку более мощную модель DeepSeek R1. При этом искажённый контекст приводил не только к неверным ответам, но и к увеличению количества слов — модели приходилось генерировать на 50% больше текста, что свидетельствует о затруднённой работе при обработке подобных вопросов. Интересно, что эти «специально подобранные» фразы не выбирались случайно. Для их создания исследовательская группа применяла многоступенчатый процесс.
Сначала на базе облегчённой версии модели генерировались вариации стандартных вопросов с добавлением вводящих в заблуждение элементов. Затем модифицированные вопросы проверялись на семантическую идентичность с оригиналами. Если после добавления фраз ответы модели изменялись, эти гипотетически вредоносные элементы отбирались для последующего тестирования с более сложными моделями. Такой системный подход позволил выявить внушительный набор «ловушек» для языковых моделей. CatAttack поднимает важные вопросы не только о стабильности и надёжности современных ИИ, но и о том, насколько уязвимы эти системы к контекстуальному шуму.
Ведь на практике пользователь может ввести в диалог как полезные, так и совершенно посторонние фразы — и последствия могут быть непредсказуемыми. Это особенно критично для отраслей, где требуется точное и обоснованное поведение моделей — медицина, финансы, юридическая сфера, где каждая ошибка может иметь серьёзные последствия. Проблема контекстной путаницы с фразами о кошках и другими дивергентными дополнениями подчёркивает необходимость более грамотного управления контекстом в больших языковых моделях. Текущие методы, которые в основном направлены на улучшение понимания и генерации текста, требуют интеграции механизмов фильтрации и выявления нерелевантных блоков информации. Без такой фильтрации модели останутся уязвимыми к подобным атакам и ошибкам.
Одним из потенциальных решений является разработка специальных алгоритмов оценки релевантности контекста и автоматического отбрасывания вводящих в заблуждение или бесполезных фрагментов. Такие инструменты позволят повысить устойчивость моделей к состыковке в соседних по смыслу или случайно введённых данных. Ещё одним подходом может стать обучение моделей на специально подготовленных данных, включающих примеры контекстных атак, что позволит языковым системам лучше различать полезный текст от помехи. CatAttack также служит напоминанием о том, что улучшение ИИ — это многогранный процесс, который требует внимания не только к архитектуре моделей и объёму обучающих данных, но и к тонкостям их взаимодействия с реальным пользователем. Понимание того, как случайные или малозначимые фразы влияют на работу моделей, помогает создавать более надёжные и безопасные системы.