В последние годы большие языковые модели (LLM) стали неотъемлемой частью искусственного интеллекта, помогая решать сложные задачи, связанные с пониманием и генерацией естественного языка. Несмотря на их впечатляющие возможности, исследователи из Массачусетского технологического института (MIT) выявили важную проблему, известную как позиционное смещение, которая может существенно влиять на качество работы этих моделей. Эта тенденция заставляет модели переоценивать информацию, размещенную в начале и конце документа или разговора, при этом игнорируя середину, что может иметь серьезные последствия для задач, требующих равномерного внимания к тексту. Понимание и исправление такой особенности моделей — критически важное направление для развития более эффективных и справедливых систем искусственного интеллекта. Позиционное смещение проявляется в том, что языковая модель склонна уделять слишком много внимания первым и последним частям входных данных.
Например, если адвокат использует ИИ-помощника, работающего на базе LLM, для поиска определенного фрагмента в многостраничном юридическом документе, вероятность того, что нужный текст будет найден быстрее, если он находится в начале или в конце, значительно выше, чем если бы он располагался посередине. Такая особенность ставит под вопрос универсальность и надежность текущих технологических решений при работе с длинными текстами и сложными диалогами. Группа ученых из MIT под руководством аспирантки Сини Ву разработала теоретическую модель для изучения потоков информации внутри архитектуры трансформеров — основы многих современных LLM. Трансформеры построены на механизме внимания, который позволяет модели определить взаимосвязи между словами или токенами внутри последовательности, что чрезвычайно важно для понимания контекста и правильного предсказания следующего слова. Однако, когда модели работают с длинными документами, полностью «внимательное» взаимодействие между всеми словами становится математически сложным и неэффективным.
Поэтому инженеры вводят ограничения, такие как маскирование внимания, позволяющее токенам «видеть» только определенную часть контекста. Одним из таких ограничений является каузальное маскирование, при котором каждое слово может взаимодействовать только с предшествующими ему словами, что по сути накладывает временной порядок на обработку информации. Однако исследователи отметили, что именно этот тип маскировки приводит к смещению внимания в сторону начала последовательности, даже если в данных нет явной важности первых слов. Это происходит потому, что ранние слова используются моделью гораздо чаще в процессе вывода, что усиливается многослойностью трансформеров. Для решения проблемы позиционного смещения ученые изучили эффект позиционных кодировок — техники, которая помогает модели распознавать место каждого слова в тексте.
Это позволяет направлять внимание модели более равномерно по всей длине документа, особенно усиливая взаимосвязь слов, расположенных рядом. Однако, в моделях с большим числом слоев эффект позиционных кодировок может ослабевать, что затрудняет устранение позиции смещения только с помощью этой техники. Кроме архитектурных особенностей, огромное влияние на позиционное смещение оказывает качество и структура обучающих данных. Если данные обладают определенным смещением, то модель может унаследовать и даже усилить такие тенденции. Поэтому помимо техник улучшения архитектуры необходимо также пристальное внимание к корректировке обучающего материала, его очистке и дообучению моделей, чтобы минимизировать нежелательные искажения.
Эксперименты MIT подтвердили так называемый эффект "пропажи в середине", когда точность модели в задаче информационного поиска имела форму U-образной кривой в зависимости от расположения нужного ответа в тексте. Модель лучше справлялась с нахождением информации в начале и конце, но теряла эффективность, когда нужные данные находились ближе к середине. Это особенно важно для сферы медицины, юридических консультаций и программирования, где равномерное внимание к деталям всей последовательности определяет качество диагностических или аналитических решений. Важным достижением исследований является создание нового математического аппарата на основе графов, который позволяет визуализировать и анализировать взаимосвязи между словами на разных уровнях внимания. Такой подход упрощает понимание того, как именно информационные потоки проходят через сложные слои нейросети, и выявляет основные узкие места и причины смещения.
Благодаря этому инструменту разработчики смогут точнее настраивать архитектуру трансформеров и разрабатывать более адаптивные механизмы внимания. Перспективы работы, проделанной MIT, выходят за рамки чисто теоретических изысканий. Они открывают путь к созданию ИИ-ассистентов нового поколения, которые смогут поддерживать длительные и содержательные диалоги, равноценно учитывая все части разговора, независимо от их положения. В медицинской сфере это означает возможность более справедливого и точного анализа пациентских данных, что повышает надежность диагностики и индивидуализацию лечения. В области программирования усовершенствованные модели смогут обеспечивать более взвешенный анализ кода, помогая разработчикам выявлять ошибки и давать рекомендации без потери важных строк, расположенных не в начале или конце файла.
Кроме того, понимание природы позиционного смещения позволит применять стратегические методы для его использования в определённых задачах. В ряде случаев, например, в генерации текста, усиление внимания к началу или концу документа может быть полезным и целесообразным, что делает возможность тонкой настройки поведения моделей особенно ценной. Директор по Computational Market Design в Стэнфордском университете Амин Сабери отметил, что данный подход представляет собой редкий и ценный теоретический взгляд в черный ящик трансформеров. Благодаря математической ясности и практическим инсайтам работы MIT дают уникальное понимание механизмов, лежащих в основе современных языковых моделей, и способствуют развитию более прозрачных и предсказуемых ИИ-систем. Работа MIT финансируется в том числе Агентством ВМС США, Национальным научным фондом и Александровой фон Хумболдт профессурой, что подчеркивает важность и актуальность исследования для отрасли и государственного сектора.
В дальнейшем ученые планируют продолжить изучение влияния различных типов позиционных кодировок и способов маскирования, а также исследовать возможности использования позиционного смещения в прикладных задачах с целью повышения эффективности и точности моделей. Современные большие языковые модели уже отлично зарекомендовали себя в различных сферах, однако понимание внутренних механизмов их работы, таких как позиционное смещение, позволяет улучшить их надежность и универсальность. Диагностика и корректировка таких систем помогут разработчикам создавать более интеллигентные ИИ, способные воспринимать информацию сбалансировано и объективно, что является важным шагом к их интеграции в высокозначимые и ответственные области. В итоге исследования MIT формируют фундамент для будущих инноваций в области искусственного интеллекта, способствуя развитию более справедливых, надежных и прозрачных моделей обработки естественного языка.