Rotary Positional Embeddings (RoPE) уже давно стали важной частью современных архитектур внимания, особенно в задачах, связанных с обработкой изображений и текста. Их главная задача — добавить позиционную информацию, позволяя модели различать порядок и расположение элементов в последовательности. Однако классическая реализация RoPE, основанная на осевых или фиксированных углах вращения, часто сталкивается с проблемами, связанными с наложением синусоидальных волн, что приводит к нежелательной структуре внимания, проявляющейся в виде перекрестных артефактов при внимании к отдельным пикселям. Недавние исследования и публикации, включая блог Кевина Йина и работы Джерри Сиона, выявили, что использование случайных вращений в RoPE не просто устраняет подобные проблемы, но и обеспечивает более равномерное и эффективное распределение внимания, повышая качество модели. Понимание того, почему и как работают случайные вращения в RoPE, требует углубления в математическую структуру метода и физику обработки сигналов.
Суть проблемы с классическим RoPE заключается в том, что позиционное кодирование в пространстве с фиксированными углами вращения (осевое RoPE) приводит к тому, что синусоидальные компоненты, применяемые к различным каналам, соотносятся друг с другом, создавая взаимно согласованные паттерны. Когда внимание сосредотачивается на определённой точке, например, на центральном пикселе изображения, оно непреднамеренно распространяется в форме перекрестных пятен. Это отражает корреляцию между частотами и углами, которая приводит к высокой энергии в конкретных направлениях, а не равномерному распределению по всему пространству. Визуальное проявление этой проблемы — перекрест, окружающий точку фокуса, который ухудшает способность модели точно выделять нужный элемент. В ответ на это Джерри Сион и другие исследователи предложили использовать случайные углы вращения для каждого частотного канала в RoPE.
Такая случайная ротация разрушает закономерности и корреляции между синусоидальными компонентами, препятствуя формированию кросс-артефактов в пространстве внимания. Математически это влияет на оценку внимания, сводя вклад каждого отдельного канала к практически независимому шуму вне центра, в то время как в центре сумма остается максимальной. В результате внимание становится сфокусированным на нужной точке, не распространяясь на соседние области в виде перекрестных линий. Чтобы более подробно понять эту идею, рассмотрим позицию в комплексной плоскости, которая принимается за центр внимания. Каждый канал RoPE задаётся комплексным числом, представляющим вращение на определённый угол с частотой, заданной длиной вектора.
В классическом осевом RoPE эти углы равномерно распределены по фиксированным значениям, а частоты следуют определённому паттерну, чаще всего экспоненциальному росту. При суммировании косинусов произведений углов и частот по всем каналам возникают регулярные пересечения волн, которые создают концентрированную энергию в виде линий и пересечений, вызывая нежелательные эффекты. Случайные вращения, наоборот, установливают углы таким образом, что сумма косинусоид становится случайной, и их корреляция сводится к минимуму. В точке центра все косинусоиды дают максимальное значение, так как аргумент косинуса равен нулю. В точках, удалённых от центра, значения косинусов ведут себя как шум без чёткой корреляции, и суммарная энергия быстро падает.
Следовательно, отношение интегрированной энергии внимания за пределами центра к энергии в центре (обозначенное как D/E) уменьшается, что и есть желаемый эффект — концентрация внимания на «иголке в стоге сена». Не стоит думать, что любые случайные углы одинаково хороши. Исследователи отметили, что оптимальные решения связаны с числовыми характерами углов, которые минимизируют взаимодействие между частотами с сильными взаимосвязями. Так, популярный подход связан с использованием золотого сечения для распределения углов — числа, которое по теореме Гурвица является наиболее трудно приближаемым рациональными дробями. Это уменьшает риск наложений и кратных отношений между углами, что помогает избежать резонансов волн.
Тем не менее, при экспоненциальном распределении частот этот метод требует доработки, так как разница в частотах приводит к неоднородным связям между каналами усиления внимания. Кроме того, для высоких частот имеет смысл приближать разницу углов к перпендикулярным значениям, тем самым минимизируя корреляцию. У крайних, минимальных или максимальных частот, с которыми соседствуют только односторонние частоты, возникает необходимость специальной обработки для сохранения оптимальной нечувствительности внимания к посторонним точкам. Всё это превращается в сложную задачу оптимизации, в которой учитываются локальные минимумы и особенности частотной структуры сигнала. По мере увеличения количества каналов наблюдается усиление эффекта концентрации внимания: сумма нечётко коррелирующих косинусоид в точках вне центра масштабируется примерно как один делённый на количество каналов.
Это означает, что чем больше количество каналов с индивидуальными случайными вращениями, тем внимательнее и точнее модель способна сосредоточиться на конкретном элементе входных данных. В отличие от осевого RoPE, где повышенное количество каналов лишь усиливает перекрестные артефакты, тут увеличиваются шансы получить чистый сигнал в центре. Практические эксперименты подтверждают теоретические выводы. Визуализации, созданные тоже при помощи визуализатора Клода Кода, показывают, что случайные вращения полностью устраняют структурированные паттерны, видимые в классической реализации. В результате RoPE с рандомными углами обеспечивает гораздо более естественное и равномерное позиционное кодирование, делая модели устойчивее к шуму и более способными к точечному вниманию.
Важно также отметить, что концепция частичного RoPE (rotary_dim), используемого когда-то для снижения затрат на вычисления, стала менее актуальной. Современные реализации выгоднее применять на полные каналы с оптимизированными углами, чем искажать распределение частот или использовать частичные реализации, что снижает качество позиционного кодирования. Актуальный совет — изменять низкие частоты или внедрять случайные вращения для достижения наилучших результатов. Заключение выводит на передний план важность «инакомыслящих» (инкоэрентных) углов в RoPE. Главной задачей позиционного кодирования остаётся достижение высокой концентрации внимания на отдельном элементе без ложного перенаправления на соседние области.