В современном мире машинного обучения и обработки естественного языка огромное внимание уделяется способам улучшения работы языковых моделей и интерпретации их внутреннего устройства. Одной из интереснейших тем является изучение применения градиентного спуска непосредственно к входным векторным представлениям токенов – эмбеддингам, которые формируются в самом начале обработки текстовых данных. Эта методика позволяет не просто анализировать выходные данные модели, а взглянуть на сам механизм трансформации токенов и понять, как направить изменение эмбеддингов для достижения желаемого результата. Градиентный спуск по входным эмбеддингам представляет собой процедуру, в ходе которой на этапе обучения или эксперимента вычисляются производные потерь по отношению к самим токенам, представленным в виде векторов. В процессе такой оптимизации токеновые представления меняются в пространстве эмбеддингов таким образом, чтобы минимизировать ошибку модели при предсказании соседних токенов или заполнении пропусков.
Особый интерес к этому подходу возник из-за возможности проследить направления модификации входных данных, а значит исследовать внутренние логики работы нейросетей на новом уровне. Для проведения таких экспериментов часто используется библиотека HuggingFace Transformers и модели, подобные ModernBERT-large. Это связано с оптимальным соотношением размера модели и скорости обработки, а также с поддержкой низкоуровневого доступа к компонентам модели. Важно понимать, что изначальные эмбеддинги токенов берутся до добавления позиционных энкодингов – то есть представление слова формируется независимо от его расположения в предложении. Работа начинается с преобразования заданного текста в токены, далее переходя к их эмбеддингам, на которые затем накладываются операции продвижения вперед (forward pass) через модель.
Это позволяет получить прогнозы вероятностей следующих токенов. После чего, посредством функции потерь, например кросс-энтропии, измеряется расхождение между предсказанным распределением и целевым. Используя автоградиенты, вычисляется градиент этой функции потерь по отношению к входным эмбеддингам. Полученный градиент является вектором, указывающим, как изменить каждое эмбеддинг-представление токена, чтобы уменьшить ошибку модели. Происходит своеобразная обратная связь, при которой корректируются не веса самой модели, а исходные представления слов.
В качестве наглядного кейса можно рассмотреть фрагменты текста, где контекст связано с животными и их звуками: например, запросы «Животное, которое говорит „гав“ — это...» и «Животное, которое говорит „ржет“ — это..
.». Анализ градиентов, полученных на таких примерах, выявляет, какие токены получают больший градиентный импульс, то есть какие слова несут наибольший вклад в корректировку ответа модели. При этом интересным открытием стало, что градиенты распределяются неравномерно, а наиболее сильное воздействие получают слова, имеющие непосредственное отношение к звуку или животному. Однако попытки сопоставить направление градиентов с векторными представлениями конкретных слов показывают, что градиенты в целом почти ортогональны к исходным эмбеддингам.
Такой феномен связан с очень высокой размерностью пространства и особенностями распределения токенов в нем. Далее стоит упомянуть про оптимизацию с помощью ADAM – одного из самых мощных методов градиентного спуска. Его применение к входным эмбеддингам демонстрирует, что даже небольшие шаги в направлении желаемой целевой эмбеддинговой точки способны привести к заметному снижению функции потерь. Например, в процессе оптимизации эмбеддинг слова "гав" двигается в сторону, ближе к эмбеддингу слова "ржет", хотя расстояния между ними в исходном пространстве довольно велики. Данный факт говорит о том, что градиентный спуск способен формировать своего рода «переходные» выражения в пространстве токенов, что потенциально можно использовать для более тонкого управления языковыми моделями.
Тем не менее общая картина указывает на неинтерпретируемость оптимизационных путей – частично это связано с тем, что пространство эмбеддингов является переизбыточным и глобальный минимум функции потерь располагается на огромном многообразии, доступном для достижения из любого начального положения. Такой ландшафт функции потерь указывает на возможность быстрого и стабильного сходимости при обучении, но одновременно снижает вероятность интерпретировать конкретные оптимизационные траектории как осмысленные трансформации. Дополнительное подтверждение гипотезы о всепроникающей структуре глобальных минимумов было получено в экспериментах, где входные эмбеддинги заменялись случайными векторами, взятыми из распределения, аналогичного исходным токенам. В этих случаях модель также успешно сходилась к минимальному значению ошибки, при этом перемещения эмбеддингов оставались сравнительно небольшими, а обратное проецирование итоговых векторов на конкретные токены часто не выявляло осмысленных соответствий. Что интересно, результаты экспериментов с более продвинутой моделью из семейства Llama, а конкретно Meta-Llama/Llama-3.
2-1B, подтвердили основные выводы, но также выявили некоторые нюансы. Там расстояния между токенами и динамика оптимизации немного отличались, что объясняется особенностями распределения эмбеддингов и архитектурными отличиями модели. Для практической реализации оптимизации входных эмбеддингов были применены несколько важных оптимизационных трюков. Во-первых, для экономии ресурсов и сокращения времени обучения были использованы аппаратные ускорители, такие как MacOS Metal Performance Shaders (MPS), а для этого необходимо было явно задавать размещение тензоров на конкретном устройстве. Во-вторых, для борьбы с проблемами численной точности применялись техники автоматического масштабирования градиентов и вычисления в формате половинной точности (FP16) с использованием PyTorch AMP.
Кроме того, для эффективности вычислений модель переводилась в режим freeze, то есть отключались вычисления градиентов по весам самой нейросети, поскольку их обновление не требуется при оптимизации только входных эмбеддингов. Такие меры значительно ускоряли итерационный процесс и снижали потребление памяти. Анализ статистики изменений по отдельным измерениям эмбеддингов показал, что смещения происходят равномерно, без явно выраженного предпочтения каких-то конкретных размерностей. Это также подкрепляет идею о бесструктурности минимума, который достигается с помощью градиентного спуска в высокоразмерном пространстве эмбеддингов. Главным выводом всей проделанной работы стало понимание того, что несмотря на очевидный успех оптимизации входных эмбеддингов для уменьшения ошибок модели, эти изменения не несут в себе «интеллектуальных» трансформаций, к примеру, не превращают эмбеддинг одного слова в смысловую близость к другому на виду всем понятном уровне.
Это ограничение тесно связано с природой переизбыточности пространств, на которых обучаются языковые модели, и непростыми свойствами функций потерь в таких условиях. Вместе с тем, выявленные закономерности служат ценным вкладами в понимание ландшафта потерь современных глубоких моделей и подсказывают возможные направления для дальнейших исследований, таких как разработка методов вывода и интерпретации внутренних представлений языковых моделей. Понимание того, как градиенты влияют на входные эмбеддинги и как можно использовать эти изменения для контроля поведения модели, открывает новые горизонты в области интерактивного машинного обучения и генерации текста. Такие исследования способствуют развитию адаптивных систем, способных более гибко и осмысленно взаимодействовать с человеком, а также улучшают прозрачность и управляемость ИИ-технологий. Эти перспективы особенно актуальны на фоне растущей необходимости в обеспечении надежности и интерпретабельности больших языковых моделей, которые все активнее внедряются в разнообразные сферы нашей жизни – от автоматического перевода и помощи в программировании до медицины и творческих индустрий.
Таким образом, градиентный спуск на уровне входных эмбеддингов – это не только технический эксперимент, но и значимый шаг к глубокому пониманию процесса обучения и функционирования нейросетей, который способен расширить возможности разработки и применения ИИ в ближайшем будущем.
 
     
    