В последние годы большие языковые модели (LLM) стали ключевым элементом в развитии искусственного интеллекта. Их возможности в понимании и генерации текста постоянно совершенствуются, однако такое качество требует огромных вычислительных и мемориальных ресурсов. Развёртывание этих моделей на устройствах с ограниченной памятью, таких как персональные компьютеры или мобильные гаджеты, остаётся серьёзной проблемой. Одним из наиболее перспективных решений стала техника квантования, которая уменьшает объем памяти за счёт снижения точности числовых представлений весов и активаций модели. При этом ультранизкобитовое квантование, например к 2-битам, позволяет максимально сократить память, но сопровождается сильным падением качества работы из-за появления выбросов в активациях, что ведёт к катастрофической деградации производительности.
Именно на этом фоне на арену выходит ButterflyQuant - инновационная методика квантования, способная значительно улучшить качество работы моделей при крайне низкой битности представлений. Традиционные методы, такие как QuIP и QuaRot, предлагали использовать ортогональные преобразования для устранения выбросов перед квантованием. Их суть заключается в том, что можно заменить исходную матрицу весов модели на произведение двух матриц, одна из которых ортогональна. Это позволяет повернуть пространство активаций таким образом, чтобы минимизировать негативное влияние выбросов. Ранее применяли фиксированные ортогональные преобразования, в частности, основанные на матрицах Адамара, которые обладают оптимальными свойствами с точки зрения когерентности.
Однако эти трансформации имеют ряд ограничений. Прежде всего, они фиксированы и не способны адаптироваться под конкретные данные или различия между слоями трансформера. Каждый слой модели может иметь свои уникальные особенности и паттерны выбросов в своих активациях, поэтому универсальный подход достаточно далёк от оптимального. ButterflyQuant решает данную проблему кардинально и творчески. В отличие от жёстко заданных матриц Адамара, ButterflyQuant заменяет эти фиксированные транспормации на обучаемые ортогональные бабочкообразные преобразования, параметры которых задаются через непрерывные углы вращения Гивенса.
Такой подход является настоящим прорывом, так как задействует непрерывные параметры, которые можно оптимизировать градиентным спуском, что невозможно при использовании традиционных дискретных матриц. Гарантируется ортогональность матриц по конструкции, что обеспечивает теоретические гарантии подавления выбросов. Благодаря структуре бабочки, вычислительная сложность остаётся умеренной - порядка n log n, где n - размерность, и при этом число параметров для обучения существенно сокращается до (n log n)/2. На практике это означает, что обучение адаптивных ортогональных преобразований становится простым и быстрым. Для оптимизации достаточно всего 128 калибровочных образцов, а сам процесс занимает несколько минут на одной GPU, что практически не сказывается на времени внедрения.
Помимо этого, разработана uniformity regularization - дополнительный регуляризатор, который продвигает гладкость распределения активаций после преобразования. Эта мера дополнительной оптимизации помогает сделать распределения более пригодными для последующего квантования, снижая вероятность возникновения выбросов и ухудшения производительности модели. Результаты применения ButterflyQuant впечатляют. На примере модели LLaMA-2-7B с квантованием до 2 бит, метод достигает перплексии 15.4, в то время как при использовании QuIP этот показатель равен 37.
3, что отражает существенное улучшение качества генерации текста. Перплексия - это одна из ключевых метрик оценки языковых моделей, отражающая насколько модель предсказуемо и корректно генерирует последовательности. Меньшее значение перплексии свидетельствует о лучшем качестве модели. Доступность исходного кода BirdtherflyQuant также способствует быстрому применению и адаптации технологии крупными и малыми командами разработчиков. ButterflyQuant открывает новые горизонты для внедрения больших языковых моделей в мобильных и встраиваемых системах, где ресурсы ограничены, а требования к производительности высоки.
Возможность использовать ультранизкобитовое квантование без резкого падения качества становится решающим фактором для массового распространения ИИ-решений. Такой подход позволит существенно расширить задачи, решаемые с помощью LLM, снижая энергетические и финансовые затраты, а также повысить доступность передовых моделей на потребительском уровне. Помимо практического влияния, методика ButterflyQuant представляет интерес и с теоретической точки зрения. Использование непрерывных параметров для задания ортогональных матриц через Givens rotations открывает дополнительные перспективы в области оптимизации и сжатия моделей, а сама структура бабочки уже давно нашла применение в быстром преобразовании Фурье и других алгоритмах, но её применение в квантовании подчеркивает кросс-дисциплинарный характер современных исследований. В будущем можно ожидать, что методы, подобные ButterflyQuant, станут полноценной частью конвейеров разработки и оптимизации ЛЛМ, а их адаптивность и эффективность позволят создавать ещё более масштабные и функциональные модели с расширенными возможностями при минимальных требованиях к ресурсам.
Таким образом, ButterflyQuant предлагает креативное и очень эффективное решение проблем квантования больших языковых моделей. Благодаря обучаемым ортогональным бабочкообразным преобразованиям этот подход превосходит устаревшие методы, обеспечивая баланс между эффективностью памяти и качеством модели. Такая инновация является важным шагом к более широкому распространению передового ИИ и его интеграции в повседневные технологии. .