С развитием больших языковых моделей (LLM) открываются новые возможности в области обработки и сжатия данных. Традиционные методы сжатия, в том числе алгоритмы без потерь, такие как арифметическое кодирование, исторически опирались на статистическую характеристику исходных данных. Однако современные модели, обладающие глубокой способностью анализировать последовательности и предсказывать вероятность следующего элемента, предлагают иной взгляд на компрессию — через призму предсказания. В этом контексте приобретают актуальность законы масштабирования, описывающие, как меняется качество сжатия при изменении размера модели, объема обучающего набора и вычислительных ресурсов. Эти закономерности имеют ключевое значение для понимания потенциала и ограничения использования LLM в задачах сжатия данных.
Ядро концепции масштабирования в LLM заключается в том, что точность предсказания следующего слова или байта скорее всего будет улучшаться по степенному закону с увеличением трех основных параметров: количество параметров модели, размер обучающего набора и количество обучающих шагов (вычислений). Чем выше точность предсказаний модели, тем меньше энтропия исходной последовательности после кодирования, что напрямую ведет к улучшению коэффициента сжатия без потерь. Известно, что предсказание непосредственно связано с эффективностью компрессии — более точная вероятность следующего символа позволяет построить более совершенный энтропийный кодер. В практике исследования масштабирования для сжатия с помощью LLM особое внимание уделялось серии моделей Pythia от EleutherAI, которые представляют собой семейство языковых моделей разного размера, обученных одинаковым набором данных — The Pile. Такое единообразие позволяет объективно сравнивать компрессионные возможности моделей в зависимости от их размера и степени обучения.
Для экспериментов использовался известный датасет enwik8, состоящий из отрывков по 2048 байт, на которых LLM предсказывали вероятности каждого следующего токена, а результаты использовались для арифметического кодирования, обеспечивающего почти оптимальную энтропийную компрессию. Результаты показали, что по мере роста количества параметров и числа обучающих шагов модели Pythia демонстрируют заметное снижение коэффициента сжатия (CR), что означает более эффективное сжатие данных. Как стало ясно из анализа, изменения коэффициента сжатия следуют степенному закону, что подтверждает гипотезу существования закономерностей масштабирования. В частности, экспериментальные данные для текстовых данных описываются формулой, где коэффициент сжатия падает с ростом числа параметров модели и числа обучающих шагов с определенными степенными показателями, подчеркивая математическую природу этих процессов. Однако интерес представляют не только текстовые данные.
В ходе эксперимента была проведена проверка способности текстово предобученных моделей LLM сжимать данные из других модальностей, таких как изображения и аудио. Для этого использовались патчи из ImageNet-1k — изображения в оттенках серого, а также аудиозаписи из набора LibriSpeech, преобразованные в формат байт. Результаты показали, что, несмотря на обучение исключительно на текстовых данных, модели Pythia также способны эффективно сжимать эти различного рода данные с сохранением закономерностей масштабирования. Конечно, коэффициент сжатия в этих случаях был ниже, чем для текста, но однородность степени зависимости от параметров модели и объема обучения стала веским аргументом в пользу универсальности подхода. Основными механизмами, объясняющими такой феномен, принято считать две сильных стороны LLM.
Во-первых, их внутренняя способность к контекстному обучению на лету — когда внутри окна обработки модели происходит динамическая адаптация к специфическим особенностям конкретного файла, таким как повторяющиеся паттерны в пикселях или циклы звукового сигнала. Это позволяет значительно уменьшить энтропию и улучшить сжатие. Во-вторых, универсальный последовательностный приоритет, заложенный при преобучении на большом корпусе текстов, отражающий статистические закономерности природных данных, включая законы Ципфа и распределения Парето. Даже без конкретного контекста модель способна использовать эти статистические структуры для более эффективного кодирования. Таким образом, исследование законов масштабирования в LLM для компрессии данных подтверждает, что улучшение модели и расширение обучающего набора гарантируют устойчивое повышение качества сжатия по степенному закону.
Это открывает перспективы использования больших языковых моделей не только в задачах генерации текста, но и в сфере универсальной обработки и сжатия информации. Наблюдение, что модели, обученные только на тексте, успешно применимы и к несвязным с языком данным, свидетельствует о наличии более глубоких универсальных представлений и структуры, формируемых языковыми моделями. Кроме практических приложений, эти результаты поддерживают более широкие научные гипотезы о природе искусственного интеллекта и формировании общих моделей мира, что связывает обработку данных и понимание их структуры на фундаментальном уровне. В дальнейшем интересной задачей станет количественное разделение вклада механизмов контекстного обучения и универсального приоритета в эффективность компрессии, а также прослеживание того, как эти способности развиваются на этапах предварительного обучения. Литературные источники, связанные с изучением тенденций масштабирования в нейросетях, включая работы Kaplan и соавторов, а также современные исследования, демонстрируют значимость понимания статистической стороны данных и их распределений, таких как законы Бенфорда, Ципфа и распределение Парето.
Эти естественные феномены лежат в основе многих видов данных и создают фундамент для построения эффективных моделей. Подводя итог, можно сказать, что законы масштабирования в использовании больших языковых моделей для сжатия данных — это ключевой рубеж в развитии современных технологий обработки информации. Они раскрывают не только технологический потенциал искусственного интеллекта в компрессии, но и глубокую связь между предсказанием, статистикой и структурой реального мира, что делает их изучение и применение крайне важным для будущих исследований и практических решений в цифровой эре.