Токенизация, то есть разбиение текста на отдельные элементы для обработки, являлась краеугольным камнем в развитии больших языковых моделей (LLM) на протяжении долгого времени. Несмотря на то, что концепция кажется устоявшейся и её эффективность доказана множеством применений, современный этап развития машинного обучения предъявляет новые требования, которые ставят токенизацию под вопрос. Сегодня множество исследователей и инженеров в области искусственного интеллекта приводит к мысли, что подходы, основанные на токенизации, не являются окончательными и вскоре могут быть вытеснены более универсальными и адаптируемыми методами. В основе такой эволюции лежит так называемый принцип «The Bitter Lesson», заключающийся в том, что наиболее успешные методы в машинном обучении — это не специальные правила, разработанные экспертами, а универсальные алгоритмы, способные самостоятельно учиться и масштабироваться с увеличением объёма вычислений и данных. Этот урок заставляет пересмотреть саму роль токенизации, которая, как оказалось, может создавать узкие места и проявлять свою хрупкость в ряде сложных ситуаций.
Традиционно токенизация используется для того, чтобы разбить текст на более или менее однородные единицы — слова, подслова или символы, которые затем кодируются в фиксированные представления и подаются в модель. Byte-Pair Encoding (BPE) — один из наиболее популярных методов — последовательно объединяет часто встречающиеся пары символов, формируя оптимальную для конкретной задачи подсловную лексику. Однако этот подход имеет несколько ключевых ограничений: оптимальный словарь получается эмпирически, а процесс построения подвержен ошибкам и не всегда отражает семантические и синтаксические особенности текста. Кроме того, токенизаторы являются строго специализированными и зачастую требуют ручного дообучения и тонкой настройки под конкретные приложения. Многие известные ошибки и «глитчи» в языковых моделях связаны именно с недостатками токенизации.
Примеры с некорректной обработкой эмодзи, неоднозначным разбиением числовых данных, а также плохой адаптацией под язык программирования — всё это показывает, насколько сильно токенизация ограничивает модели и снижает их способность к обобщению. С другой стороны, попытки отказаться от токенизации совсем и перейти к чистому байтовому представлению встречают свои вызовы. Байтовые последовательности гораздо длиннее, чем токены, что ведёт к экспоненциальному росту вычислительных затрат, особенно при традиционной архитектуре трансформеров с квадратичной сложностью внимания по длине последовательности. Это значительно увеличивает время обучения и инференса, а также усложняет процесс обработки естественных языков, которые предполагают сложные иерархические структуры и контекстные зависимости. В прошлом байтовое моделирование проигрывало методам с токенизацией, хотя и демонстрировало преимущества в задачах, требующих устойчивости к шумам и вариативности ввода.
Современные исследования вдохновлены жизненным уроком из истории машинного обучения: стоит уделять внимание общим, масштабируемым решениям, которые позволяют модели самим понимать структуру данных. Одним из прорывных направлений является деятельность по разработке архитектур, которые интегрируют байтовое моделирование с обучаемым выделением сегментов текста, избавляясь тем самым от жёстко заданных токенизаторов. Такие подходы, воплощённые в Byte Latent Transformer (BLT), предлагают динамическое формирование «патчей» или участков текста на основе предсказаний модели о наиболее информативных границах. Вместо фиксированного словаря токенов BLT обучается разбивать вход на переменного размера фрагменты, учитывая уровень неопределённости в предсказании каждого байта. Это обеспечивает адаптивное распределение вычислительных ресурсов: более простые участки обрабатываются с меньшими затратами, в то время как сложные — получают больше внимания.
BLT использует несколько ключевых составляющих: патчер, который определяет границы патчей; локальный энкодер, преобразующий байты в представления патчей; глобальный трансформер, который обрабатывает эти патчи, и локальный декодер, возвращающийся к байтам для генерации следующей порции текста. Такая многоуровневая система позволяет использовать преимущества как детального байтового анализа, так и контекстуального понимания находящихся внутри более крупных структур. Динамическое разбиение при этом адаптируется к сложности отдельных частей текста, обеспечивая эффект антихрупкости — модель способна лучше справляться с незнакомыми и редкими паттернами, уделяя им больше вычислительной мощности. Результаты исследований демонстрируют, что с учётом равных уровней вычислительной нагрузки BLT показывает значительно лучшие кривые масштабируемости по сравнению с известными моделями на основе токенизации, такими как LLaMA 2 и LLaMA 3. При этом модели BLT достигают высокого качества на множестве задач, особенно хорошо проявляя себя на уровне обработки символов и устойчивости к «шумным» данным.
Это свидетельствует о том, что отказ от традиционной токенизации не только возможен, но и открывает новые перспективы в эффективности и универсальности языковых моделей. Однако переход к моделям без токенизации связан с новыми техническими и организационными вызовами. Например, обучение таких архитектур пока требует большего времени из-за низкого использования ресурса графических процессоров. Также необходимость дополнительно обучать отдельный патчер может стать новым источником ошибок и необходимости тонкой настройки, хоть и менее критичным, чем у классических токенизаторов. Проблема растущей длины последовательности остаётся актуальной, поэтому требуется дальнейшая оптимизация моделей и аппаратного обеспечения.
В целом, перспектива отказа от жёсткой токенизации хорошо вписывается в общий тренд индустрии ИИ — отказ от жёстких, специально подобранных эвристик в пользу больших моделей, которые учатся «самостоятельно» извлекать и обрабатывать структуры из данных. Такой подход расширяет возможности генерации, понимания и восприятия многообразных текстовых структур и языков, а также способствует более справедливому и универсальному обучению, в том числе в условиях многоязычия и редких языков. Будущее, в котором токенизация как технология трансформеров останется в прошлом, выглядит многообещающим. Устранение нестабильных и ограниченных компонентов пайплайна позволит нарастить мощность моделей, сократить разное барьеры в обработке данных, упростит интеграцию с другими модальностями и расширит границы применимости ИИ. Стремление к максимально общему и масштабируемому решению станет следующей вехой эволюции, о чем свидетельствуют инициативы вроде BLT и родственных архитектур.
Путь к новым универсальным моделям открыт, и The Bitter Lesson напоминает: лучшим решением служит не субъективно созданный словарь или особый метод обработки, а честный масштабируемый алгоритм, способный учиться на огромных объёмах данных и использовать растущие вычислительные мощности. В конечном итоге это приведёт к появлению более мощных, гибких и адаптивных языковых моделей, готовых справляться с вызовами современных и будущих задач без зависимости от слабых мест традиционной токенизации. Таким образом, следующий виток развития технологии больших языковых моделей обещает не столько отказ от прошлого, сколько его органичное перерастание — от фиксированных токенов к управляемым байтовым патчам, от ручного отбора к адаптивному обучению, от ограниченных словарей к бесконечным возможностям обработки информации. И именно это делает эру «бесстроковой» токенизации захватывающей и ключевой темой в современной научно-технической повестке вокруг искусственного интеллекта.