Юридические новости Инвестиционная стратегия

Конец эпохи токенизации: Как The Bitter Lesson меняет подход к обработке текста в ИИ

Юридические новости Инвестиционная стратегия
The Bitter Lesson is coming for Tokenization

Токенизация долгое время была ключевым элементом в работе больших языковых моделей. Однако современные исследования и новые архитектуры, такие как Byte Latent Transformer, предлагают более универсальные и эффективные подходы, которые позволяют избавиться от устаревших методов.

Токенизация, то есть разбиение текста на отдельные элементы для обработки, являлась краеугольным камнем в развитии больших языковых моделей (LLM) на протяжении долгого времени. Несмотря на то, что концепция кажется устоявшейся и её эффективность доказана множеством применений, современный этап развития машинного обучения предъявляет новые требования, которые ставят токенизацию под вопрос. Сегодня множество исследователей и инженеров в области искусственного интеллекта приводит к мысли, что подходы, основанные на токенизации, не являются окончательными и вскоре могут быть вытеснены более универсальными и адаптируемыми методами. В основе такой эволюции лежит так называемый принцип «The Bitter Lesson», заключающийся в том, что наиболее успешные методы в машинном обучении — это не специальные правила, разработанные экспертами, а универсальные алгоритмы, способные самостоятельно учиться и масштабироваться с увеличением объёма вычислений и данных. Этот урок заставляет пересмотреть саму роль токенизации, которая, как оказалось, может создавать узкие места и проявлять свою хрупкость в ряде сложных ситуаций.

Традиционно токенизация используется для того, чтобы разбить текст на более или менее однородные единицы — слова, подслова или символы, которые затем кодируются в фиксированные представления и подаются в модель. Byte-Pair Encoding (BPE) — один из наиболее популярных методов — последовательно объединяет часто встречающиеся пары символов, формируя оптимальную для конкретной задачи подсловную лексику. Однако этот подход имеет несколько ключевых ограничений: оптимальный словарь получается эмпирически, а процесс построения подвержен ошибкам и не всегда отражает семантические и синтаксические особенности текста. Кроме того, токенизаторы являются строго специализированными и зачастую требуют ручного дообучения и тонкой настройки под конкретные приложения. Многие известные ошибки и «глитчи» в языковых моделях связаны именно с недостатками токенизации.

Примеры с некорректной обработкой эмодзи, неоднозначным разбиением числовых данных, а также плохой адаптацией под язык программирования — всё это показывает, насколько сильно токенизация ограничивает модели и снижает их способность к обобщению. С другой стороны, попытки отказаться от токенизации совсем и перейти к чистому байтовому представлению встречают свои вызовы. Байтовые последовательности гораздо длиннее, чем токены, что ведёт к экспоненциальному росту вычислительных затрат, особенно при традиционной архитектуре трансформеров с квадратичной сложностью внимания по длине последовательности. Это значительно увеличивает время обучения и инференса, а также усложняет процесс обработки естественных языков, которые предполагают сложные иерархические структуры и контекстные зависимости. В прошлом байтовое моделирование проигрывало методам с токенизацией, хотя и демонстрировало преимущества в задачах, требующих устойчивости к шумам и вариативности ввода.

Современные исследования вдохновлены жизненным уроком из истории машинного обучения: стоит уделять внимание общим, масштабируемым решениям, которые позволяют модели самим понимать структуру данных. Одним из прорывных направлений является деятельность по разработке архитектур, которые интегрируют байтовое моделирование с обучаемым выделением сегментов текста, избавляясь тем самым от жёстко заданных токенизаторов. Такие подходы, воплощённые в Byte Latent Transformer (BLT), предлагают динамическое формирование «патчей» или участков текста на основе предсказаний модели о наиболее информативных границах. Вместо фиксированного словаря токенов BLT обучается разбивать вход на переменного размера фрагменты, учитывая уровень неопределённости в предсказании каждого байта. Это обеспечивает адаптивное распределение вычислительных ресурсов: более простые участки обрабатываются с меньшими затратами, в то время как сложные — получают больше внимания.

BLT использует несколько ключевых составляющих: патчер, который определяет границы патчей; локальный энкодер, преобразующий байты в представления патчей; глобальный трансформер, который обрабатывает эти патчи, и локальный декодер, возвращающийся к байтам для генерации следующей порции текста. Такая многоуровневая система позволяет использовать преимущества как детального байтового анализа, так и контекстуального понимания находящихся внутри более крупных структур. Динамическое разбиение при этом адаптируется к сложности отдельных частей текста, обеспечивая эффект антихрупкости — модель способна лучше справляться с незнакомыми и редкими паттернами, уделяя им больше вычислительной мощности. Результаты исследований демонстрируют, что с учётом равных уровней вычислительной нагрузки BLT показывает значительно лучшие кривые масштабируемости по сравнению с известными моделями на основе токенизации, такими как LLaMA 2 и LLaMA 3. При этом модели BLT достигают высокого качества на множестве задач, особенно хорошо проявляя себя на уровне обработки символов и устойчивости к «шумным» данным.

Это свидетельствует о том, что отказ от традиционной токенизации не только возможен, но и открывает новые перспективы в эффективности и универсальности языковых моделей. Однако переход к моделям без токенизации связан с новыми техническими и организационными вызовами. Например, обучение таких архитектур пока требует большего времени из-за низкого использования ресурса графических процессоров. Также необходимость дополнительно обучать отдельный патчер может стать новым источником ошибок и необходимости тонкой настройки, хоть и менее критичным, чем у классических токенизаторов. Проблема растущей длины последовательности остаётся актуальной, поэтому требуется дальнейшая оптимизация моделей и аппаратного обеспечения.

В целом, перспектива отказа от жёсткой токенизации хорошо вписывается в общий тренд индустрии ИИ — отказ от жёстких, специально подобранных эвристик в пользу больших моделей, которые учатся «самостоятельно» извлекать и обрабатывать структуры из данных. Такой подход расширяет возможности генерации, понимания и восприятия многообразных текстовых структур и языков, а также способствует более справедливому и универсальному обучению, в том числе в условиях многоязычия и редких языков. Будущее, в котором токенизация как технология трансформеров останется в прошлом, выглядит многообещающим. Устранение нестабильных и ограниченных компонентов пайплайна позволит нарастить мощность моделей, сократить разное барьеры в обработке данных, упростит интеграцию с другими модальностями и расширит границы применимости ИИ. Стремление к максимально общему и масштабируемому решению станет следующей вехой эволюции, о чем свидетельствуют инициативы вроде BLT и родственных архитектур.

Путь к новым универсальным моделям открыт, и The Bitter Lesson напоминает: лучшим решением служит не субъективно созданный словарь или особый метод обработки, а честный масштабируемый алгоритм, способный учиться на огромных объёмах данных и использовать растущие вычислительные мощности. В конечном итоге это приведёт к появлению более мощных, гибких и адаптивных языковых моделей, готовых справляться с вызовами современных и будущих задач без зависимости от слабых мест традиционной токенизации. Таким образом, следующий виток развития технологии больших языковых моделей обещает не столько отказ от прошлого, сколько его органичное перерастание — от фиксированных токенов к управляемым байтовым патчам, от ручного отбора к адаптивному обучению, от ограниченных словарей к бесконечным возможностям обработки информации. И именно это делает эру «бесстроковой» токенизации захватывающей и ключевой темой в современной научно-технической повестке вокруг искусственного интеллекта.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
AppLovin Corp.(APP) Drops 10.9% W/W on Misrepresentation Claims
Пятница, 19 Сентябрь 2025 Акции AppLovin Corp. упали на 10,9% из-за обвинений в искажении информации о китайских операциях

AppLovin Corp. столкнулась с серьезным падением акций на фоне обвинений в недостоверном раскрытии данных о китайских активах и операциях, что вызвало обеспокоенность инвесторов и поставило под сомнение надежность компании на рынке.

Exclusive-Uber-backed electric bike startup Lime hires banks for US IPO, sources say
Пятница, 19 Сентябрь 2025 Uber-поддержанный стартап Lime готовится к IPO в США: будущее электросамокатов и электровелосипедов на рынке инвестиций

Lime, известный стартап в области электросамокатов и электровелосипедов, при поддержке Uber выходит на рынок с планами провести IPO в США. Анализ текущих тенденций, финансовых показателей компании и будущих перспектив микромобильности в контексте восстановления фондового рынка.

Chime Financial (CHYM) Loses 15% W/W as Senate Passes Stablecoin Bill
Пятница, 19 Сентябрь 2025 Почему акции Chime Financial упали на 15% после принятия Сенатом закона о стейблкоинах

Рассмотрение последствий принятия Сенатом США законопроекта о регулировании стейблкоинов и его влияние на акции Chime Financial, приводящее к значительной коррекции стоимости компании на рынке.

Redwire Corp.(RDW) Drops 16.9% W/W on Profit-Taking
Пятница, 19 Сентябрь 2025 Redwire Corp. (RDW) теряет 16,9% за неделю на фоне фиксации прибыли и стратегических перемен

Анализ падения акций Redwire Corp. на 16,9% за неделю на фоне фиксации прибыли инвесторами и важных корпоративных событий, включая приобретение компании Edge Autonomy и предстоящую презентацию на виртуальном саммите Jefferies.

Transocean (RIG) Falters 12.3% W/W as Exec Disposes of Shares
Пятница, 19 Сентябрь 2025 Падение акций Transocean (RIG) на 12,3% на фоне продажи акций топ-менеджером и геополитических рисков

Анализируя недавнее снижение акций Transocean (RIG) на 12,3% за неделю, рассматриваются причины падения стоимости активов, включая продажу крупного пакета акций одним из руководителей компании и влияние глобальных политических факторов, а также перспективы развития бизнеса в условиях текущего рынка.

Peloton Interactive (PTON) Declines 11.2% W/W as 2 Execs Unload Stake
Пятница, 19 Сентябрь 2025 Почему акции Peloton Interactive упали на 11,2% после продажи долей двумя топ-менеджерами

Анализ причин падения акций Peloton Interactive на 11,2% на фоне продажи акций двумя ключевыми руководителями компании и обзор финансовых показателей Peloton в 2025 году.

Sarepta Therapeutics (SRPT) Tumbles 44% W/W as Analyst Cuts Price Target by 63%
Пятница, 19 Сентябрь 2025 Курс акций Sarepta Therapeutics взлетел вниз: причины падения на 44% и прогнозы аналитиков

Крупное падение акций Sarepta Therapeutics связано с серьезными проблемами компании и пересмотром ценовых ориентиров аналитиками. Разбираем причины снижения, влияние на рынок биотехнологий и перспективы компании в свете последних событий.