Юридические новости

Как современные языковые модели справляются с неканоническими токенизациями и что это значит для будущего ИИ

Юридические новости
Your Language Model Can Handle Non-Canonical Tokenizations

Углубленное исследование устойчивости языковых моделей к неканоническим токенизациям, изменениям в обработке текста и перспективам улучшения производительности благодаря инновационным подходам к токенизации.

Токенизация — ключевой этап в обработке естественного языка, который отвечает за разбиение текста на базовые элементы — токены. Современные языковые модели зависят от токенизаторов, которые применяют строгие алгоритмы для преобразования текста в последовательность токенов, понятную модели. В большинстве случаев токенизация является детерминированной, и для каждого текста существует единственный «канонический» способ его преобразования. Однако новейшие исследования, проведенные учеными в области машинного обучения и естественного языка, показывают, что неканонические способы токенизации — альтернативные, отличные от стандартных, разбиения текста — могут быть не только поняты и обработаны языковыми моделями, но и в некоторых случаях улучшать результаты их работы. Проблема вариативности токенизации традиционно считается серьезной: различия в разбиении на токены могут привести к значительному падению качества работы модели.

На практике разные токенизации одного и того же текста потенциально могли бы привести к ошибкам или потере смысла, что ограничивало надежность и универсальность систем. Новое исследование, представленное группой ученых во главе с Брайаном Сиюаном Чжэном и коллегами, открыло удивительную устойчивость современных языковых моделей, особенно тех, которые прошли этап инструкционной настройки, к неканоническим токенизациям. Согласно их результатам, даже при случайной, неоптимальной токенизации модели сохраняли до 93,4% своей первоначальной производительности по ряду бенчмарков. Такой высокий уровень устойчивости, возможно, указывает на глубокое понимание моделей семантики текста, выходящее за пределы конкретных токенов. В тех случаях, когда токенизация была на уровне символов, что значительно отличается от стандартных методов, модели все равно демонстрировали более 90% сохранения эффективности.

Это открывает новые горизонты использования языковых моделей: токенизация уже не является ограничивающим фактором, а скорее гибким элементом, который можно адаптировать для различных задач. Интересно, что именно этап инструкционной настройки, на котором модель дополнительно обучается выполнять команды и запросы человека, оказался ключевым для формирования устойчивости к измененным токенизациям. В то время как базовые модели воспринимают нетрадиционные токенизации как разновидности орфографических ошибок и пытаются имитировать эти «ошибки», что приводит к неконсистентным и нелогичным ответам, модели после инструкционной донастройки учатся не отвлекаться на видимые отличия и по-прежнему генерируют связный и грамотный текст. Помимо демонстрации устойчивости, исследование также выявило, что использование нетипичных схем токенизации может улучшать работу моделей в конкретных областях. Например, сегментация текста на уровне отдельных символов помогает улучшать задачи, связанные со строковыми манипуляциями и пониманием кода — прирост в этих сферах достигал 14%.

Еще более впечатляющие результаты наблюдались при применении токенизации, ориентированной на выделение цифр с правой стороны для арифметики с большими числами, где улучшение достигало до 33%. Эти находки открывают новый путь для разработки специализированных токенизаторов под конкретные задачи, что может значительно повысить качество работы систем. Глобальное значение этих результатов заключается в отходе от представления о том, что языковая модель строго связана с буквой или словом, представленным в каноническом виде токенизации. Это меняет взгляд на структуру и обучение моделей, подтверждая, что они работают на уровне смыслов и паттернов, а не сугубо на уровне конкретных символов или слов. Это также поднимает важный вопрос о том, как в будущем могут измениться подходы к архитектуре и обучению моделей, позволяя более гибко работать с разнообразием языковых форм и форматов данных.

Для разработчиков и исследователей открывается возможность экспериментировать с новыми методами токенизации, которые ранее считались нежелательными или второстепенными. Например, возможность динамически изменять токенизацию на этапе инференса — во время работы с моделью — может стать инструментом оптимизации производительности и адаптивности систем под конкретные запросы и контексты. В то же время данные достижения напоминают о важности этапа инструкционной настройки, который оказывается не просто дополнительной тренировкой, а ключевым фактором, формирующим качество взаимодействия модели с пользователем и устойчивость к шумам и вариациям в данных. Это подтверждает тренд в развитии ИИ, когда помимо масштабирования и роста архитектур, особое значение приобретают методы тонкой настройки и адаптации моделей. Подводя итог, новое исследование демонстрирует, что современные языковые модели обладают поразительной способностью справляться с неканоническими токенизациями, что меняет традиционные представления о значении и роли токенизации в обработке естественного языка.

Эти находки не только расширяют границы возможностей и применения моделей, но и стимулируют новые направления в области разработки и обучения систем искусственного интеллекта. Вероятно, в ближайшем будущем мы увидим усиленное внимание к экспериментам с токенизацией, использованию гибких и адаптивных методов, а также дальнейшему улучшению стабильности и эффективности моделей благодаря сочетанию новых архитектурных решений и тонкой инструкции. Всё это способствует более глубокому и универсальному пониманию человеческого языка компьютерами, что, в конечном итоге, расширит возможности искусственного интеллекта в разных сферах жизни, от повседневного общения до сложных профессиональных задач.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Show HN: Humans need affirmations, just as AI needs prompts
Четверг, 02 Октябрь 2025 Почему людям необходимы аффирмации так же, как искусственному интеллекту нужны подсказки

Исследование важности аффирмаций в жизни человека и их сходства с ролью подсказок для искусственного интеллекта, а также обзор приложения StrongMe как эффективного инструмента для ежедневного чтения и применения аффирмаций.

Rethinking Software Development: Why AI Should Build Your Entire Stack
Четверг, 02 Октябрь 2025 Переосмысление разработки ПО: почему искусственный интеллект должен создавать весь ваш стек

Рассмотрение новых подходов в разработке программного обеспечения с акцентом на использование искусственного интеллекта для автоматизации создания полного технологического стека. Анализ преимуществ, вызовов и перспектив развития, позволяющих значительно ускорить процессы внедрения рабочих приложений.

Azure API vulnerability and roles misconfiguration compromise corporate networks
Четверг, 02 Октябрь 2025 Уязвимости API Azure и неправильная конфигурация ролей: как это ставит под угрозу корпоративные сети

Анализ уязвимостей в API Azure и неправильной настройки ролей раскрывает серьезные риски для безопасности корпоративных сетей. Рассказывается о механизмах Azure RBAC, выявленных слабых местах встроенных ролей и о том, как ошибочные настройки могут быть использованы злоумышленниками для получения доступа к критическим ресурсам и внутренним сетям.

CoinDesk 20 Performance Update: NEAR Protocol Rises 3.8% as Index Trades Higher
Четверг, 02 Октябрь 2025 Динамика рынка криптовалют: рост NEAR Protocol и обновления индекса CoinDesk 20

Обзор последних изменений на рынке криптовалют с фокусом на рост NEAR Protocol на 3,8% и общие тенденции в индексе CoinDesk 20. Анализ факторов, влияющих на рынок, и перспективы развития ведущих цифровых активов.

Bitcoin $200K Target Still in Play, Driven by ETF, Corporate Treasury Buying: StanChart
Четверг, 02 Октябрь 2025 Биткоин может достичь отметки $200К: как ETF и корпоративные покупки поддерживают рост

Аналитики Standard Chartered прогнозируют рост курса биткоина до $200 тысяч к концу года, опираясь на усиление ETF-инвестиций и активное приобретение криптовалюты корпоративными казначействами. Разбираемся в ключевых причинах и влиянии макроэкономических факторов на перспективы биткоина.

Genius Group Adds 20 Bitcoin, Targets 1K BTC Within Six Months
Четверг, 02 Октябрь 2025 Genius Group увеличивает биткойн-резервы и ставит цель в 1000 BTC за полгода

Genius Group активно расширяет свои биткойн-запасы, приобретая дополнительные 20 BTC и планируя достичь отметки в 1000 BTC в течение ближайших шести месяцев. Компания фокусируется на интеграции цифровых активов в стратегию развития, соединяя инновации в области искусственного интеллекта и блокчейна с образованием и инициативами для сообщества.

 KBC Bank to offer Bitcoin, Ether to retail customers: Report
Четверг, 02 Октябрь 2025 KBC Банк откроет доступ к инвестициям в Bitcoin и Ether для розничных клиентов

Крупнейший бельгийский банк KBC планирует внедрить возможность инвестирования в криптовалюты Bitcoin и Ether через свою платформу Bolero. Решение направлено на расширение доступа розничных инвесторов к цифровым активам и усиление безопасности и регуляторного контроля инвестиционных продуктов.