В современной эпохе развития искусственного интеллекта и обработки естественного языка большое внимание уделяется качеству моделей генерации текста и точности работы с разнообразными языками. Одной из наиболее перспективных разработок является DeepSeek R1 — масштабная языковая модель с уникальной архитектурой, регулярно проходящая переобучение токенизатора. Однако несмотря на впечатляющие возможности, DeepSeek R1 сталкивается с заметной проблемой — недообученными токенами, которые вызывают серьезные сбои при обработке распространенных неанглийских слов. Проблема недообученных токенов в DeepSeek R1 стала предметом глубокого анализа и обсуждения среди исследователей и специалистов по обработке языка. Она касается тех частей словарного запаса модели, которые по различным причинам не получили достаточного опыта во время обучения или обновления, и поэтому модель не способна адекватно распознавать или воспроизводить эти токены.
Основой разбору этой проблемы послужили наблюдения, что DeepSeek R1 демонстрирует неправильную или даже катастрофически плохую генерацию текста при работе с группами слов из нерусского и нон-английского контекста. Это вызывает серьезные трудности, особенно для пользователей, использующих модель в многоязычной среде или с техническими задачами, связанными с нестандартными словарными единицами. В отличие от большинства других языковых моделей, DeepSeek регулярно переобучает свой токенизатор. Традиционно, токенизатор — это компонент, который разбивает текст на токены, то есть минимальные смысловые единицы, такие как слова, части слов или символы. Важно, что токенизатор должен быть «адаптирован» к особенностям языка и корпусу данных, чтобы модель могла эффективно обучаться и потом успешно применять полученные знания.
Регулярное переобучение токенизатора в DeepSeek R1 — нестандартный и инновационный подход, направленный на повышение гибкости модели, но именно он и создает дополнительные сложности. Одной из проблем при регулярном переобучении токенизатора становится то, что прежние токены со старых этапов обучения либо перестают использоваться, либо не получают достаточного количества обновлений весов в новом цикле. В итоге часть токенов оказывается «недообученной» — то есть их вклады в модельные представления остаются слабыми или даже искажёнными. Такая ситуация проявляется в снижении качества генерации текста, когда модель не может адекватно «понимать» или воспроизводить эти элементы. Исследования, проведённые с использованием анализа эмбеддингов входных токенов, показывают интересный факт — среди токенов модели имеется незначительный, но заметный пик с низкими значениями нормы эмбеддинга.
Это индикатор того, что некоторые токены по факту почти не обучены и не несут полезной информации. Среди таких «глитч-токенов» замечены как части обычных русских и нерусских слов, так и специальные токены, которые изначально предназначались для вызова вспомогательных функций или операций внутри модели, но так и не были полноценно адаптированы. Эмбеддинги токенов, или входные векторные представления, являются ключевым элементом для языковых моделей. Чем более качественно обучен эмбеддинг, тем точнее модель может анализировать и воспроизводить текст. Недообученные эмбеддинги фактически означают, что соответствующие токены недостаточно «поняты» моделью.
Это вызвало подробное тестирование, в ходе которого были выбраны тысячи токенов с подозрительно низкими значениями эмбеддинга, и проверена их устойчивость к воспроизведению. Тестирование проводилось с помощью специально подготовленных запросов, цель которых была одна — убедиться, что модель способна повторить заданный токен в исходном виде. Использовалась методика, при которой значение токена подставлялось в кодовую строку с парой кавычек. Это позволило зафиксировать, как модель обрабатывает конкретный токен, сохраняя ли она его точное значение или начинает изменять, заменять или пропускать символы. Результаты были удивительными.
Даже несмотря на то, что многие из токенов представляли собой вполне логичные и распространённые слова из разных языков, включая сербский, норвежский, арабский и финский, модель в ряде случаев не могла воспроизвести их корректно. Появлялись попытки заменить слова другими, проявлялись лишние размышления в ответах модели, а также использование дополнительных меток и тегов, которых не следовало бы быть в итоговом тексте. Самыми яркими примерами стали такие слова, как "Vertaisarvioitu" (финский термин для «рецензируемый»), "Nasjonalitet" (норвежское «национальность») и арабское слово «المهنه» (профессия). При попытках получить точное повторение этих слов DeepSeek R1 вместо выполнения простой задачи начинал интерпретировать, проверять правописание, делать предположения о корректности или даже просил уточнений. Это свидетельствовало о том, что модель не уверена в корректности или значении токенов, вызывая нежелательное поведение.
С технической точки зрения, такие сбои связаны с недостаточным количеством представленных примеров данных во время обучения для некоторых токенов, что в свою очередь сказывается на недостатке обновлений весов эмбеддингов. Кроме того, специфический процесс регулярного переобучения токенизатора, оптимизированный под собственные предпочтения DeepSeek, способствует «перерождению» части словарного запаса, которая перестаёт быть устойчивой. Пре-токенизация в DeepSeek R1 также претерпела изменения по сравнению с предыдущими версиями. Новая версия модели научилась лучше разделять цифры и символы, включая китайские, японские, корейские (CJK) символы, применяя сложные регулярные выражения. Однако эти изменения в процессе разбиения текста не компенсируют проблемы самих недообученных токенов в словаре.
Важно отметить, что проблема недообученных токенов — не уникальна для DeepSeek R1, такие эффекты наблюдаются и в других моделях ИИ, но именно в DeepSeek проявления особенно заметны при работе с обыденными словами, а не только с редкими или синтетическими вводами. Эта особенность означает, что пользователи DeepSeek сталкиваются с «разрушением» потоков работы даже при простых задачах, что снижает общее доверие к модели и её применимость в международных сценариях. Для решения проблемы необходим комплексный подход. Первым направлением является улучшение токенизатора, возможно, отказ от регулярной его переобучаемости в пользу более стабильной и адаптивной модели, способной сохранять баланс между новыми и старыми токенами. Дополнительно, стоит внедрять более продвинутые алгоритмы обновления эмбеддингов с учетом баланса между обучением новых данных и сохранением качества старых.
Другим важным аспектом является расширение и диверсификация обучающего корпуса. Чем больше разнообразных языков и слов будет представлено в тренировочных данных, тем эффективнее модель сможет обрабатывать многоязычные запросы. Уделение особого внимания непредставленным и редко встречающимся символам поможет минимизировать число недообученных токенов. Некоторые исследователи также предлагают использовать техники дообучения модели на специализированных наборах данных, направленных именно на исправление проблемных токенов. Такая дополнительная дообучаемость может повысить стабильность и качество работы с отдельными языковыми особенностями и нестандартными словами.
Важным является и открытое сообщество разработчиков, которое со знанием дела может выявлять проблемные места, делиться результатами тестов и предлагать решения. Поддержка пользователей и разработчиков модели позволяет своевременно реагировать на обнаруженные сбои и вносить корректировки. В итоге, несмотря на свои выдающиеся возможности, DeepSeek R1 демонстрирует значительную уязвимость из-за недообученных токенов. Эти неудачи ставят серьезные вызовы перед дальнейшим развитием модели и подчёркивают необходимость балансирования между инновациями и стабильностью. Гарантировать высокое качество генерации текста на всех языках и для разнообразных запросов — задача, требующая времени, ресурсов и тщательного технического мастерства.
Решение описанных проблем будет способствовать ещё более широкому внедрению подобных масштабных языковых моделей в повседневную жизнь и профессиональную деятельность, позволив обеспечивать точную и корректную коммуникацию даже с самыми сложными и многообразными языковыми данными. Понимание undertrained tokens в DeepSeek R1 — это часть пути к созданию действительно универсальных и надёжных систем искусственного интеллекта в области обработки естественного языка.