В последние годы развитие больших языковых моделей (LLM) вызвало настоящий взрыв интереса к искусственному интеллекту и обработке естественного языка. Однако немногие обратили внимание на важность и необходимость модернизации энкодеров, которые играют ключевую роль во множестве downstream-приложений, в том числе в Retrieval-Augmented Generation (RAG) системах и векторных базах данных. NeoBERT, представленная в 2025 году исследовательской группой под руководством Лолы Ле Бретон, Квентина Фурнье и других ученых, открывает новую страницу в эволюции BERT-подобных моделей и предлагает продвинутую архитектуру с расширенными возможностями и улучшенной производительностью. В этой статье мы детально рассмотрим все аспекты NeoBERT, от мотивации создания модели до ее технических особенностей и практического применения. Истоки и мотивация создания NeoBERT уходят в понимание, что традиционные энкодеры, такие как классический BERT 2019 года, хоть и доказали свою эффективность, существенно отстают по уровню оптимизации и актуальности тренировочных данных по сравнению с современными генеративными языковыми моделями.
NeoBERT буквально призвана восполнить этот пробел, выведя энкодеры на новый уровень. Основной акцент сделан на сочетание архитектурных инноваций, большого объема качественных тренировочных данных и современных предварительных методов обучения. Многие современные LLM демонстрируют высокую эффективность за счет обучения на терабайтах текстовых данных и оптимизации архитектур. NeoBERT следует этому пути и адаптирует передовые практики для классического энкодера, создавая надежное и универсальное решение. Одним из наиболее значимых аспектов NeoBERT является использование огромного датасета RefinedWeb.
Этот набор данных — один из крупнейших доступных для обучения языковых моделей, объемом порядка 2,8 ТБ и 600 миллиардов токенов — в 18 раз превосходит по размеру тренировочный корпус RoBERTa. Такая масштабность данных позволяет модели значительно улучшать свою языковую компетентность и обобщающие способности. Важно отметить, что именно замена более старых тренировочных датасетов такими масштабными и разнообразными коллекциями данных дала прирост производительности модели порядка 3.6% в сравнении с другими решениями на аналогичном классе параметров. Другим ключевым новшеством NeoBERT является увеличение числа параметров модели до 250 миллионов.
В то время как NomicBERT и ModernBERT базового уровня оснащены примерно 150 миллионами параметров, NeoBERT располагается в средней категории размеров. При этом команда разработчиков NeoBERT уделила особое внимание глубине и ширине сети, чтобы добиться оптимального соотношения depth-to-width, что позволило сохранить размер скрытого состояния равным 768 — идентичным классическим базовым моделям BERT. Это решение обеспечивает совместимость и облегчает внедрение NeoBERT в существующую инфраструктуру без необходимости существенных доработок. При увеличении числа слоев модели до 28 с сохранением ширины на уровне 768 разработчики достигли максимальной эффективности параметров и ускорения работы. Причем NeoBERT удивляет не только улучшенной точностью, но и высокой скоростью вывода — она значительно превосходит ModernBERT, несмотря на больший размер сети, обеспечивая прирост скорости более 46% при обработке длинных последовательностей до 4 096 токенов.
NeoBERT использует новейшие приемы оптимизации обучения и архитектуры. Среди них применение RoPE (Rotary Positional Embeddings) позволяет модели эффективно работать с удлиненными контекстами, масштабируя максимальную длину последовательностей в несколько раз по сравнению с оригинальным BERT. Использование оптимальных маскирующих стратегий с увеличенной маскирующей ставкой до 20-40% (в отличие от 15% в классических моделях) улучшает обучение и качество представлений. Для оптимизации процесса обучения используется алгоритм AdamW вместе с технологиями FlashAttention, что делает NeoBERT современной с технической точки зрения моделью с передовой структурой и эффективностью. С точки зрения нормализации в архитектуре NeoBERT применяется pre-layer normalization — модификация, при которой нормализация выполняется внутри остаточных связей, что улучшает стабильность и скорость сходимости модели.
В совокупности эти архитектурные улучшения делают NeoBERT идеальным решением для современных NLP-задач, требующих качественного и быстрого эмбеддинга текстов. NeoBERT продемонстрировала впечатляющие результаты на MTEB (Massive Text Embedding Benchmark) — одном из ключевых бенчмарков для оценки языковых моделей в задачах создания эмбеддингов, превосходя по эффективности такие популярные модели, как BERT, NomicBERT и ModernBERT. Это подтверждает успешность разработок и их применимость в реальных сценариях. Практическое применение NeoBERT становится все более привлекательным благодаря упрочненной совместимости с распространенными библиотеками и платформами. NeoBERT можно легко использовать в Hugging Face Transformers, благодаря сохранению скрытого размера и формата выходных эмбеддингов размерностью 768.
Пример кода четко показывает процесс токенизации и генерации векторного представления шаблонного текста, что облегчает интеграцию модели в существующие пайплайны машинного обучения. Особенный интерес вызывает использование NeoBERT в системах векторного поиска — технологии, ставшей фундаментом для построения интеллектуальных баз данных, рекомендательных систем и RAG-решений. Благодаря более высоким качествам векторных репрезентаций и оптимизированной скорости вычислений, NeoBERT становится надежным и быстрым ядром для систем, которым требуются плотные и информативные векторные представления документов и запросов. На практике NeoBERT успешно взаимодействует с Weaviate — одной из популярных векторных СУБД, позволяя создавать коллекции без встроенного векторизатора и генерировать эмбеддинги вручную. Такой подход расширяет возможности тонкой настройки и контроля процесса, обеспечивая максимальную точность поиска.
Например, при загрузке набора данных с вопросами Jeopardy можно создать собственный индекс и выполнять поиск по схожести векторов, получая релевантные результаты по запросам из естественного языка. Это делает NeoBERT мощным инструментом в арсенале разработчиков AI-приложений. В общем, NeoBERT символизирует новое поколение энкодеров, которые балансируют между размером, производительностью и универсальностью. Она отражает тенденции, уже подтвержденные на практике в области больших языковых моделей, — приверженность масштабным и разнообразным тренировочным данным, тщательную работу над оптимальными архитектурными параметрами и использование современных технических оптимизаций. В условиях растущих требований приложений NLP и AI-инструментов на базе векторных представлений, такие модели становятся фундаментом для повышения качества, скорости и гибкости систем.