Продажи токенов ICO

NeoBERT: Революция в области энкодеров и их применение в современных AI-системах

Продажи токенов ICO
Notes on NeoBERT

Разбор ключевых особенностей и инноваций NeoBERT — нового поколения языковых моделей-энкодеров, их архитектуры, тренировочных данных и преимуществ для задач векторного поиска и обработки естественного языка.

В последние годы развитие больших языковых моделей (LLM) вызвало настоящий взрыв интереса к искусственному интеллекту и обработке естественного языка. Однако немногие обратили внимание на важность и необходимость модернизации энкодеров, которые играют ключевую роль во множестве downstream-приложений, в том числе в Retrieval-Augmented Generation (RAG) системах и векторных базах данных. NeoBERT, представленная в 2025 году исследовательской группой под руководством Лолы Ле Бретон, Квентина Фурнье и других ученых, открывает новую страницу в эволюции BERT-подобных моделей и предлагает продвинутую архитектуру с расширенными возможностями и улучшенной производительностью. В этой статье мы детально рассмотрим все аспекты NeoBERT, от мотивации создания модели до ее технических особенностей и практического применения. Истоки и мотивация создания NeoBERT уходят в понимание, что традиционные энкодеры, такие как классический BERT 2019 года, хоть и доказали свою эффективность, существенно отстают по уровню оптимизации и актуальности тренировочных данных по сравнению с современными генеративными языковыми моделями.

NeoBERT буквально призвана восполнить этот пробел, выведя энкодеры на новый уровень. Основной акцент сделан на сочетание архитектурных инноваций, большого объема качественных тренировочных данных и современных предварительных методов обучения. Многие современные LLM демонстрируют высокую эффективность за счет обучения на терабайтах текстовых данных и оптимизации архитектур. NeoBERT следует этому пути и адаптирует передовые практики для классического энкодера, создавая надежное и универсальное решение. Одним из наиболее значимых аспектов NeoBERT является использование огромного датасета RefinedWeb.

Этот набор данных — один из крупнейших доступных для обучения языковых моделей, объемом порядка 2,8 ТБ и 600 миллиардов токенов — в 18 раз превосходит по размеру тренировочный корпус RoBERTa. Такая масштабность данных позволяет модели значительно улучшать свою языковую компетентность и обобщающие способности. Важно отметить, что именно замена более старых тренировочных датасетов такими масштабными и разнообразными коллекциями данных дала прирост производительности модели порядка 3.6% в сравнении с другими решениями на аналогичном классе параметров. Другим ключевым новшеством NeoBERT является увеличение числа параметров модели до 250 миллионов.

В то время как NomicBERT и ModernBERT базового уровня оснащены примерно 150 миллионами параметров, NeoBERT располагается в средней категории размеров. При этом команда разработчиков NeoBERT уделила особое внимание глубине и ширине сети, чтобы добиться оптимального соотношения depth-to-width, что позволило сохранить размер скрытого состояния равным 768 — идентичным классическим базовым моделям BERT. Это решение обеспечивает совместимость и облегчает внедрение NeoBERT в существующую инфраструктуру без необходимости существенных доработок. При увеличении числа слоев модели до 28 с сохранением ширины на уровне 768 разработчики достигли максимальной эффективности параметров и ускорения работы. Причем NeoBERT удивляет не только улучшенной точностью, но и высокой скоростью вывода — она значительно превосходит ModernBERT, несмотря на больший размер сети, обеспечивая прирост скорости более 46% при обработке длинных последовательностей до 4 096 токенов.

NeoBERT использует новейшие приемы оптимизации обучения и архитектуры. Среди них применение RoPE (Rotary Positional Embeddings) позволяет модели эффективно работать с удлиненными контекстами, масштабируя максимальную длину последовательностей в несколько раз по сравнению с оригинальным BERT. Использование оптимальных маскирующих стратегий с увеличенной маскирующей ставкой до 20-40% (в отличие от 15% в классических моделях) улучшает обучение и качество представлений. Для оптимизации процесса обучения используется алгоритм AdamW вместе с технологиями FlashAttention, что делает NeoBERT современной с технической точки зрения моделью с передовой структурой и эффективностью. С точки зрения нормализации в архитектуре NeoBERT применяется pre-layer normalization — модификация, при которой нормализация выполняется внутри остаточных связей, что улучшает стабильность и скорость сходимости модели.

В совокупности эти архитектурные улучшения делают NeoBERT идеальным решением для современных NLP-задач, требующих качественного и быстрого эмбеддинга текстов. NeoBERT продемонстрировала впечатляющие результаты на MTEB (Massive Text Embedding Benchmark) — одном из ключевых бенчмарков для оценки языковых моделей в задачах создания эмбеддингов, превосходя по эффективности такие популярные модели, как BERT, NomicBERT и ModernBERT. Это подтверждает успешность разработок и их применимость в реальных сценариях. Практическое применение NeoBERT становится все более привлекательным благодаря упрочненной совместимости с распространенными библиотеками и платформами. NeoBERT можно легко использовать в Hugging Face Transformers, благодаря сохранению скрытого размера и формата выходных эмбеддингов размерностью 768.

Пример кода четко показывает процесс токенизации и генерации векторного представления шаблонного текста, что облегчает интеграцию модели в существующие пайплайны машинного обучения. Особенный интерес вызывает использование NeoBERT в системах векторного поиска — технологии, ставшей фундаментом для построения интеллектуальных баз данных, рекомендательных систем и RAG-решений. Благодаря более высоким качествам векторных репрезентаций и оптимизированной скорости вычислений, NeoBERT становится надежным и быстрым ядром для систем, которым требуются плотные и информативные векторные представления документов и запросов. На практике NeoBERT успешно взаимодействует с Weaviate — одной из популярных векторных СУБД, позволяя создавать коллекции без встроенного векторизатора и генерировать эмбеддинги вручную. Такой подход расширяет возможности тонкой настройки и контроля процесса, обеспечивая максимальную точность поиска.

Например, при загрузке набора данных с вопросами Jeopardy можно создать собственный индекс и выполнять поиск по схожести векторов, получая релевантные результаты по запросам из естественного языка. Это делает NeoBERT мощным инструментом в арсенале разработчиков AI-приложений. В общем, NeoBERT символизирует новое поколение энкодеров, которые балансируют между размером, производительностью и универсальностью. Она отражает тенденции, уже подтвержденные на практике в области больших языковых моделей, — приверженность масштабным и разнообразным тренировочным данным, тщательную работу над оптимальными архитектурными параметрами и использование современных технических оптимизаций. В условиях растущих требований приложений NLP и AI-инструментов на базе векторных представлений, такие модели становятся фундаментом для повышения качества, скорости и гибкости систем.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
Morning Midas Sinks in Pacific
Понедельник, 22 Сентябрь 2025 Гибель Morning Midas в Тихом океане: причины, последствия и уроки для судоходной отрасли

Разбор трагедии с судном Morning Midas, причинами пожарного инцидента и последующего затопления в северной части Тихого океана, а также возможные последствия для судоходной безопасности и экологии.

Show HN: Bridge, Instant MCPs for Databases and OpenAPIs
Понедельник, 22 Сентябрь 2025 Bridge – Мгновенные MCP для баз данных и OpenAPI: Революция в интеграции сервисов

Ознакомьтесь с инновационным решением Bridge, которое предлагает мгновенные MCP (многосторонние вычислительные протоколы) для баз данных и OpenAPI. Узнайте, как это преобразует работу с данными, повышая безопасность, гибкость и эффективность интеграции современных приложений.

El Paso brothers bought a broken-down 727 for $10k
Понедельник, 22 Сентябрь 2025 Братья из Эль-Пасо приобрели сломанный Boeing 727 за 10 тысяч долларов: необычная история реставрации легендарного самолёта

История приобретения и восстановления Boeing 727 двумя братьями из Эль-Пасо. Узнайте об уникальных вызовах, творческом подходе и планах по возрождению этого легендарного самолёта, который долгое время стоял в заброшенном состоянии.

The Category of Habitus (2015)
Понедельник, 22 Сентябрь 2025 Категория Habitус в философии: понимание природы человека и артефактов по Томасу Аквинскому

Исследование категории habitus в контексте учения Томаса Аквинского раскрывает уникальные аспекты человеческой природы и отношение к артефактам. Рассмотрение философской концепции habitus помогает глубже понять категории бытия и их связь с рациональной деятельностью человека.

Sun-Screener, decode ingredients in SPF
Понедельник, 22 Сентябрь 2025 Sun-Screener: Революционный инструмент для расшифровки ингредиентов в солнцезащитных средствах

Солнцезащитные кремы играют ключевую роль в защите кожи от вредного воздействия ультрафиолетовых лучей. Sun-Screener предлагает уникальный подход к пониманию состава SPF-продуктов, позволяя потребителям четко разобраться в разновидностях фильтров и действенности средств.

Human and Bot Collaboration via Automated UI Generation
Понедельник, 22 Сентябрь 2025 Сотрудничество человека и бота через автоматизированное создание пользовательских интерфейсов

Изучение новых возможностей взаимодействия человека и искусственного интеллекта благодаря автоматическому созданию интерфейсов, что повышает продуктивность и упрощает разработку программного обеспечения.

Supply chain attacks surge with orgs 'flying blind' about dependencies
Понедельник, 22 Сентябрь 2025 Атаки на цепочки поставок стремительно возрастают: организации теряют контроль над зависимостями

Рост числа атак на цепочки поставок ставит под угрозу безопасность многих организаций. Большинство компаний недостаточно осведомлены о своих зависимостях и не предпринимают должных мер для защиты, что создает серьезные риски для бизнеса и информационной безопасности.