В середине 2025 года компания Baidu сделала значительный шаг в развитии искусственного интеллекта, представив и открыто выпустив семейство моделей ERNIE 4.5 — новый класс масштабных мультимодальных моделей, которые объединяют обработку текста и изображений, предлагая передовые характеристики в понимании и генерации данных. Запуск ERNIE 4.5 стал важным событием для научного сообщества и индустрии, особенно учитывая открытый доступ к моделям, их инструментарию и архитектуре под лицензией Apache 2.0.
Это создает прочную базу для активного применения и дальнейших исследований в области ИИ. Семейство ERNIE 4.5 включает десять различных вариантов моделей, среди которых есть Mixture-of-Experts (MoE) архитектуры с 3 и 47 миллиардами активных параметров, а также самый крупный — с общим числом параметров, достигающим 424 миллиарда. Также присутствует компактная плотная модель объемом 0,3 миллиарда параметров. Особенность такой архитектуры состоит в новой разнородной структуре MoE, позволяющей эффективно делиться параметрами между текстовой и визуальной модальностями, при этом сохраняя специализированные параметры для каждой категории — что способствует оптимальному восприятию и взаимодействию информации разных типов.
Данный подход обеспечивает синергетический эффект, улучшая понимание текста без ущерба для визуального анализа, а для некоторых задач даже демонстрируя превосходство. Модели были обучены с использованием высокоэффективного фреймворка PaddlePaddle, адаптированного под масштабные задачи глубокого обучения. Это позволило достичь впечатляющего показателя модели FLOPs Utilization (MFU) на уровне 47% во время предобучения самой крупной модели ERNIE 4.5. Высокая эффективность обучения сочетается с возможностями быстрого и оптимизированного вывода — важным фактором для промышленных и коммерческих применений.
Благодаря инновационным алгоритмам развертывания и оптимизации, ERNIE 4.5 способен работать на широком спектре аппаратных платформ с использованием технологий низкобитового квантования, что значительно рационализирует ресурсы без потерь качества. Важным нововведением стала концепция мультимодального гетерогенного MoE предобучения. Модели ERNIE 4.5 одновременно обучаются на текстовых и визуальных данных, что позволяет лучше улавливать нюансы мультимодальной информации и улучшать результаты по таким направлениям, как понимание и генерация текста, визуальный анализ, а также кросс-модальное рассуждение.
Для исключения негативного влияния одной модальности на другую была внедрена специальная гетерогенная структура MoE, модальность-изолированная маршрутизация, а также технические приемы, такие как ортогональная потеря маршрутизатора и сбалансированная мультимодальная токенизация. Все эти элементы обеспечивают, что обе модальности качественно представлены и могут взаимно подкреплять обучение. Кроме того, архитектура ERNIE 4.5 реализует масштабируемую и эффективную инфраструктуру обучения, где компания применила передовые параллельные стратегии, включая гибридный параллелизм с иерархической балансировкой нагрузки и параллелизм экспертов внутри узла. Использование памяти оптимизированных методов конвейерного планирования, смешанной точности FP8 и тонких методов рекомпутации позволяет добиться высокой пропускной способности при предобучении.
Для интерактивного вывода предложены методы многопараллельного сотрудничества экспертов и алгоритм свёрточного квантования кода с поддержкой 4- и 2-битных безпотерьных форматов. Дополняет все это техника динамического распределения ролей PD disaggregation, что позволяет эффективно использовать вычислительные ресурсы и улучшать производительность вывода моделей MoE. Важным преимуществом ERNIE 4.5 является поддержка пост-тренировки, адаптированной под конкретные модальности и задачи. Помимо базового предобученного ядра, компания выпустила специализированные версии, оптимизированные для языкового понимания и генерации (LLM), а также для мультимодального визуально-языкового анализа (VLM).
При этом для тонкой настройки применяются разные методы, включая классическое Supervisied Fine-Tuning (SFT), Direct Preference Optimization (DPO) и уникальную модификацию обучения с подкреплением — Unified Preference Optimization (UPO). По результатам тестирования модели ERNIE 4.5 уверенно демонстрируют ведущие позиции на многих известных бенчмарках. В частности, версия ERNIE-4.5-300B-A47B-Base превзошла DeepSeek-V3-671B-A37B-Base в большинстве представленных 28 испытаний, показывая превосходство в задачах обобщения, рассуждения и запоминания мировых знаний.
Более компактная модель ERNIE-4.5-21B-A3B-Base при совсем меньшем размере параметров — около 70% размера модели Qwen3-30B — уверенно лидирует в таких областях, как математика и логика. Мультимодальная версия ERNIE-4.5-VL впечатляет уровнем визуального восприятия, обработки документов и диаграмм, а также визуально-знаниевых задач как в «мыслительном», так и в «немысленном» режимах. Самая мощная мультимодальная версия ERNIE-4.
5-VL-424B-A47B показывает стабильные и высокие результаты на сложных комплексных бенчмарках, например MathVista, MMMU и VisualPuzzle, при этом не теряя эффективности в задачах, связанных с восприятием. Для разработчиков, работающих в среде PaddlePaddle, представлен весь необходимый инструментарий для обучения, настройки и развертывания моделей ERNIE 4.5. Один из ключевых компонентов — ERNIEKit — промышленного уровня тулкит, обеспечивающий поддержку разнообразных техник обучения, включая LoRA, DPO, квантование и компрессию моделей. Для пользователей PyTorch модели предлагаются в совместимых форматах, облегчая интеграцию в разнообразные пайплайны разработки.
Еще одним важным компонентом экосистемы является FastDeploy — мощный инструмент для эффективного развертывания крупных моделей. Он обеспечивает простую установку и управление на многообразии аппаратных платформ, поддерживая современные ускорительные технологии, такие как низкобитовое квантование, кэширование контекста и спекулятивное декодирование. FastDeploy предлагает API совместимый с OpenAI и vLLM, что облегчает внедрение ERNIE 4.5 в существующие решения. Поддержка развертывания включает масштабные многоузловые конфигурации с балансировкой нагрузки, что важно для промышленных приложений.
Выпуск ERNIE 4.5 под лицензией Apache 2.0 позволяет использовать модели в коммерческих и исследовательских целях без ограничений, что открывает новые возможности для широкого сообщества разработчиков и ученых. Технический доклад ERNIE 4.5 предоставляет глубокое понимание архитектурных решений и экспериментальных результатов, стимулируя новый виток научных исследований и инженерных решений в области ИИ.