В 2025 году компания Baidu сделала значительный шаг вперед, официально выпустив открытый исходный код семейства моделей ERNIE 4.5. Эти модели представляют собой новое поколение крупномасштабных мультимодальных искусственных интеллектов, способных эффективно работать с различными типами данных, включая текст и изображения. Их выпуск стал важным событием в мире разработки ИИ, открывая широкие возможности для исследований и коммерческого применения. ERNIE 4.
5 — это не просто очередная версия языковых или мультимодальных моделей. Семейство включает в себя десять различных модификаций, среди которых модели с Mixture-of-Experts (MoE) архитектурой на 47 миллиардов и 3 миллиарда активных параметров, а также плотную модель с 0,3 миллиарда параметров. Ключевым достижением стал масштаб самой крупной модели ERNIE 4.5 — с общим числом параметров, достигающим 424 миллиардов, что обеспечивает новые горизонты для продуктивного и эффективного обучения. Одной из новаторских особенностей ERNIE 4.
5 стала многомодальная MoE архитектура с гетерогенной структурой. Это позволило модели не только совместно использовать параметры для разных модальностей, но и сохранять выделенные параметры для каждой из них. Такое решение помогает улучшить понимание мультимодальной информации и одновременно не снижать качество работы с текстовыми задачами, а в некоторых случаях и повышать его. Для обучения ERNIE 4.5 Baidu выбрала фреймворк PaddlePaddle, который на сегодняшний день считается одним из самых эффективных инструментов для глубинного обучения.
PaddlePaddle обеспечивает как эффективное предобучение с высокой загрузкой вычислительных ресурсов — 47% Model FLOPs Utilization, так и высокопроизводительный вывод, что снижает задержки и облегчает масштабируемое разворачивание моделей на различных платформах. Узконаправленные оптимизации в PaddlePaddle сделали обучение и эксплуатацию ERNIE 4.5 максимально эффективными и удобными для разработчиков. Одним из ключевых инновационных моментов находится в стратегии обучения моделей на мультиформатных данных — как текстовых, так и визуальных. Для достижения этих возможностей в архитектуру введена система маршрутизации с разделением параметров под каждую модальность.
Дополнительно используются так называемые потери роутера, которые обеспечивают эффективное взаимодействие и баланс токенов, приходящих из разных источников. Такая продуманная стратегия обучения позволяет ERNIE 4.5 достигать новых высот в понимании текста, сопоставлении с изображениями и решении сложных межмодальных задач. Технические инновации не обошлись без продвинутых решений в области инфраструктуры. Для оптимизации обучения и масштабирования использована новая гибридная параллелизация с гетерогенным подходом и иерархическим балансировщиком нагрузки.
Кроме того, применены методы внутринодовой параллелизации, оптимизированное распределение памяти по этапам конвейера, тренировка с использованием смешанной точности FP8, а также точечные методы повторных вычислений. На этапе инференса модель задействует алгоритмы параллельного сотрудничества нескольких экспертов и уникальную конволюционную квантование, позволяющую с минимальной потерей точности переводить модель даже в 2-битный формат. Функция PD дисагрегации с динамическим переключением ролей еще больше оптимизирует использование ресурсов при работе с большими MoE моделями. Важным этапом после общего предобучения стало специализированное модальное постобучение, ориентированное на конкретные задачи. Различные версии моделей прошли супервизированную донастройку, оптимизацию под предпочтения пользователей или мультимодальную работу с применением инновационных методов оптимизации, включая Unified Preference Optimization — модифицированный подход, основанный на усиленном обучении.
Такая стратегия обеспечила мощные и специализированные модели, которые можно применять в задачах общего языкового понимания, визуально-языковой интерпретации, а также в системах, требующих вычислительного рассуждения и следования инструкциям. Касательно практических результатов, ERNIE 4.5 показывает впечатляющие показатели на различных бенчмарках, включая как текстовые, так и мультиформатные. Например, модель ERNIE-4.5-300B-A47B-Base превосходит конкурентов на 22 из 28 тестов по таким направлениям, как логическое мышление, обобщение знаний и сложные интеллектуальные задачи.
Даже модели с меньшим числом параметров уверенно держат позицию среди лидеров, доказывая высокую эффективность параметров и грамотное масштабирование архитектуры. Значимой является и производительность в режимах «мышления» и «немышления» для мультимодальных моделей: в первом случае акцент на глубокое рассуждение и сложное принятие решений, во втором — на восприятие и идентификацию, что делает ERNIE 4.5 универсальным инструментом для решателей широкого круга прикладных задач. ERNIEKit представляет собой полноценный набор инструментов для быстрой настройки и дообучения моделей ERNIE 4.5.
Эта платформа включает в себя возможности для компрессии моделей, такие как Low-Rank Adaptation, Supervised Fine-Tuning, Direct Preference Optimization и методы квантования. Данные решения многократно ускоряют переход от теоретической модели к практическому использованию в промышленных условиях, снижая требования к вычислительным ресурсам и повышая устойчивость моделей в рабочей среде. Для удобного разворачивания и обслуживания моделей Baidu разработала FastDeploy — высокоэффективный инструментарий, позволяющий интегрировать ERNIE 4.5 в многоплатформенные и многоузловые среды с минимальными усилиями. FastDeploy поддерживает различные технологии ускорения, такие как квантование с низкой битностью, кэширование контекста и предположительную декомпозицию, что значительно сокращает время отклика и снижает затраты на эксплуатацию.
Важным преимуществом является также обеспечение совместимости API с протоколами OpenAI и vLLM, что облегчает интеграцию с существующими системами и расширяет потенциал приложений. Еще одной важной характеристикой релиза ERNIE 4.5 стала его открытость. Все версии моделей, включая инструменты разработки и инфраструктуру, распространяются под лицензией Apache 2.0.
Это означает не только свободный доступ к технологиям, но и возможность коммерческого применения при соблюдении условий лицензии. Такая политика значительно ускоряет развитие области искусственного интеллекта, стимулируя международное сотрудничество и инновации. Подводя итог, выпуская ERNIE 4.5, Baidu представила мощное и масштабируемое семейство мультимодальных моделей, способных успешно решать широкий спектр сложных задач, от обработки естественного языка до сложных мультимодальных рассуждений. Инновационные технологии архитектуры, эффективное обучение и качественная поддержка инструментов делают ERNIE 4.
5 важным ресурсом для разработчиков и исследователей в области ИИ. Современный мир требует все более интеллектуальных и универсальных систем, способных понимать и синтезировать разнообразные данные. ERNIE 4.5 — шаг навстречу таким требованиям, предоставляя сообществу искусственного интеллекта открытые, эффективные и мощные инструменты следующего поколения. ERNIE 4.
5 открывает новые возможности как для бизнеса, так и для научных исследований, обещая ускорить инновации и расширить границы возможного в области искусственного интеллекта.