В эпоху стремительного развития искусственного интеллекта и больших языковых моделей, открытость и доступность технологий становятся ключевыми факторами для инноваций и научного прогресса. В этом контексте швейцарские учёные из ETH Zürich и Федерального технического института Лозанны (EPFL) представили впечатляющее достижение — разработку полностью открытой большой языковой модели, обученной на суперкомпьютере Alps. Это событие не только знаменует собой новый этап в развитии отечественной и европейской AI-индустрии, но и задаёт высокую планку для прозрачности и доступности передовых технологий. Суперкомпьютер Alps, на котором была обучена модель, занимает почётное третье место среди самых мощных суперкомпьютеров Европы и восьмое место в мировом рейтинге Top500. Созданный компанией Hewlett Packard Enterprise (HPE) под брендом Cray, этот вычислительный гигант использует передовые технологии Nvidia Grace-Hopper Superchips.
Каждый из этих суперчипов объединяет энергоэффективный 72-ядерный процессор ARM Neoverse V2 с высокопроизводительным графическим процессором Nvidia H100 объёмом 96 ГБ, что обеспечивает производительность, измеряемую в эксафлопсах при вычислениях с низкой точностью, необходимой для эффективной тренировки алгоритмов ИИ. Преимущество Alps заключается в сочетании традиционных высокопроизводительных вычислений (HPC) и возможностей ускоренной тренировки AI-моделей. Его уникальная архитектура позволяет достичь невероятных вычислительных показателей — при работе с форматом FP8 достигается производительность около 42 эксафлопс, что равно примерно 42 миллионам миллиардов операций с плавающей точкой в секунду. Эти показатели позволяют эффективно обрабатывать огромные массивы данных и выполнять вычислительно интенсивные операции, необходимые для создания языковых моделей нового поколения. Саму языковую модель, пока что без официального названия, планируется выпустить в двух конфигурациях — с восемью и семьюдесятью миллиардами параметров.
При этом обучение происходило на основе колоссального корпуса текстовых данных, состоящего из 15 триллионов токенов. Особое внимание уделялось многоязычной поддержке — модель должна уметь работать с более чем тысячей языков, при этом около сорока процентов обучающих данных представлены не на английском, что значительно расширит её применение в международных и локальных сценариях. То, что отличает эту разработку от большинства коммерческих аналогов на рынке, — исключительная открытость и прозрачность всего процесса. Вместо ограниченного доступа к весам модели и некоторым параметрам, как это делают Microsoft, Google или Meta, исследователи ETH Zürich планируют опубликовать исходный код для тренировки модели, весовые коэффициенты, а также полную документацию и обучающие наборы данных при сохранении принципов воспроизводимости. Этот подход отвечает современным требованиям к этике ИИ, способствует развитию доверия к системам искусственного интеллекта и стимулирует создание инновационных приложений на основе открытых технологий.
По мнению профессора Мартина Ягги из EPFL, открытый доступ позволит активизировать сотрудничество как внутри Швейцарии, так и среди европейских и международных партнёров. Такая прозрачность обеспечивает фундамент для углубленных исследований в области рисков и возможностей ИИ, а также способствует созданию более надёжных и этичных AI-систем. Помимо технологической составляющей, эксперты подчеркивают важность соблюдения законодательства и этических норм при подготовке данных. Учёные тщательно анализировали влияние соблюдения правил исключения из веб-скрейпинга на качество модели и пришли к выводу, что отказ от обхода подобных защит не повлиял на результаты. Это подтверждает, что ответственный подход к обработке данных и соблюдение правовых норм не снижают эффективность обучения языковых моделей.
Публикация модели с лицензией Apache 2.0 открывает массу возможностей для разработчиков, исследователей и организаций, которые смогут изучать, адаптировать и интегрировать её в собственные проекты без ограничений, обычно налагаемых закрытыми коммерческими продуктами. Это важный шаг к демократизации искусственного интеллекта и расширению его применения в различных сферах — от медицины и науки до образования и бизнеса. Стоит также выделить значимость архитектурного подхода суперкомпьютера Alps в контексте современных вычислительных задач. Использование стандартов Nvidia GH200 Superchips, оптимизированных под AI-вычисления, демонстрирует, как вертикальная интеграция процессорных решений и инновационные коммуникационные технологии, такие как высокоскоростные NVLink-C2C и Slingshot-11, обеспечивают масштабируемость и эффективность.
Это позволяет расширять возможности обучения моделей в будущем без необходимости фундаментальной перестройки инфраструктуры. Данная инициатива продолжается на фоне глобальной гонки в области создания высокопроизводительных AI-систем и делает акцент на европейской научной базе, противопоставляя открытые разработки закрытым коммерческим проектам американских и азиатских технологических гигантов. В итоге эта прозрачная LLM создаёт условия для развития экосистемы искусственного интеллекта, где акцент сделан на совместной инновационной работе и доверии пользователей. Для общественности и профессионального сообщества ожидается, что публичный релиз модели и связанных материалов состоится уже этим летом. Учитывая масштабы и амбициозность проекта, он может претендовать на роль значимого технологического прорыва, способного изменить текущий ландшафт искусственного интеллекта и вдохновить множество новых исследований и приложений.
В заключение, разработка швейцарских учёных демонстрирует, как мощь современных суперкомпьютеров и дух открытости могут сочетаться для создания передовых AI-систем. Mодель, обученная на Alps, не только расширит возможности машинного понимания человеческого языка, но и укрепит позиции Европы в глобальной технологической гонке, предлагая пример прозрачности и ответственности в развитии искусственного интеллекта.