В эпоху стремительного развития искусственного интеллекта фундаментальные модели приобретают всё большую популярность и оказывают влияние на множество отраслей. Stanford CRFM (Center for Research on Foundation Models) представил проект Marin — первую полностью открытую модель, созданную с использованием JAX, которая призвана изменить представление о транспарентности и научной воспроизводимости в области ИИ. Этот проект отличается не только выпуском самой модели, но и полным открытием всего процесса разработки — включая исходный код, датасеты, методологии, гиперпараметры и логи обучения. Подобный уровень прозрачности предоставляет исследователям уникальную возможность глубоко анализировать, воспроизводить и улучшать результаты, что значительно повышает доверие к ИИ и открывает новые перспективы для научных исследований и индустриальных приложений. Одной из главных технологических основ Marin является использование JAX — библиотеки, разработанной Google, которая сочетает высокую производительность с удобством масштабирования.
JAX позволяет компилировать сложные вычислительные цепочки в эффективный машинный код, значительно повышая скорость и уменьшая накладные расходы при обучении больших моделей на таких устройствах, как TPU и GPU. Однако создание полностью воспроизводимой фундаментальной модели потребовало решения масштабных инженерных задач. Команда Stanford CRFM разработала новый фреймворк под названием Levanter, который обеспечивает битовую воспроизводимость, распределённую обработку и устойчивость к сбоям. Технически Levanter уходит гораздо дальше, чем просто оптимизация кода — он связывает процессы обучения, обработки данных и распределённого вычисления, что делает возможным управление огромными кластерами TPU с высокой надежностью и эффективностью. Одной из ключевых проблем при обучении таких моделей является высокая вычислительная стоимость и необходимость быстро выполнять циклы обучения.
При этом использование традиционных интерпретируемых языков может приводить к значительным задержкам и нагрузкам на память. Levanter с помощью JAX устранил эти проблемы путем объединения всех этапов обучения в единый оптимизированный процесс, используя функциональность @jax.jit. Это снижает издержки, позволяя эффективно использовать аппаратные ресурсы и ускорять итерации обучения. Масштабирование на тысячи ускорителей требует аккуратного управления разделением модели и данных, а также эффективной коммуникации между устройствами.
Современные примитивы JAX позволяют автоматически осуществлять параллельное выполнение и оптимизировать обмен информацией между TPU, минимизируя простои. Для упрощения кода и повышения его читаемости в Levanter внедрена библиотека Haliax с именованными тензорами, что значительно облегчает поддержку и модификацию распределённых стратегий без глубокого погружения в технические детали. Ещё одним значимым аспектом проекта стало использование Google Cloud TPU Multislice и технологии Ray для гибкого формирования вычислительных кластеров из множества небольших TPU-срезов. Это позволило максимально эффективно управлять ресурсами, снижая стоимость и повышая устойчивость к прерыванию тренировок — критично для крупных масштабных экспериментов. Стремление к полной научной прозрачности потребовало обеспечить воспроизводимость результатов вне зависимости от аппаратной конфигурации и времени запуска.
JAX, благодаря детерминированным генераторам случайных чисел и контролю неизменности вычислений, позволил добиться бит-за-бит воспроизводимости, что является редким и значимым достижением в мире больших моделей. Для загрузки данных была применена система на базе Tensorstore, дающая детерминированный случайный доступ к батчам, что упрощает анализ и интерпретацию поведения модели в процессе обучения. Архитектура Marin-8B — это трансформер в стиле LLaMA, который прошёл через сложный многократный процесс обучения, включающий более 12 триллионов токенов, использование разнообразных датасетов и неоднократные изменения гиперпараметров и аппаратной платформы. Такой «живой» и адаптивный подход к обучению хорошо отражает реальные вызовы и возможности современных исследований ИИ, демонстрируя гибкость и мощь инструментов JAX и Levanter. Открытый характер проекта делает его идеальной платформой для сообщества исследователей и разработчиков, желающих внести свой вклад в развитие фундаментальных моделей с максимальным уровнем доверия и воспроизводимости.
Благодаря размещению исходных моделей, кода и обучения в открытом доступе на Hugging Face и GitHub, а также поддержке активной дискуссии в Discord, Marin становится центром притяжения для тех, кто ценит полностью прозрачный подход к ИИ. Проект несёт ключевой месседж: открытость не ограничивается лишь «открытым исходным кодом» или моделью, но распространяется на весь научный путь, от данных до экспериментов и обучения. Это задает новый стандарт и вдохновляет на совместное создание надежных и эффективных инструментов для будущего ИИ. Marin — не просто технологический прорыв, это новый формат сотрудничества и научной честности, который уже сегодня определяет будущее искусственного интеллекта. Он демонстрирует, что возможно создание масштабных, высокопроизводительных и полностью воспроизводимых моделей с открытым доступом, что открывает двери для более быстрого и масштабного прогресса в исследовательской и прикладной сферах.
Если вы заинтересованы в изучении и использовании передовых фундаментальных моделей с полным доступом ко всем этапам развития, Marin предоставляет все необходимые ресурсы и поддержку для успешной работы, обеспечивая платформу для инноваций и открытого сотрудничества в быстро меняющемся мире искусственного интеллекта.
 
     
    