В современном мире искусственный интеллект продолжает стремительно развиваться, и облачные сервисы занимают центральное место в этой революции. Одним из самых значимых проектов в области высокопроизводительных вычислений является Project Rainier — амбициозная разработка компании Amazon Web Services (AWS) для российского конкурента OpenAI, компанию Anthropic. Данный проект представляет собой масштабный AI-суперкластер, построенный на базе уникальных ускорителей собственной разработки и охватывающий множество дата-центров по территории Соединенных Штатов. Он призван обеспечить беспрецедентные возможности для обучения и инференса моделей искусственного интеллекта на самом высоком уровне. Заказчиком и главным бенефициаром Project Rainier выступает Anthropic — одна из ведущих компаний, активно конкурирующая с OpenAI, которая получила от Amazon инвестиции на сумму около восьми миллиардов долларов.
Такая поддержка отражает растущую стратегическую важность ИИ для AWS как сервисной платформы и для бизнес-модели Amazon в целом. Ключевым элементом инфраструктуры Project Rainier является процессор Trainium2, разработанный дочерним подразделением Amazon — Annapurna Labs. Особенностью этого ускорителя является использование технологии 5-нанометрового техпроцесса TSMC с упаковкой CoWoS, что обеспечивает высокую плотность вычислений и энергоэффективность. В состав одного ускорителя Trainium2 входят два вычислительных кристалла и четыре стека высокоскоростной памяти HBM, совокупная пропускная способность которой достигает 2,9 ТБ/с. Такой дизайн позволяет достигать производительности около 1,3 петафлопса в формате FP8, причем с поддержкой 4-кратной разреженности, способствующей ускорению тренировки моделей за счет эффективного использования нулевых значений в данных.
Хотя на первый взгляд показатели Trainium2 уступают флагманским GPU компании Nvidia, таким как B200, по причине меньшей производительности в плотных вычислениях и памяти, Amazon компенсирует это уникальной архитектурой кластеризации. Минимальная конфигурация Trn2-инстанса включает 16 ускорителей, сгруппированных на восьми вычислительных платах, управляемых двумя процессорами Intel Sapphire Rapids. Такая интеграция обеспечивает высокую пропускную способность и снижает периоды простоя, что является критичным показателем для реальных нагрузок на тренинг ИИ. Отдельной инновацией Amazon стала сетевая топология interconnect, построенная по принципу 2D тора, с использованием собственного высокоскоростного протокола NeuronLink третьего поколения. Он обеспечивает до 1 ТБ/с для каждой платформа, при этом исключая необходимость дорогостоящих и энергозатратных коммутаторов.
Благодаря такому решению проект может масштабироваться за счет объединения нескольких инстансов в UltraServer — суперблок из 64 ускорителей Trainium2, связанный в 3D-тор с пропускной способностью межсерверного соединения около 256 ГБ/с на чип. Масштабы Project Rainier действительно впечатляют. Одна дата-станция в штате Индиана занимает площадь более чем 6 миллионов квадратных футов, разделенных на 30 дата-центров по 200 тысяч квадратных футов каждый. Общая потребляемая мощность таких комплексов превышает 2,2 гигавата, что сопоставимо с электрическими потребностями целых городов. Учитывая заявленное количество ускорителей — порядка сотен тысяч чипов Trainium2 — проект находится на пороге создания одного из крупнейших в мире кластеров для ИИ-обучения.
Проект также выделяется подходом к энергоэффективности и охлаждению. В отличие от других решений на базе GPU, которые нередко требуют жидкостного охлаждения, UltraServer Amazon использует воздушное охлаждение. Это стало возможным благодаря распределенной архитектуре, более низкой удельной тепловой мощности и инновационным методам разводки кабелей и организации стойк, что упрощает техобслуживание и снижает эксплуатационные расходы. Помимо физических и технических характеристик, не менее важна программная экосистема Project Rainier. Amazon предоставляет доступ к Trainium через свои облачные API и сервисы, что облегчает разработчикам и исследователям работу с платформой, интеграцию моделей и нагрузок в привычные инструменты.
В планах — внедрение новых версий ускорителей, включая ожидаемые в ближайшие месяцы Trainium3, изготовленные по 3-нанометровой технологии, обещающие повышение производительности как минимум на 40 процентов при сохранении высокой энергоэффективности. Trainium3 откроет новые горизонты для масштабирования и внедрения ИИ. Среди основных вызовов, с которыми сталкивается Project Rainier, можно отметить экономические и инфраструктурные риски. Для поддержания работы такого колоссального кластера требуется надежное электроснабжение и охлаждение, а также продуманная логистика по управлению оборудованием. Пандемия и глобальные политические факторы внесли корректировки в планы многих технологических гигантов, Amazon не исключение.
Однако компания демонстрирует настойчивость в реализации проекта, что свидетельствует о важности AI для ее долгосрочной стратегии. Проект Rainier, судя по всему, является новым словом в развитии облачных платформ для искусственного интеллекта. Amazon предоставляет Anthropic мощность, способную конкурировать на равных с такими гигантами, как OpenAI или xAI, создавая уникальный синергетический эффект между аппаратной частью и облачными сервисами. Кроме того, тренды в сторону кастомных разработок аппаратного обеспечения подтверждают общую тенденцию ухода от универсальных, но менее эффективных решений. В будущем Project Rainier может стать основой для появления совершенно новых моделей искусственного интеллекта, основанных на принципах обучения с подкреплением и самых передовых технологиях нейросетей.
С развитием функционала и увеличением масштабов системы Amazon и Anthropic могут задать новый стандарт эффективности и стоимости вычислений в сфере ИИ. Amazon демонстрирует пример того, как гиганты индустрии вкладываются в экосистему искусственного интеллекта, расширяя базу клиентов и стимулируя инновации. Суперкластер Project Rainier — это не просто набор мощных машин, это долгосрочная инвестиция в технологическое будущее, которая уже меняет правила игры и задает высокую планку для конкурентов. В условиях быстрого роста объема данных и вычислительных требований такие архитектуры становятся необходимостью для устойчивого и эффективного развития искусственного интеллекта в глобальном масштабе.