В последние годы искусственный интеллект стремительно развивается, предъявляя всё более высокие требования к вычислительным ресурсам и сетевой инфраструктуре. Традиционные подходы к построению сетей для дата-центров постепенно перестают удовлетворять потребности масштабных моделей и глубокого обучения, что вызывает необходимость поиска новых архитектур. На сегодняшний день одной из наиболее перспективных и активно развивающихся концепций являются сетевые решения уровня стоек — rack-scale networks. Эта технология открывает новые возможности для объединения множества графических процессоров (GPU) и ускорителей в единый мощный вычислительный кластер с крайне высокой пропускной способностью, что критично для современных ИИ-вычислений.Классические сети для дата-центров обычно основаны на Ethernet или InfiniBand, которые предлагают достаточно хорошую производительность в масштабируемых системах, однако в случае с задачами ИИ возникают ограничения по задержкам и пропускной способности.
В то время как масштабирование сетей через традиционные протоколы продолжает оставаться актуальным, новые rack-scale сети позволяют перейти от масштабирования «вширь» к масштабированию «вверх». Такой подход объединяет ресурсы вычислительных узлов внутри одной стойки, создавая единый, высокоскоростной fabric, способный оперативно обрабатывать огромные объемы данных.Одним из лидеров внедрения rack-scale сетей стала компания Nvidia с её архитектурой NVL72, предполагающей объединение в рамках одной стойки 72 GPU Blackwell через специализированные NVLink switch-чипы, суммарно обеспечивая порядка 2 терабайт данных в секунду. Такая скорость передачи обеспечивает практически мгновенный обмен данными между ускорителями, что критично для тренировки больших моделей ИИ, где распределенная память является узким местом. Nvidia называет своё решение «одним гигантским GPU», подчёркивая уровень интеграции и унифицированного доступа к ресурсам памяти.
Подобное стремление увеличивать внутреннюю пропускную способность внутри стоек объясняется растущими требованиями разработчиков моделей искусственного интеллекта, таких как OpenAI и Meta. Для тренировки моделей с триллионами параметров требуется колоссальный объем оперативной памяти и вычислительных мощностей, что делает возможным прикладное использование таких rack-scale архитектур преимущественно в крупных облачных провайдерах, специализированных операторах и корпоративных центрах обработки данных с высокими требованиями к безопасности и задержкам.Аналоги у Nvidia есть и у AMD с их новым решением Helios на базе MI400-серии ускорителей и процессоров EPYC Venice. AMD делает ставку на собственный стандарт Ultra Accelerator Link (UALink), открытый протокол interconnect, рассчитанный на работу через Ethernet и обещающий агрегацию пропускной способности свыше 260 терабит в секунду в рамках рack-scale системы. Такая открытая альтернатива NVLink может сыграть значительную роль в развитии экосистемы ускорителей, открывая выбор для интеграторов и заказчиков.
Особенностью rack-scale сетей является не только высокая пропускная способность в самой стойке, но и организация топологии памяти и вычислений, позволяющая ускорителям обрабатывать данные как единое целое. Это достигается с помощью сложных mesh-сетей и свитчей с сотнями портов, обеспечивающих быстрый all-to-all interconnect. Технологии развиваются также в направлении интеграции кабелей непосредственно в заднюю часть стоек, что упрощает монтаж и повышает надежность соединений, избавляя от необходимости сложного ручного подключения.Однако rack-scale сети не заменяют, а скорее дополняют масштабирование «вширь» в дата-центрах. Лимит длины кабелей и требования по энергопотреблению ограничивают размер таких архитектур физическими рамками одной стойки.
Для сверхкрупных кластеров, насчитывающих сотни тысяч GPU, всё ещё необходимы традиционные сетевые протоколы — Ethernet, InfiniBand или даже возрождённый Omni-Path, которые решают задачи межстойкового обмена и подключения к хранилищам данных.Перспективы развития сетевых решений для ИИ зависят от технологий коммутаторов. Современные решения, такие как Broadcom Tomahawk 6 и Nvidia Spectrum-X, предлагают поразительные показатели — сотни портов с пропускной способностью до 1.6 Тб/с каждый, что значительно снижает число необходимых коммутаторов и упрощает топологии крупнейших дата-центров. Использование фотоники обещает следующий прорыв, позволяя строить сети с низкой латентностью и высоким энергосбережением, хотя сегодня внедрение её в rack-scale сети остаётся технически сложной задачей.