Современные требования к вычислительным ресурсам стремительно растут благодаря развитию искусственного интеллекта, машинного обучения и сложных аналитических задач. Компании и дата-центры ищут новые способы максимально эффективно использовать доступные ресурсы, снижая затраты и повышая производительность. В этом контексте технология компонуемых серверов стала настоящим прорывом, позволив создавать гибкие и масштабируемые вычислительные кластеры из отдельных компонентов. Недавнее анонсирование компанией Liqid продуктов, основанных на PCIe Gen 5 и поддержке протокола CXL 2.0 для совместного использования памяти, стало важным шагом в развитии данной области.
Новые решения ориентированы на предоставление возможности динамического распределения GPU, памяти и хранилища для приложений с интенсивной нагрузкой, в первую очередь в сфере искусственного интеллекта и агентных систем. Компания Liqid впервые представила свои компонуемые системы еще в 2023 году, построенные на архитектуре PCIe Gen 4. Тогда в основу платформы легли CPU, DRAM, GPU и ускорители, а также устройства хранения на базе Optane и NVMe SSD. Задумка заключалась в том, чтобы обеспечить точную конфигурацию аппаратных ресурсов под конкретные задачи, что позволяло оптимизировать использование оборудования и снизить издержки. Однако с тех пор появились новые технологические возможности: Optane ушел с рынка, PCIe перешел на пятую генерацию с увеличенной пропускной способностью, а технология CXL для совместного использования памяти получила второй этап развития — CXL 2.
0. Воспользовавшись этими инновациями, Liqid обновила свою платформу, интегрировав поддержку CXL 2.0, что открыло путь к эффективному «пулу» памяти, доступному для динамического присоединения к GPU и другим вычислительным узлам. Такой подход позволяет объединять до 100 ТБ DRAM, значительно расширяя оперативную память по сравнению с традиционными архитектурами, где память жестко закреплена за конкретным сервером. Это особенно актуально для задач генеративного ИИ, при которых требуется высокая пропускная способность и большой объем памяти для моделей и данных.
Генеральный директор Liqid Эдгар Масри выделил, что с распространением генеративного ИИ на локальные дата-центры и периферийные вычислительные узлы растет нагрузка, а существующая инфраструктура зачастую не справляется с новыми требованиями по производительности и энергоэффективности. Он подчеркнул необходимость новых архитектур, которые бы позволили быстро адаптироваться к меняющимся задачам, поддерживать новые поколениями ускорителей и модели искусственного интеллекта, не выходя за рамки допустимых энергопотребления и бюджета. Платформа Liqid с Matrix v3.6 выступает в роли управляющего слоя, который обеспечивает компоновку ресурсов в реальном времени. Matrix управляет двумя независимыми коммутационными сетями — Fabric-A, занимающейся коммутацией PCIe для хранения и ускорителей ввода-вывода, а Fabric-B, базирующейся на CXL switch, отвечает за память DRAM.
Такая архитектура гарантирует параллельный и эффективный доступ к вычислительным ресурсам, позволяя предъявлять составные конфигурации с необходимыми объемами GPU, памяти и хранилища конкретным приложениями или серверам. Аппаратная база платформы включает несколько ключевых компонентов. EX-5410P — GPU-бокс с 10 слотами, рассчитанный на энергопотребление до 600 Вт на GPU. Он поддерживает современные видеокарты Nvidia H200, RTX Pro 6000, а также Intel Gaudi 3, FPGA, DPU и TPU, а также NVMe накопители. Также существует модель EX-5410C, способная предоставить до 100 ТБ дисагрегированной памяти через CXL 2.
0, что расширяет возможности масштабирования и гибкого использования оперативной памяти в кластере. Важным элементом также стал накопитель LQD-5500 формата PCIe Add-in Card с поддержкой до 128 ТБ. Он представляет собой ускоренный SSD с производительностью до шести миллионов операций ввода-вывода в секунду и пропускной способностью около 50 ГБ/с. Такой накопитель задан для создания высокопроизводительных кэш- и долговременных хранилищ в рамках одной системы, что особенно критично для workloads с интенсивной работой с данными. Кроме того, в состав платформы входят PCIe Gen 5 switch для коммутации ускорителей и CXL 2.
0 switch для памяти, а также Host Bus Adapters (HBA) для подключения к хостам. Благодаря этому создается полноценная и гибко управляемая инфраструктура соединений для эффективной балансировки нагрузки внутри дата-центров и на периферии. Liqid предлагает два варианта конфигурации — UltraStack и SmartStack. UltraStack позволяет выделить до 30 GPU и 100 ТБ DRAM для одного мощного сервера, обеспечивая максимальную плотность и производительность для задач с интенсивным использованием вычислительных ресурсов. В свою очередь, SmartStack является распределенной системой, объединяющей до 30 GPU на 20 серверах и 100 ТБ памяти, распределенной между 32 нодами.
Такое решение отлично подходит для крупных и распределенных инфраструктур, где важно оптимально распределять нагрузку и максимально эффективно использовать пул ресурсов. Важным преимуществом платформы Liqid является совместимость со стандартными и популярными системами оркестрации и управления контейнерами. Matrix v3.6 поддерживает Kubernetes, Slurm, OpenShift, VMware и Ansible, что упрощает интеграцию и управление симбиозом аппаратного и программного обеспечения в корпоративных средах. Более того, устройство обеспечивает поддержку перспективных технологий, таких как Nvidia Fusion, Ultra Accelerator Link (UAL) и предложения от Ultra Ethernet Consortium (UEC), которые будут добавляться по мере их появления.
Исторически Liqid к настоящему моменту подошла к своей четвертой генерации платформы для компонуемых систем. До появления текущего решения, компания выпускала EX-4410 Expansion Chassis для GPU в 30 слотах, подключаемого к хостам через PCIe Gen 4 коммутаторы. В SmartStack 4410 можно было задействовать до 30 NVIDIA GPU на хост и до 16 серверов с общей коммутацией через 48-портовый PCIe переключатель. С выходом новой платформы все это переместилось в настоящее поколение с более высокой пропускной способностью и поддержкой CXL для памяти. UltraStack, например, позволял установить до 30 Nvidia L40S GPU в один физический сервер серии Dell PowerEdge R760 или R7625, что серьезно повышало плотность и производительность вычислений без необходимости масштабирования за счет увеличения числа серверов.
Использование PCIe Gen 5 и эффектов компоновки с CXL 2.0 открывает новые горизонты для инфраструктуры, ориентированной на динамическое перераспределение ресурсов под задачи с различной степенью интенсивности. Таким образом, Liqid с обновленной платформой задает стандарт новой эры компонуемых систем — сочетая гибкое управление вычислительными мощностями, масштабируемую память и высокопроизводительные накопители в едином пуле. Эта технология позволяет предприятиям и дата-центрам эффективно отвечать на вызовы быстрорастущих и меняющихся нагрузок, связанных с ИИ, большими данными и аналитикой в реальном времени. На фоне продолжающейся эволюции вычислительных архитектур и расширения требований к инфраструктуре Liqid предлагает перспективный путь к повышению эффективности и устойчивости современного оборудования.
Платформа позволяет корпоративным клиентам не только максимально эффективно использовать свои инвестиции, но и быстро адаптироваться к технологическим инновациям и меняющимся бизнес-задачам, создавая по-настоящему будущую инфраструктуру для задач искусственного интеллекта и высокопроизводительных вычислений.