Компания AMD представила новое поколение профессиональных графических ускорителей MI350, которые базируются на архитектуре CDNA4. Эти ускорители ориентированы на задачи искусственного интеллекта и высокопроизводительных вычислений, что нашло отражение в ряде новых решений и технических особенностей. Над разработкой продукта работал главный архитектор серии Instinct GPU Алан Смит, который в интервью подробно рассказал о причинах сохранения некоторых архитектурных элементов, внедрении новых форматов данных и оптимизации производительности. Одной из ключевых тем стал выбор архитектурной базы MI350. Несмотря на то, что клиентские графические процессоры AMD перешли на более современные поколения GFX11 и GFX12, серия MI350 сохранила основу на архитектуре GFX9, также известной как Vega.
Такое решение обусловлено тем, что архитектура GCN (Graphics Core Next), лежащая в основе Vega, была тщательно оптимизирована на протяжении нескольких поколений для вычичлительных задач с распределёнными алгоритмами в области высокопроизводительных вычислений и искусственного интеллекта. Этот фундамент позволил создать производительный продукт, отвечающий современным требованиям. В MI350 продолжает существовать разделение между L1-кэшем и локальной областью данных (LDS, Local Data Store) — наследие архитектуры GCN. Слияние этих кэшей в рамках текущего поколения не было признано целесообразным, так как это потребовало бы масштабных изменений микропроцессорной организации. Вместо этого компания увеличила ёмкость LDS с 64 до 160 килобайт и удвоила пропускную способность канала к регистровому файлу, что важно для эффективного питания тензорных ядер, интенсивно работающих с данными.
Особое внимание уделяется поддержке новых масштабируемых форматов чисел с плавающей точкой — FP8, FP6 и FP4. Примечательно, что в MI350 вторая версия формата FP6 реализована с такой же производительностью, как и FP4, что выделяет платформу среди конкурентов. По словам Алана Смита, FP6 оформлен как универсальный формат, пригодный как для инференсных, так и для тренировочных задач ИИ. Это позволило добиться лидерства в производительности, сохранив при этом энерго- и площадьэффективность аппаратного решения. MI350 отказался от аппаратной поддержки формата TF32.
Основным форматом, рекомендованным к применению, стал BF16 — brain float 16 — поскольку он обеспечивает значительно более высокую пропускную способность и способен заменить TF32 в большинстве современных моделей ИИ. Тем не менее апаратная платформа сохраняет возможность программной эмуляции TF32 через BF16 или использование FP32, что обеспечивает гибкость при адаптации приложений. В основе вычислительных блоков MI350 лежит новый чиплет-компьютерный диcк (XCD), изготовленный по нормам 3-нм+ технологии TSMC N3P. Несмотря на уменьшение физического количества вычислительных блоков с 40 до 36 на кристалле с возможностью активации 32 из них, такой шаг связан с необходимостью повышения надежности производства и оптимизации для высокопроизводительных задач. Активация 32 блоков — число степени двойки — облегчает эффективное разбиение вычислительных задач на тензорные операции, минимизируя лишние вычисления на «хвостах» итераций и увеличивая общую производительность.
MI350 переходят от четырёх к двух I/O кристаллам, что позволило снизить общие энергозатраты при увеличении пропускной способности памяти HBM3E с 5,2–5,6 до 8 гигабит в секунду. За счёт увеличения ширины шины передачи данных и снижения рабочей частоты и напряжения происходит эксплуатация эффекта квадратичной зависимости мощности от напряжения, что широко используется для уменьшения энергопотребления. В итоге это позволяет направить освободившиеся вычислительные мощности непосредственно на вычисления, повысив итоговую эффективность ускорителя. Кэш-память иерархически в MI350 почти не претерпела изменений по сравнению с MI300. Архитектура Infinity Fabric, которая обеспечивает высокую пропускную способность межпроцессорной коммуникации, была изначально спроектирована с расчётом на устойчивое ведение вычислений с плавающей точкой двойной точности в HPC и не потребовала радикальной доработки.
Такой подход позволяет AMD сосредоточиться на масштабировании вычислительной мощности без потери стабильности передачи данных. Особое значение уделяется системе охлаждения и управлению тепловыми характеристиками, особенно учитывая, что MI350x рассчитан на потребление до 1000 ватт, а MI355x – 1400 ватт. AMD предлагает разные варианты охлаждения, включая воздушное и жидкостное с прямым прикосновением к чипам через холодовую пластину. Компания тщательно моделирует тепловую архитектуру от материнской платы, через платы расширения OAM (OCP Accelerator Module), стеки технологий CoWoS (Chip on Wafer on Substrate) и вплоть до каждой отдельной структуры кристалла, обеспечивая поддержание температур в пределах установленных норм. Целевое применение MI350 — индустрия ИИ и HPC, где крайне важна балансировка мощностей, энергоэффективности и гибкости программной поддержки.
Использование новой технологии изготовления и продвинутых форматов данных открывает возможности для масштабируемых и производительных систем. Дополнительной особенностью является более компактная и оптимизированная компоновка чипов, что вкупе с современной системой охлаждения гарантирует стабильную работу при высоких нагрузках. Подводя итог, MI350 от AMD является серьёзным шагом вперёд для линейки Instinct, сочетающим в себе проверенные архитектурные решения Vega с современными инновациями в сфере обработки данных, повышения производительности и энергосбережения. Новая серия отлично подходит для высококлассных вычислительных систем, способных справиться как с обучением, так и с выводом сложных моделей искусственного интеллекта, обеспечивая конкурентоспособную позицию на рынке ускорителей следующего поколения.