Анализ крипторынка Продажи токенов ICO

AMD MI350: Новое поколение ускорителей с архитектурой CDNA4 и инновационными технологиями

Анализ крипторынка Продажи токенов ICO
AMD's Freshly-Baked MI350: An Interview with the Chief Architect

В статье рассматриваются ключевые особенности нового семейства ускорителей AMD MI350 на базе архитектуры CDNA4. Анализируются технические решения, выбор микросхем, поддерживаемые форматы данных и нововведения в организации вычислительных блоков и кэш-памяти, а также вопросы энергоэффективности и охлаждения.

Компания AMD представила новое поколение профессиональных графических ускорителей MI350, которые базируются на архитектуре CDNA4. Эти ускорители ориентированы на задачи искусственного интеллекта и высокопроизводительных вычислений, что нашло отражение в ряде новых решений и технических особенностей. Над разработкой продукта работал главный архитектор серии Instinct GPU Алан Смит, который в интервью подробно рассказал о причинах сохранения некоторых архитектурных элементов, внедрении новых форматов данных и оптимизации производительности. Одной из ключевых тем стал выбор архитектурной базы MI350. Несмотря на то, что клиентские графические процессоры AMD перешли на более современные поколения GFX11 и GFX12, серия MI350 сохранила основу на архитектуре GFX9, также известной как Vega.

Такое решение обусловлено тем, что архитектура GCN (Graphics Core Next), лежащая в основе Vega, была тщательно оптимизирована на протяжении нескольких поколений для вычичлительных задач с распределёнными алгоритмами в области высокопроизводительных вычислений и искусственного интеллекта. Этот фундамент позволил создать производительный продукт, отвечающий современным требованиям. В MI350 продолжает существовать разделение между L1-кэшем и локальной областью данных (LDS, Local Data Store) — наследие архитектуры GCN. Слияние этих кэшей в рамках текущего поколения не было признано целесообразным, так как это потребовало бы масштабных изменений микропроцессорной организации. Вместо этого компания увеличила ёмкость LDS с 64 до 160 килобайт и удвоила пропускную способность канала к регистровому файлу, что важно для эффективного питания тензорных ядер, интенсивно работающих с данными.

Особое внимание уделяется поддержке новых масштабируемых форматов чисел с плавающей точкой — FP8, FP6 и FP4. Примечательно, что в MI350 вторая версия формата FP6 реализована с такой же производительностью, как и FP4, что выделяет платформу среди конкурентов. По словам Алана Смита, FP6 оформлен как универсальный формат, пригодный как для инференсных, так и для тренировочных задач ИИ. Это позволило добиться лидерства в производительности, сохранив при этом энерго- и площадьэффективность аппаратного решения. MI350 отказался от аппаратной поддержки формата TF32.

 

Основным форматом, рекомендованным к применению, стал BF16 — brain float 16 — поскольку он обеспечивает значительно более высокую пропускную способность и способен заменить TF32 в большинстве современных моделей ИИ. Тем не менее апаратная платформа сохраняет возможность программной эмуляции TF32 через BF16 или использование FP32, что обеспечивает гибкость при адаптации приложений. В основе вычислительных блоков MI350 лежит новый чиплет-компьютерный диcк (XCD), изготовленный по нормам 3-нм+ технологии TSMC N3P. Несмотря на уменьшение физического количества вычислительных блоков с 40 до 36 на кристалле с возможностью активации 32 из них, такой шаг связан с необходимостью повышения надежности производства и оптимизации для высокопроизводительных задач. Активация 32 блоков — число степени двойки — облегчает эффективное разбиение вычислительных задач на тензорные операции, минимизируя лишние вычисления на «хвостах» итераций и увеличивая общую производительность.

 

MI350 переходят от четырёх к двух I/O кристаллам, что позволило снизить общие энергозатраты при увеличении пропускной способности памяти HBM3E с 5,2–5,6 до 8 гигабит в секунду. За счёт увеличения ширины шины передачи данных и снижения рабочей частоты и напряжения происходит эксплуатация эффекта квадратичной зависимости мощности от напряжения, что широко используется для уменьшения энергопотребления. В итоге это позволяет направить освободившиеся вычислительные мощности непосредственно на вычисления, повысив итоговую эффективность ускорителя. Кэш-память иерархически в MI350 почти не претерпела изменений по сравнению с MI300. Архитектура Infinity Fabric, которая обеспечивает высокую пропускную способность межпроцессорной коммуникации, была изначально спроектирована с расчётом на устойчивое ведение вычислений с плавающей точкой двойной точности в HPC и не потребовала радикальной доработки.

 

Такой подход позволяет AMD сосредоточиться на масштабировании вычислительной мощности без потери стабильности передачи данных. Особое значение уделяется системе охлаждения и управлению тепловыми характеристиками, особенно учитывая, что MI350x рассчитан на потребление до 1000 ватт, а MI355x – 1400 ватт. AMD предлагает разные варианты охлаждения, включая воздушное и жидкостное с прямым прикосновением к чипам через холодовую пластину. Компания тщательно моделирует тепловую архитектуру от материнской платы, через платы расширения OAM (OCP Accelerator Module), стеки технологий CoWoS (Chip on Wafer on Substrate) и вплоть до каждой отдельной структуры кристалла, обеспечивая поддержание температур в пределах установленных норм. Целевое применение MI350 — индустрия ИИ и HPC, где крайне важна балансировка мощностей, энергоэффективности и гибкости программной поддержки.

Использование новой технологии изготовления и продвинутых форматов данных открывает возможности для масштабируемых и производительных систем. Дополнительной особенностью является более компактная и оптимизированная компоновка чипов, что вкупе с современной системой охлаждения гарантирует стабильную работу при высоких нагрузках. Подводя итог, MI350 от AMD является серьёзным шагом вперёд для линейки Instinct, сочетающим в себе проверенные архитектурные решения Vega с современными инновациями в сфере обработки данных, повышения производительности и энергосбережения. Новая серия отлично подходит для высококлассных вычислительных систем, способных справиться как с обучением, так и с выводом сложных моделей искусственного интеллекта, обеспечивая конкурентоспособную позицию на рынке ускорителей следующего поколения.

Автоматическая торговля на криптовалютных биржах

Далее
New SOTA Web Agent beats even Operator with human intervention
Воскресенье, 14 Сентябрь 2025 Новый рекорд в AI-агентах для веба: rtrvr.ai превосходит операторов с человеческим вмешательством

Инновационный веб-агент rtrvr. ai устанавливает новый стандарт в сфере автоматизации онлайн-задач, демонстрируя высочайшую точность, скорость и эффективность в сравнении с ведущими решениями, включая оператора с человеческим контролем.

Jake Dot Museum
Воскресенье, 14 Сентябрь 2025 Jake Dot Museum: Погружение в историю веб-дизайна и развития интернета

Jake Dot Museum — уникальная коллекция визуальных и гипертекстовых материалов, отражающая эволюцию веб-дизайна и личный путь автора через цифровой мир, наполненный ностальгией и инновациями.

LavinMQ 2.4.0 released – laying the groundwork for multithreading
Воскресенье, 14 Сентябрь 2025 LavinMQ 2.4.0 – Новая эра производительности и многопоточности в системах обмена сообщениями

Обзор релиза LavinMQ 2. 4.

Commentario: Add comments to your web page or blog
Воскресенье, 14 Сентябрь 2025 Как внедрить комментарии на ваш веб-сайт или блог для повышения вовлечённости пользователей

Подробное руководство по интеграции системы комментариев на веб-ресурсы и блоги, раскрывающее преимущества, технические аспекты и лучшие практики, способствующие росту аудитории и улучшению взаимодействия с посетителями.

debi: reinstall your VPS to minimal Debian
Воскресенье, 14 Сентябрь 2025 Полное руководство по переустановке VPS на минимальный Debian с помощью debi

Подробное руководство по использованию скрипта debi для автоматизированной и быстрой установки минимальной системы Debian на ваш VPS. Узнайте, как настроить сеть, выбрать версию Debian, обеспечить безопасность и оптимизировать процесс переустановки операционной системы.

Why Trading Edge Alone Won't Make You Profitable
Воскресенье, 14 Сентябрь 2025 Почему одних только торговых преимуществ недостаточно для стабильной прибыли на рынке

Успех в торговле на финансовых рынках требует не только наличия торгового преимущества, но и комплексного развития дисциплины, эмоционального контроля и правильного управления капиталом. Разбираем ключевые этапы становления успешного трейдера и почему только стратегия не гарантирует доход.

Culturing, a Life's Work in Progress
Воскресенье, 14 Сентябрь 2025 Культура жизни в поэзии: творческий путь как процесс на всю жизнь

Погружение в уникальный проект поэтической самопубликации, основанный на идее органического развития творчества и взаимодействия с культурой как непрерывным процессом жизненного пути.