Анализ крипторынка Продажи токенов ICO

AMD MI350: Новое поколение ускорителей с архитектурой CDNA4 и инновационными технологиями

Анализ крипторынка Продажи токенов ICO
AMD's Freshly-Baked MI350: An Interview with the Chief Architect

В статье рассматриваются ключевые особенности нового семейства ускорителей AMD MI350 на базе архитектуры CDNA4. Анализируются технические решения, выбор микросхем, поддерживаемые форматы данных и нововведения в организации вычислительных блоков и кэш-памяти, а также вопросы энергоэффективности и охлаждения.

Компания AMD представила новое поколение профессиональных графических ускорителей MI350, которые базируются на архитектуре CDNA4. Эти ускорители ориентированы на задачи искусственного интеллекта и высокопроизводительных вычислений, что нашло отражение в ряде новых решений и технических особенностей. Над разработкой продукта работал главный архитектор серии Instinct GPU Алан Смит, который в интервью подробно рассказал о причинах сохранения некоторых архитектурных элементов, внедрении новых форматов данных и оптимизации производительности. Одной из ключевых тем стал выбор архитектурной базы MI350. Несмотря на то, что клиентские графические процессоры AMD перешли на более современные поколения GFX11 и GFX12, серия MI350 сохранила основу на архитектуре GFX9, также известной как Vega.

Такое решение обусловлено тем, что архитектура GCN (Graphics Core Next), лежащая в основе Vega, была тщательно оптимизирована на протяжении нескольких поколений для вычичлительных задач с распределёнными алгоритмами в области высокопроизводительных вычислений и искусственного интеллекта. Этот фундамент позволил создать производительный продукт, отвечающий современным требованиям. В MI350 продолжает существовать разделение между L1-кэшем и локальной областью данных (LDS, Local Data Store) — наследие архитектуры GCN. Слияние этих кэшей в рамках текущего поколения не было признано целесообразным, так как это потребовало бы масштабных изменений микропроцессорной организации. Вместо этого компания увеличила ёмкость LDS с 64 до 160 килобайт и удвоила пропускную способность канала к регистровому файлу, что важно для эффективного питания тензорных ядер, интенсивно работающих с данными.

Особое внимание уделяется поддержке новых масштабируемых форматов чисел с плавающей точкой — FP8, FP6 и FP4. Примечательно, что в MI350 вторая версия формата FP6 реализована с такой же производительностью, как и FP4, что выделяет платформу среди конкурентов. По словам Алана Смита, FP6 оформлен как универсальный формат, пригодный как для инференсных, так и для тренировочных задач ИИ. Это позволило добиться лидерства в производительности, сохранив при этом энерго- и площадьэффективность аппаратного решения. MI350 отказался от аппаратной поддержки формата TF32.

Основным форматом, рекомендованным к применению, стал BF16 — brain float 16 — поскольку он обеспечивает значительно более высокую пропускную способность и способен заменить TF32 в большинстве современных моделей ИИ. Тем не менее апаратная платформа сохраняет возможность программной эмуляции TF32 через BF16 или использование FP32, что обеспечивает гибкость при адаптации приложений. В основе вычислительных блоков MI350 лежит новый чиплет-компьютерный диcк (XCD), изготовленный по нормам 3-нм+ технологии TSMC N3P. Несмотря на уменьшение физического количества вычислительных блоков с 40 до 36 на кристалле с возможностью активации 32 из них, такой шаг связан с необходимостью повышения надежности производства и оптимизации для высокопроизводительных задач. Активация 32 блоков — число степени двойки — облегчает эффективное разбиение вычислительных задач на тензорные операции, минимизируя лишние вычисления на «хвостах» итераций и увеличивая общую производительность.

MI350 переходят от четырёх к двух I/O кристаллам, что позволило снизить общие энергозатраты при увеличении пропускной способности памяти HBM3E с 5,2–5,6 до 8 гигабит в секунду. За счёт увеличения ширины шины передачи данных и снижения рабочей частоты и напряжения происходит эксплуатация эффекта квадратичной зависимости мощности от напряжения, что широко используется для уменьшения энергопотребления. В итоге это позволяет направить освободившиеся вычислительные мощности непосредственно на вычисления, повысив итоговую эффективность ускорителя. Кэш-память иерархически в MI350 почти не претерпела изменений по сравнению с MI300. Архитектура Infinity Fabric, которая обеспечивает высокую пропускную способность межпроцессорной коммуникации, была изначально спроектирована с расчётом на устойчивое ведение вычислений с плавающей точкой двойной точности в HPC и не потребовала радикальной доработки.

Такой подход позволяет AMD сосредоточиться на масштабировании вычислительной мощности без потери стабильности передачи данных. Особое значение уделяется системе охлаждения и управлению тепловыми характеристиками, особенно учитывая, что MI350x рассчитан на потребление до 1000 ватт, а MI355x – 1400 ватт. AMD предлагает разные варианты охлаждения, включая воздушное и жидкостное с прямым прикосновением к чипам через холодовую пластину. Компания тщательно моделирует тепловую архитектуру от материнской платы, через платы расширения OAM (OCP Accelerator Module), стеки технологий CoWoS (Chip on Wafer on Substrate) и вплоть до каждой отдельной структуры кристалла, обеспечивая поддержание температур в пределах установленных норм. Целевое применение MI350 — индустрия ИИ и HPC, где крайне важна балансировка мощностей, энергоэффективности и гибкости программной поддержки.

Использование новой технологии изготовления и продвинутых форматов данных открывает возможности для масштабируемых и производительных систем. Дополнительной особенностью является более компактная и оптимизированная компоновка чипов, что вкупе с современной системой охлаждения гарантирует стабильную работу при высоких нагрузках. Подводя итог, MI350 от AMD является серьёзным шагом вперёд для линейки Instinct, сочетающим в себе проверенные архитектурные решения Vega с современными инновациями в сфере обработки данных, повышения производительности и энергосбережения. Новая серия отлично подходит для высококлассных вычислительных систем, способных справиться как с обучением, так и с выводом сложных моделей искусственного интеллекта, обеспечивая конкурентоспособную позицию на рынке ускорителей следующего поколения.

Автоматическая торговля на криптовалютных биржах Покупайте и продавайте криптовалюты по лучшим курсам Privatejetfinder.com (RU)

Далее
New SOTA Web Agent beats even Operator with human intervention
Воскресенье, 14 Сентябрь 2025 Новый рекорд в AI-агентах для веба: rtrvr.ai превосходит операторов с человеческим вмешательством

Инновационный веб-агент rtrvr. ai устанавливает новый стандарт в сфере автоматизации онлайн-задач, демонстрируя высочайшую точность, скорость и эффективность в сравнении с ведущими решениями, включая оператора с человеческим контролем.

Jake Dot Museum
Воскресенье, 14 Сентябрь 2025 Jake Dot Museum: Погружение в историю веб-дизайна и развития интернета

Jake Dot Museum — уникальная коллекция визуальных и гипертекстовых материалов, отражающая эволюцию веб-дизайна и личный путь автора через цифровой мир, наполненный ностальгией и инновациями.

LavinMQ 2.4.0 released – laying the groundwork for multithreading
Воскресенье, 14 Сентябрь 2025 LavinMQ 2.4.0 – Новая эра производительности и многопоточности в системах обмена сообщениями

Обзор релиза LavinMQ 2. 4.

Commentario: Add comments to your web page or blog
Воскресенье, 14 Сентябрь 2025 Как внедрить комментарии на ваш веб-сайт или блог для повышения вовлечённости пользователей

Подробное руководство по интеграции системы комментариев на веб-ресурсы и блоги, раскрывающее преимущества, технические аспекты и лучшие практики, способствующие росту аудитории и улучшению взаимодействия с посетителями.

debi: reinstall your VPS to minimal Debian
Воскресенье, 14 Сентябрь 2025 Полное руководство по переустановке VPS на минимальный Debian с помощью debi

Подробное руководство по использованию скрипта debi для автоматизированной и быстрой установки минимальной системы Debian на ваш VPS. Узнайте, как настроить сеть, выбрать версию Debian, обеспечить безопасность и оптимизировать процесс переустановки операционной системы.

Why Trading Edge Alone Won't Make You Profitable
Воскресенье, 14 Сентябрь 2025 Почему одних только торговых преимуществ недостаточно для стабильной прибыли на рынке

Успех в торговле на финансовых рынках требует не только наличия торгового преимущества, но и комплексного развития дисциплины, эмоционального контроля и правильного управления капиталом. Разбираем ключевые этапы становления успешного трейдера и почему только стратегия не гарантирует доход.

Culturing, a Life's Work in Progress
Воскресенье, 14 Сентябрь 2025 Культура жизни в поэзии: творческий путь как процесс на всю жизнь

Погружение в уникальный проект поэтической самопубликации, основанный на идее органического развития творчества и взаимодействия с культурой как непрерывным процессом жизненного пути.