Huawei занимает прочное место среди ведущих технологических компаний Китая, предлагая широкий спектр продуктов для корпоративного сегмента – от серверов до сетевого оборудования. Одной из ключевых составляющих успеха компании стала её способность самостоятельно разрабатывать продвинутые микросхемы через дочернее предприятие HiSilicon. Такая стратегия не только позволяет Huawei адаптировать процессоры под собственные нужды, но и обеспечивает защиту от потенциальных сбоев в глобальных цепочках поставок, что стало особенно актуально в современных условиях мировой экономики. Kunpeng 920 занимает особое место в линейке серверных процессоров Huawei. Этот процессор основан на инновационной концепции чиплетов, которая задействует технологию CoWoS (Chip-on-Wafer-on-Substrate) компании TSMC.
При изготовлении используется 7-нм техпроцесс для вычислительных ядер TaiShan v110, а отдельный I/O-кристалл выполнен на 16-нм техпроцессе, что обеспечивает эффективное разделение логики и ввода-вывода для повышения общей производительности и масштабируемости. Архитектура процессора строится на модульном принципе, который Huawei называет «LEGO-based production». Она предполагает размещение чиплетов равной высоты вплотную друг к другу: вычислительные чиплеты (Super CPU Clusters, SCCL) располагаются в центре, окружённые сервисными I/O-блоками. Это решение позволяет достичь значительной гибкости при конфигурации процессора, а также упрощает масштабирование и поддержку различных вариантов с количеством ядер от 24 до 64. Ядра TaiShan v110 являются первой собственной разработкой HiSilicon с архитектурой ARM64 и представляют собой 4-конвейерные ядра с возможностью выполнения вне порядка (out-of-order).
В сравнении с классическими ARM Cortex A57 и A72, которые ранее использовались Huawei в серверных чипах, TaiShan v110 обладает гораздо более современным и эффективным дизайном, оптимизированным для задач интенсивных вычислений в коробочном исполнении и облачных сервисах. Уникальным элементом архитектуры Kunpeng 920 является дизайн кеша третьего уровня (L3). Ядра объединены в кластеры по четыре ядра (CPU Clusters), между которыми и элементами памяти проходит двунаправленное кольцевое шина (ring bus). Интересно, что теги кеша L3 размещены не совместно с данными кеша, а прямо рядом с CPU-кластерами, что даёт возможность гибко управлять кешем и выбирать один из трёх режимов работы – shared, private и partition. В режиме shared весь L3 кеш объединён и доступен для всех ядер, что схоже с подходом конкурентов AMD и Intel.
Режим private выделяет банки кеша L3 для каждого CPU-кластера, позволяя минимизировать задержки и повысить пропускную способность для конкретных ядер. Наиболее инновационный – partition mode, позволяющий динамически изменять распределение кеша между shared и private в зависимости от текущих задач и поведения программ. Такая способность подстраиваться под нагрузки – редкость для серверных CPU и свидетельство продвинутого инженерного подхода Huawei. Несмотря на новаторство, L3-cache в Kunpeng 920 имеет и недостатки. При полной загрузке кеша или при совместном использовании данных несколькими ядрами увеличивается задержка доступа и снижается производительность.
В частности, по сравнению с аналогами от Intel и AMD, задержки при работе в режиме shared больше, что усложняет повышение эффективности при масштабных параллельных вычислениях. Тем не менее, частный и динамический режимы позволяют добиться приемлемого баланса для широкого спектра сценариев. Кроме того, Kunpeng 920 поддерживает многопроцессорные конфигурации с помощью технологии Huawei Hydra Link, которая обеспечивает высокоскоростное соединение между сокетами. Благодаря этому серверные решения на базе этих чипов могут быть масштабированы до четырёх сокетов, что превышает возможности многих современных конкурентов, которые максимум ограничиваются двумя. Ядро TaiShan v110 имеет сравнительно малую емкость для переупорядочивания команд и три исполнительных блока для целочисленных вычислений.
Присутствует двухканальная FPU с возможностью 128-битных векторных операций, что соответствует современным требованиям к SIMD-нагрузкам. Важной характеристикой является высокая пропускная способность кеша данных L1, которая обеспечивает две 128-битные операции чтения или записи за такт, что превосходит многие ядра аналогичной категории по производительности с точки зрения работы с кешем. Процессор использует двухуровневый динамический предсказатель переходов – относительно простую, но проверенную временем схему прогнозирования ветвлений. Это решение уступает более сложным современным версиям от ARM Neoverse N1 и AMD Zen 2, которые наоборот максимально совершенствовали эту часть архитектуры. В реальных тестах, таких как SPEC CPU2017, TaiShan v110 демонстрирует приемлемую точность предсказаний, хотя и уступает лидерским технологиям, что сказывается на ухудшении производительности в задачах с интенсивным потоком ветвлений и критичной задержкой.
Кэш L2 вместимостью 512 КБ выделен на каждое ядро, что обеспечивает более низкую задержку и высокую пропускную способность между ним и L1 данными. Хотя этот объём считается невысоким по современным меркам серверных чипов, решение Huawei ориентировано на минимизацию латентности при работе с кешем и максимальную эффективность в распространённых сценариях. Память DDR4-2400 подключается через пару двухканальных контроллеров, расположенных по верхнему и нижнему краям вычислительного чиплета. По результатам тестов, пиковая пропускная способность достигает 63 ГБ/с, а латентность при ненагрузочном режиме – порядка 96 наносекунд. С ростом нагрузки задержки возрастали, но оставались приемлемыми для серверных рабочих нагрузок.
Это свидетельствует о сбалансированной архитектуре подсистемы памяти, ориентированной на стабильность и эффективность. В сравнении с ведущими конкурентами на 7-нм техпроцессе, такими как AMD Zen 2 и ARM Neoverse N1, TaiShan v110 проигрывает по общей производительности. Neoverse N1 превосходит его по числу исполнительных элементов, объему регистров и эффективности предсказания ветвлений, а Zen 2 демонстрирует более высокий IPC и лучшее масштабирование. Тем не менее, учитывая, что Kunpeng 920 и TaiShan v110 являются первой самостоятельной разработкой Huawei на данном уровне, они обеспечивают достойную базу для дальнейших улучшений. Huawei удалось создать компактный, современный и технологичный процессор, который активно внедряется в серверные решения компании.
В архитектуре Kunpeng 920 воплощены инновационные идеи динамически настраиваемого разделения кеша, модульного подхода к дизайну и расширения многосокетных конфигураций. В то же время сегодня видно, что для уверенной конкуренции с мировыми лидерами HiSilicon потребуется дальнейшая работа над оптимизацией архитектуры и увеличением эффективности ключевых узлов процессора. Применение Kunpeng 920 и TaiShan v110 в сетевом оборудовании, облачных платформах и системах искусственного интеллекта подчеркнуло потенциал камерных и специализированных решений Huawei. В отдельности архитектурные нововведения видаются неоднозначными, но совокупно они демонстрируют прогресс китайского производителя и возможность закрепиться на рынке серверных процессоров с уникальным продуктом. Ключевое достоинство Kunpeng 920 – фирменная стратегия «LEGO-based production» с CoWoS упаковкой, которая обеспечивает высокую пропускную способность связи между чиплетами – до 400 ГБ/с с поддержкой когерентности.