AMD的Instinct MI350 AI加速器採用CDNA4架構,在Hot Chips 2025上AMD對其速度和饋送進行了詳細介紹。
AMD推出Instinct MI350系列僅兩個月,這是一款採用加速器和CDNA4架構的旗艦AI工作負載 GPU。今天在Hot Chips大會上AMD進一步深入探討了這款AI強悍處理器的細節。
所以從MI350系列的開發開始,顯然是為了AI,但更準確地說是為了LLM,因為模型規模每年都在成長。解決這些問題的兩個關鍵因素是:在資料類型格式方面進行創新,另一個是簡單地增加晶片的記憶體規模。 AMD不僅實現了這兩個目標,還做了更多其他事情。
因此採用CDNA4的AMD Instinct MI350系列加速器提升了AI工作負載的效能和效率。它們擴展了HBM頻寬和容量,以更高的速度支援在更大模型上進行更快的 AI訓練和推理,同時也提高了能源效率和效能。
透過降低非核心功耗、實現更寬的無限結構以在更節能的頻率下實現更高的頻寬、以及支援較低精度的資料格式(如全訪問FP8)和行業標準的微型MXFP6和MXFP4資料類型,實現了更快的效能。
AMD提供兩種型號的MI350系列,MI350X是風冷型號,有1000W TBP和最大時脈速度2.2GHz,而高階MI355X則針對液冷資料中心,有最大TBP 1400W和最大時脈速度2.4GHz。
這款晶片是AMD架構上的傑作,它充分利用了AMD在Chiplet領域多年的工程經驗,並藉助合作夥伴在先進封裝方面的雄厚實力。晶片本身整合了1850億個電晶體管,採用3D多Chiplet設計,包含兩種Chiplet類型,並配備HBM3e。 MI350系列採用3nm + 6nm雙製程,並採用成熟的COWOS-S封裝技術。
仔細分析晶片,我們首先看到的是XCD(加速器複合晶片),它們是採用台積電的N3P 3nm製程技術。單一MI350X/MI355X封裝上有8個XCD,每個IOD封裝上有4個 IOD(AMD I/O基礎晶片)採用台積電的6nm FinFET N6製程技術,憑藉其成熟的製程,使其成為一款極具成本效益的晶片,在良率和成本方面均達到最優。每個封裝有兩個XCD。 IOD封裝了Infinity Fabric AP互連。
封裝上總共有8個HBM3E點,每個IOD連接到4個點。最後還有一個主中介層或封裝,整個矽片都安放在其上。
深入研究I/O晶片,其中有兩個,每個都配備三個Infinity Fabric鏈路和一個PCIe Gen5鏈路,可連接到AMD EPYC主機(128GB/s)。此外還有四個HBM3E記憶體控制器,每個控制器連接到12-Hi堆疊,該堆疊包含36GB容量,以8Gbps的速度運行,頻寬高達8.0TB/s。此晶片搭載288GB HBM3e容量。
兩個IO晶片均採用Infinity Fabric(高級封裝)互連技術連接,可提供5.5TB/s的對分頻寬。 IO晶片也搭載256MB AMD Infinity Cache。 Infinity Fabric連結採用第四代插槽間連結,可為XCD提供1075GB/s的雙向聚合頻寬。
MI350系列晶片每個XCD共包含32個AMD CDNA 4計算單元,總計256個計算單元,每個CU包含128個處理器,總計16,384個核心。這些核心數量低於MI325和MI300系列,後者包含304個計算單元,最大核心數為19,456個。這些計算單元被分割為八個區域,每個區域都有各自的XCD,每個XCD包含32個計算單元。此外MI355X級解決方案還擁有1024個矩陣核心,核心最高頻率可達2.4 GHz。
XCD搭載的內部記憶體系統包括129KiB的VGPR / SIMD、512KiB的向量暫存器/計算單元、160KiB的邏輯資料結構/計算單元 (537GB/s)、每個計算單元32KiB的L1快取以及每個XCD 4MiB的共享L2快取。因此:
- 131MB向量寄存器(全晶片)
- 40MB LDS(全晶片)
- 8MB L1(全晶片)
- 32MB L2(全晶片)
- 256MB 無限快取(全晶片)
接下來AMD分享了其MI355X與MI300X的資料格式和運算效能加速:
- Vector FP16: 157.3 TFLOPs (1.0x)
- Matrix FP16/BF16: 2.5 PFLOPs (1.9x)
- Matrix FP8: 5.0 PFLOPs (1.9x)
- Matrix INT8/INT4: 5.0 PFLOPs (1.9x)
- Matrix MXFP6/MXFP4: 10 PFLOPs (New)
- Vector FP64: 78.6 TFLOPs (1.0x)
- Matrix FP64: 78.6 TFLOPs (0.5x)
- Vector FP32: 157.3 TFLOPs (1.0x)
- Matrix FP32: 157.3 TFLOPs (1.0x)
與NVIDIA的GB200 SXM系統相比,MI355X OAM解決方案在AI和HPC效能方面提供了2.1倍的運算輸出。
您可以在下面看到 Instinct MI350 系列 GPU 的 SoC 框圖:
AMD Instinct MI350系列AI加速器還支援每個插槽靈活的GPU分區,可將記憶體劃分為兩個獨立的叢集。這種靈活性也適用於GPU或XCD,您可以將四路XCD叢集分離,或將其分割為雙路或單路區塊,從而使該晶片能夠在CPX+NPS2中支援8個70B模型實例。
Infinity Fabric連接還允許8個加速器以154GB/s的雙向鏈路進行通信,與上一代相比速度提高了20%。
AMD也詳細介紹了每顆晶片的組裝流程,從矽片的3D封裝到封裝組裝,再到OAM組裝,以及最終的散熱器連接階段。這些OAM隨後會被裝入大型UBB (2.0),這是一種通用基板,最多可容納8個加速器。這些加速器會進入業界標準的主機節點,最終被安裝到資料中心可用的EIA機架。
僅就AI運算能力的提升而言,AMD聲稱Instinct MI350系列提供20 PFLOP的FP4/FP6運算能力,效能比上一代提升了4倍。 HBM3e記憶體技術可帶來更快的資料傳輸速度,兩種型號均擁有288GB的超大容量。此外晶片上還配備了256MB的全新Infinity Cache。
4U選項還可適用於現有的UBB8,UBB8目前裝有MI300X AC 750W和MI325X AC 1000W加速器。
最終確定的系統有兩種。 MI350X平台提供高達36.9 FP16/BF16和73.9 FP8 PFLOP,並可擴展至10U風冷解決方案。 MI355X平台提供高達40.2 FP16/BF16和 80.5 FP8 PFLOP,並可擴展至5U DLC(直接液冷)解決方案。兩個平台均提供2.25TB HBM3e記憶體和1075GB/s的Infinity Fabric頻寬。這些解決方案均搭載 AMD最新、最強大的第五代EPYC CPU,配備Zen5核心和Pensando UEC就緒網路卡。
AMD MI350機架基礎架構配備 PYC CPU、Instinct GPU和UEC Scale-Out NIC,符合開放標準。
以下是與競爭對手相比的數據:
MI355x與B200:
- 記憶體:高1.6倍
- 頻寬:高1.0倍
- FP64:高2.1倍
- FP16:高1.1倍
- FP8:高1.1倍
- FP6:高出2.2倍
- FP4:高1.1倍
MI355x與GB200比較:
- 記憶體:高1.6倍
- 頻寬:高1.0倍
- FP64:高2.0倍
- FP16:高1.0倍
- FP8:高1.0倍
- FP6:高出2.0倍
- FP4:高1.0倍
圖表顯示了 AMD Instinct MI350 GPU 在以下 AI 型號中的效能提升:DeepSeek、Llama 3.3、Llama 4。
但Instinct MI355X與上一代MI300系列相比如何呢? AMD剛剛展示了使用Llama 3.1 405B(吞吐量)的推理性能實現了35倍的巨大飛躍,這是一個巨大的提升。
AMD已經證實MI350系列將於2025年第三季開始透過各種合作夥伴上市。下一代MI400系列已在開發中,計劃於2026年推出。
消息來源 |