AMD Instinct MI350 GPU：採用CDNA4的3nm 3D Chiplet、1850億電晶體、1400W TBP、288GB HBM3e

sxs112.tw · 發表於 2025-8-27 09:28:39

AMD的Instinct MI350 AI加速器採用CDNA4架構，在Hot Chips 2025上AMD對其速度和饋送進行了詳細介紹。

AMD推出Instinct MI350系列僅兩個月，這是一款採用加速器和CDNA4架構的旗艦AI工作負載 GPU。今天在Hot Chips大會上AMD進一步深入探討了這款AI強悍處理器的細節。

所以從MI350系列的開發開始，顯然是為了AI，但更準確地說是為了LLM，因為模型規模每年都在成長。解決這些問題的兩個關鍵因素是：在資料類型格式方面進行創新，另一個是簡單地增加晶片的記憶體規模。 AMD不僅實現了這兩個目標，還做了更多其他事情。

因此採用CDNA4的AMD Instinct MI350系列加速器提升了AI工作負載的效能和效率。它們擴展了HBM頻寬和容量，以更高的速度支援在更大模型上進行更快的 AI訓練和推理，同時也提高了能源效率和效能。

透過降低非核心功耗、實現更寬的無限結構以在更節能的頻率下實現更高的頻寬、以及支援較低精度的資料格式（如全訪問FP8）和行業標準的微型MXFP6和MXFP4資料類型，實現了更快的效能。

AMD提供兩種型號的MI350系列，MI350X是風冷型號，有1000W TBP和最大時脈速度2.2GHz，而高階MI355X則針對液冷資料中心，有最大TBP 1400W和最大時脈速度2.4GHz。

這款晶片是AMD架構上的傑作，它充分利用了AMD在Chiplet領域多年的工程經驗，並藉助合作夥伴在先進封裝方面的雄厚實力。晶片本身整合了1850億個電晶體管，採用3D多Chiplet設計，包含兩種Chiplet類型，並配備HBM3e。 MI350系列採用3nm + 6nm雙製程，並採用成熟的COWOS-S封裝技術。

仔細分析晶片，我們首先看到的是XCD（加速器複合晶片），它們是採用台積電的N3P 3nm製程技術。單一MI350X/MI355X封裝上有8個XCD，每個IOD封裝上有4個 IOD（AMD I/O基礎晶片）採用台積電的6nm FinFET N6製程技術，憑藉其成熟的製程，使其成為一款極具成本效益的晶片，在良率和成本方面均達到最優。每個封裝有兩個XCD。 IOD封裝了Infinity Fabric AP互連。

封裝上總共有8個HBM3E點，每個IOD連接到4個點。最後還有一個主中介層或封裝，整個矽片都安放在其上。

深入研究I/O晶片，其中有兩個，每個都配備三個Infinity Fabric鏈路和一個PCIe Gen5鏈路，可連接到AMD EPYC主機（128GB/s）。此外還有四個HBM3E記憶體控制器，每個控制器連接到12-Hi堆疊，該堆疊包含36GB容量，以8Gbps的速度運行，頻寬高達8.0TB/s。此晶片搭載288GB HBM3e容量。

兩個IO晶片均採用Infinity Fabric（高級封裝）互連技術連接，可提供5.5TB/s的對分頻寬。 IO晶片也搭載256MB AMD Infinity Cache。 Infinity Fabric連結採用第四代插槽間連結，可為XCD提供1075GB/s的雙向聚合頻寬。

MI350系列晶片每個XCD共包含32個AMD CDNA 4計算單元，總計256個計算單元，每個CU包含128個處理器，總計16,384個核心。這些核心數量低於MI325和MI300系列，後者包含304個計算單元，最大核心數為19,456個。這些計算單元被分割為八個區域，每個區域都有各自的XCD，每個XCD包含32個計算單元。此外MI355X級解決方案還擁有1024個矩陣核心，核心最高頻率可達2.4 GHz。

XCD搭載的內部記憶體系統包括129KiB的VGPR / SIMD、512KiB的向量暫存器/計算單元、160KiB的邏輯資料結構/計算單元 (537GB/s)、每個計算單元32KiB的L1快取以及每個XCD 4MiB的共享L2快取。因此：

131MB向量寄存器（全晶片）
40MB LDS（全晶片）
8MB L1（全晶片）
32MB L2（全晶片）
256MB 無限快取（全晶片）

接下來AMD分享了其MI355X與MI300X的資料格式和運算效能加速：

Vector FP16: 157.3 TFLOPs (1.0x)
Matrix FP16/BF16: 2.5 PFLOPs (1.9x)
Matrix FP8: 5.0 PFLOPs (1.9x)
Matrix INT8/INT4: 5.0 PFLOPs (1.9x)
Matrix MXFP6/MXFP4: 10 PFLOPs (New)
Vector FP64: 78.6 TFLOPs (1.0x)
Matrix FP64: 78.6 TFLOPs (0.5x)
Vector FP32: 157.3 TFLOPs (1.0x)
Matrix FP32: 157.3 TFLOPs (1.0x)

與NVIDIA的GB200 SXM系統相比，MI355X OAM解決方案在AI和HPC效能方面提供了2.1倍的運算輸出。

您可以在下面看到 Instinct MI350 系列 GPU 的 SoC 框圖：

AMD Instinct MI350系列AI加速器還支援每個插槽靈活的GPU分區，可將記憶體劃分為兩個獨立的叢集。這種靈活性也適用於GPU或XCD，您可以將四路XCD叢集分離，或將其分割為雙路或單路區塊，從而使該晶片能夠在CPX+NPS2中支援8個70B模型實例。

Infinity Fabric連接還允許8個加速器以154GB/s的雙向鏈路進行通信，與上一代相比速度提高了20%。

AMD也詳細介紹了每顆晶片的組裝流程，從矽片的3D封裝到封裝組裝，再到OAM組裝，以及最終的散熱器連接階段。這些OAM隨後會被裝入大型UBB (2.0)，這是一種通用基板，最多可容納8個加速器。這些加速器會進入業界標準的主機節點，最終被安裝到資料中心可用的EIA機架。

僅就AI運算能力的提升而言，AMD聲稱Instinct MI350系列提供20 PFLOP的FP4/FP6運算能力，效能比上一代提升了4倍。 HBM3e記憶體技術可帶來更快的資料傳輸速度，兩種型號均擁有288GB的超大容量。此外晶片上還配備了256MB的全新Infinity Cache。

4U選項還可適用於現有的UBB8，UBB8目前裝有MI300X AC 750W和MI325X AC 1000W加速器。

最終確定的系統有兩種。 MI350X平台提供高達36.9 FP16/BF16和73.9 FP8 PFLOP，並可擴展至10U風冷解決方案。 MI355X平台提供高達40.2 FP16/BF16和 80.5 FP8 PFLOP，並可擴展至5U DLC（直接液冷）解決方案。兩個平台均提供2.25TB HBM3e記憶體和1075GB/s的Infinity Fabric頻寬。這些解決方案均搭載 AMD最新、最強大的第五代EPYC CPU，配備Zen5核心和Pensando UEC就緒網路卡。

AMD MI350機架基礎架構配備 PYC CPU、Instinct GPU和UEC Scale-Out NIC，符合開放標準。

以下是與競爭對手相比的數據：

MI355x與B200：

記憶體：高1.6倍
頻寬：高1.0倍
FP64：高2.1倍
FP16：高1.1倍
FP8：高1.1倍
FP6：高出2.2倍
FP4：高1.1倍

MI355x與GB200比較：

記憶體：高1.6倍
頻寬：高1.0倍
FP64：高2.0倍
FP16：高1.0倍
FP8：高1.0倍
FP6：高出2.0倍
FP4：高1.0倍

圖表顯示了 AMD Instinct MI350 GPU 在以下 AI 型號中的效能提升：DeepSeek、Llama 3.3、Llama 4。

但Instinct MI355X與上一代MI300系列相比如何呢？ AMD剛剛展示了使用Llama 3.1 405B（吞吐量）的推理性能實現了35倍的巨大飛躍，這是一個巨大的提升。

AMD已經證實MI350系列將於2025年第三季開始透過各種合作夥伴上市。下一代MI400系列已在開發中，計劃於2026年推出。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

GO27Q24G Gaming Monitor 玩家開箱體驗分享

Micron Crucial T710 SSD 玩家開箱體驗分享

COUGAR ULTIMUS PRO玩家開箱體驗分享活動

COUGAR AIRFACE 180 玩家開箱體驗分享活動

[顯示卡器] AMD Instinct MI350 GPU：採用CDNA4的3nm 3D Chiplet、1850億電晶體、1400W TBP、288GB HBM3e

瀏覽過的版塊