找回密碼註冊
作者: sxs112.tw
查看: 4425
回復: 0

文章分享:

+ MORE精選文章:

    + MORE活動推薦:

    Micron Crucial T710 SSD 玩家開箱體驗分享

    進入疾速前進! 快速邁向終局勝利 使用 Crucial® T710 Gen5 NVMe® ...

    COUGAR ULTIMUS PRO玩家開箱體驗分享活動

    ULTIMUS PRO 終極功能,無限連接 Ultimus Pro 採用簡潔的 98% 鍵盤佈 ...

    COUGAR AIRFACE 180 玩家開箱體驗分享活動

    AIRFACE 180 180mm 風扇,威力加倍 Airface 180 預裝兩顆 180mm PWM ...

    COUGAR GR 750/GR 850 玩家開箱體驗分享活

    ATX 3.1 兼容,穩定供電無憂 COUGAR GR 系列通過 80 PLUS 金牌認證 ...

    打印 上一主題 下一主題

    [顯示卡器] AMD Instinct MI350 GPU:採用CDNA4的3nm 3D Chiplet、1850億電晶體、1400W TBP、288GB HBM3e

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#
    sxs112.tw 發表於 2025-8-27 09:28:39 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
    AMD的Instinct MI350 AI加速器採用CDNA4架構,在Hot Chips 2025上AMD對其速度和饋送進行了詳細介紹。
    2025-08-26_21-04-29-scaled.png

    AMD推出Instinct MI350系列僅兩個月,這是一款採用加速器和CDNA4架構的旗艦AI工作負載 GPU。今天在Hot Chips大會上AMD進一步深入探討了這款AI強悍處理器的細節。
    2025-08-26_21-04-34-scaled.png


    2025-08-26_21-04-35-scaled.png

    所以從MI350系列的開發開始,顯然是為了AI,但更準確地說是為了LLM,因為模型規模每年都在成長。解決這些問題的兩個關鍵因素是:在資料類型格式方面進行創新,另一個是簡單地增加晶片的記憶體規模。 AMD不僅實現了這兩個目標,還做了更多其他事情。
    2025-08-26_21-04-37-scaled.png

    因此採用CDNA4的AMD Instinct MI350系列加速器提升了AI工作負載的效能和效率。它們擴展了HBM頻寬和容量,以更高的速度支援在更大模型上進行更快的 AI訓練和推理,同時也提高了能源效率和效能。
    2025-08-26_21-04-38-scaled.png

    透過降低非核心功耗、實現更寬的無限結構以在更節能的頻率下實現更高的頻寬、以及支援較低精度的資料格式(如全訪問FP8)和行業標準的微型MXFP6和MXFP4資料類型,實現了更快的效能。

    AMD提供兩種型號的MI350系列,MI350X是風冷型號,有1000W TBP和最大時脈速度2.2GHz,而高階MI355X則針對液冷資料中心,有最大TBP 1400W和最大時脈速度2.4GHz。
    2025-08-26_21-04-40-scaled.png

    這款晶片是AMD架構上的傑作,它充分利用了AMD在Chiplet領域多年的工程經驗,並藉助合作夥伴在先進封裝方面的雄厚實力。晶片本身整合了1850億個電晶體管,採用3D多Chiplet設計,包含兩種Chiplet類型,並配備HBM3e。 MI350系列採用3nm + 6nm雙製程,並採用成熟的COWOS-S封裝技術。
    2025-08-26_21-04-46-scaled.png

    仔細分析晶片,我們首先看到的是XCD(加速器複合晶片),它們是採用台積電的N3P 3nm製程技術。單一MI350X/MI355X封裝上有8個XCD,每個IOD封裝上有4個 IOD(AMD I/O基礎晶片)採用台積電的6nm FinFET N6製程技術,憑藉其成熟的製程,使其成為一款極具成本效益的晶片,在良率和成本方面均達到最優。每個封裝有兩個XCD。 IOD封裝了Infinity Fabric AP互連。
    2025-08-26_21-04-42-scaled.png

    封裝上總共有8個HBM3E點,每個IOD連接到4個點。最後還有一個主中介層或封裝,整個矽片都安放在其上。

    深入研究I/O晶片,其中有兩個,每個都配備三個Infinity Fabric鏈路和一個PCIe Gen5鏈路,可連接到AMD EPYC主機(128GB/s)。此外還有四個HBM3E記憶體控制器,每個控制器連接到12-Hi堆疊,該堆疊包含36GB容量,以8Gbps的速度運行,頻寬高達8.0TB/s。此晶片搭載288GB HBM3e容量。

    兩個IO晶片均採用Infinity Fabric(高級封裝)互連技術連接,可提供5.5TB/s的對分頻寬。 IO晶片也搭載256MB AMD Infinity Cache。 Infinity Fabric連結採用第四代插槽間連結,可為XCD提供1075GB/s的雙向聚合頻寬。
    2025-08-26_21-04-50-scaled.png


    MI350系列晶片每個XCD共包含32個AMD CDNA 4計算單元,總計256個計算單元,每個CU包含128個處理器,總計16,384個核心。這些核心數量低於MI325和MI300系列,後者包含304個計算單元,最大核心數為19,456個。這些計算單元被分割為八個區域,每個區域都有各自的XCD,每個XCD包含32個計算單元。此外MI355X級解決方案還擁有1024個矩陣核心,核心最高頻率可達2.4 GHz。
    2025-08-26_21-04-44-scaled.png

    XCD搭載的內部記憶體系統包括129KiB的VGPR / SIMD、512KiB的向量暫存器/計算單元、160KiB的邏輯資料結構/計算單元 (537GB/s)、每個計算單元32KiB的L1快取以及每個XCD 4MiB的共享L2快取。因此:
    • 131MB向量寄存器(全晶片)
    • 40MB LDS(全晶片)
    • 8MB L1(全晶片)
    • 32MB L2(全晶片)
    • 256MB 無限快取(全晶片)


    2025-08-26_21-04-43-scaled.png

    接下來AMD分享了其MI355X與MI300X的資料格式和運算效能加速:
    • Vector FP16: 157.3 TFLOPs (1.0x)
    • Matrix FP16/BF16: 2.5 PFLOPs (1.9x)
    • Matrix FP8: 5.0 PFLOPs (1.9x)
    • Matrix INT8/INT4: 5.0 PFLOPs (1.9x)
    • Matrix MXFP6/MXFP4: 10 PFLOPs (New)
    • Vector FP64: 78.6 TFLOPs (1.0x)
    • Matrix FP64: 78.6 TFLOPs (0.5x)
    • Vector FP32: 157.3 TFLOPs (1.0x)
    • Matrix FP32: 157.3 TFLOPs (1.0x)

    2025-08-26_21-04-47-scaled.png

    與NVIDIA的GB200 SXM系統相比,MI355X OAM解決方案在AI和HPC效能方面提供了2.1倍的運算輸出。

    您可以在下面看到 Instinct MI350 系列 GPU 的 SoC 框圖:
    2025-08-26_21-04-50-scaled (1).png

    AMD Instinct MI350系列AI加速器還支援每個插槽靈活的GPU分區,可將記憶體劃分為兩個獨立的叢集。這種靈活性也適用於GPU或XCD,您可以將四路XCD叢集分離,或將其分割為雙路或單路區塊,從而使該晶片能夠在CPX+NPS2中支援8個70B模型實例。
    2025-08-26_21-04-51-scaled.png


    2025-08-26_21-04-54-scaled.png


    2025-08-26_21-04-56-scaled.png

    Infinity Fabric連接還允許8個加速器以154GB/s的雙向鏈路進行通信,與上一代相比速度提高了20%。
    2025-08-26_21-04-57-scaled.png


    2025-08-26_21-04-59-scaled.png


    2025-08-26_21-05-01-scaled.png


    2025-08-26_21-05-03-scaled.png


    2025-08-26_21-05-06-scaled.png

    AMD也詳細介紹了每顆晶片的組裝流程,從矽片的3D封裝到封裝組裝,再到OAM組裝,以及最終的散熱器連接階段。這些OAM隨後會被裝入大型UBB (2.0),這是一種通用基板,最多可容納8個加速器。這些加速器會進入業界標準的主機節點,最終被安裝到資料中心可用的EIA機架。

    僅就AI運算能力的提升而言,AMD聲稱Instinct MI350系列提供20 PFLOP的FP4/FP6運算能力,效能比上一代提升了4倍。 HBM3e記憶體技術可帶來更快的資料傳輸速度,兩種型號均擁有288GB的超大容量。此外晶片上還配備了256MB的全新Infinity Cache。

    4U選項還可適用於現有的UBB8,UBB8目前裝有MI300X AC 750W和MI325X AC 1000W加速器。
    2025-08-26_21-05-10-scaled.png

    最終確定的系統有兩種。 MI350X平台提供高達36.9 FP16/BF16和73.9 FP8 PFLOP,並可擴展至10U風冷解決方案。 MI355X平台提供高達40.2 FP16/BF16和 80.5 FP8 PFLOP,並可擴展至5U DLC(直接液冷)解決方案。兩個平台均提供2.25TB HBM3e記憶體和1075GB/s的Infinity Fabric頻寬。這些解決方案均搭載 AMD最新、最強大的第五代EPYC CPU,配備Zen5核心和Pensando UEC就緒網路卡。
    2025-08-26_21-05-14-scaled.png

    AMD MI350機架基礎架構配備 PYC CPU、Instinct GPU和UEC Scale-Out NIC,符合開放標準。

    以下是與競爭對手相比的數據:

    MI355x與B200:
    • 記憶體:高1.6倍
    • 頻寬:高1.0倍
    • FP64:高2.1倍
    • FP16:高1.1倍
    • FP8:高1.1倍
    • FP6:高出2.2倍
    • FP4:高1.1倍


    MI355x與GB200比較:
    • 記憶體:高1.6倍
    • 頻寬:高1.0倍
    • FP64:高2.0倍
    • FP16:高1.0倍
    • FP8:高1.0倍
    • FP6:高出2.0倍
    • FP4:高1.0倍

    圖表顯示了 AMD Instinct MI350 GPU 在以下 AI 型號中的效能提升:DeepSeek、Llama 3.3、Llama 4。
    2025-08-26_21-05-20-scaled.png


    2025-08-26_21-05-22-scaled.png


    2025-08-26_21-05-23-scaled.png

    但Instinct MI355X與上一代MI300系列相比如何呢? AMD剛剛展示了使用Llama 3.1 405B(吞吐量)的推理性能實現了35倍的巨大飛躍,這是一個巨大的提升。
    2025-08-26_21-05-26-scaled.png

    AMD已經證實MI350系列將於2025年第三季開始透過各種合作夥伴上市。下一代MI400系列已在開發中,計劃於2026年推出。

    消息來源
    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2025-12-5 15:03 , Processed in 0.091467 second(s), 33 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表