找回密碼註冊
作者: lin.sinchen
查看: 4673
回復: 0

文章標籤:

文章分享:

+ MORE精選文章:

    + MORE活動推薦:

    Micron Crucial T710 SSD 玩家開箱體驗分享

    進入疾速前進! 快速邁向終局勝利 使用 Crucial® T710 Gen5 NVMe® ...

    COUGAR ULTIMUS PRO玩家開箱體驗分享活動

    ULTIMUS PRO 終極功能,無限連接 Ultimus Pro 採用簡潔的 98% 鍵盤佈 ...

    COUGAR AIRFACE 180 玩家開箱體驗分享活動

    AIRFACE 180 180mm 風扇,威力加倍 Airface 180 預裝兩顆 180mm PWM ...

    COUGAR GR 750/GR 850 玩家開箱體驗分享活

    ATX 3.1 兼容,穩定供電無憂 COUGAR GR 系列通過 80 PLUS 金牌認證 ...

    打印 上一主題 下一主題

    [業界新聞] AMD Advancing AI 2025 發表 Instinct MI350 加速器打造全 AMD 硬體開源軟體 AI 解決方案

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#


    AMD Advancing AI 2025 大會中提到:「只有 AMD 能夠提供完整涵蓋 CPU、GPU、網路與開源軟體的 AI 靈活、效能解決方案。」,此次發表主要以 AMD Instinct MI350 系列加速器、ROCm 7 更新與網路等更新。

    關於加速器的規劃,AMD 承諾 2025 年推出 Instinct MI350 系列加速器,而在 2026 年則會有著下一代 MI400 等產品。



    新推出的 AMD Instinct MI350 系列將包含 MI350X 與 MI355X GPU,採用 CDNA 4 架構、3nm 製程節點、有著 185B 個電晶體,新支援 FP4 與 FP6 資料格式,並整合 HBM3E 高頻寬記憶體。

    這兩款 GPU 在功耗上有著明顯差異,連帶也影響著不同精度的運算效能表現。採用的 CDNA 4 GPU 架構 主要在強化 Matrix 引擎讓 GenAI、LLM 有著更好的表現,並增加新的資料格式,強化 Infinity Fabric 與先進封裝連接等技術,當然也強化電源使用效率。







    MI350 維持 COWOS-S 封裝技術,加速運算單元 XCD 採用 N3P 製程並堆疊在 N6 製程的 I/O 晶片 IOD 之上,並藉由 Infinity Fabric AP 進行兩個 GPU 核心連接,同時 2.5D 封裝 HBM3E 記憶體顆粒。



    MI350 GPU 架構採用 8 x 32 個 AMD CDNA 4 CU 運算單元,並有著 2 組 I/O Die 提供 128 通道 HBM3E 記憶體介面、256MB Infinity Cache 與 IInfinity Fabric Links。

    HBM3E 記憶體有著 8 個物理堆疊提供 288GB 容量 8TBs 的速度;兩組 XCD 使用 Infinity Fabric AP 內部連接,並提供 HOST PCIe 5.0 128GB 連接性,以及 Infinity Fabric 彈性擴充 GPU 的連接能力。



    MI350 核心區塊圖,則是 8 組 XCD 內部有著多個 CU 運算單元與獨立 4MB L2 快取,通過 Infinity Fabric 互相連接將 Infinity  Cache 做為 HBM3E 記憶體的緩衝。

    並使用 1 個 PCIe Gen5 x16 連接,提供 7 個 IF Links 可擴充更多的 MI350 GPU。



    MI350 有著更彈性的 GPU 分區規劃,主要支援 NPS1 與 NPS2,最多可分配 8 個分區,讓用戶可依據需求來彈性配置。

    像是使用 SPX + NPS1 單一分區時可支援 520B 參數的 AI 模型;或者使用 CPX + NPS2 分去可支援 8 個 Llama 3.1 70B 模型實例。



    MI350 支援的資料格式與上一代 MI300 比較,主要有著新增 FP6/FP4 格式,並針對 AI 主力的精度有著效能提升。



    平台方面最多可擴充 8 個 MI350 GPU,GPU 內部通過 Infinity Fabric 內部雙向連接,並分別通過 PCIe Gen5 雙向與 CPU 連接。並提供空冷 4U Tray 與 DLC 液冷 1OU 與 2U Tray 等形式。



    AMD Instinct MI350 系列 Rack Infrastructure,藉由 AMD EPYC x86 處理器,搭配 Instinct MI350 GPU 以及 AMD Pollara NIC,藉由 OCP Design 與 UEC 支援,提供完整的開放機架。



    MI350 系列則分為 MI355X DLC 與 MI350X AC 解決方案兩種。MI355X DLC 液冷機架最高可達到 128x MI355X GPU 的最大化效能,至於空冷 MI350X AC 則是最高 64x MI350X GPU。



    效能方面 MI355X 相比 GB200 與 B200 有著相近的記憶體容量與頻寬,但在 PEAK FP64 / FP32 有著 2x 倍的提升,至於 FP16 / FP8 / FP4 都是 1x 唯獨 FP6 是 2x。



    各種 AI 應用方面,MI355X 相比上一代 MI300X 可有著 3x 倍效能提升,像是 AI Agent、聊天機器人、內容生成、模擬、摘要、對話式 AI 等應用。



    主流的幾個 AI 模型在推論效能上,MI355X 相比上一代在 DeepSeek R1 有著 3x 提升、Llama 3.3 70B 模型 3.2x、Llama 4 Maverick 3.3x 倍提升。



    MI355X 在主流的超大模型中相比 B200 可有著 1.2-1.3x 倍的提升,而且是在新加入的 FP4 精度上的效能領先,至於相比 GB200 則是效能相當的表現。Instinct MI355X 相比 B200 有著 40% 更多的每元 Tokens/$。





    針對模型的 Pre-Training 與 Fine-Tuning,MI355X 相比上一代 MI300X 在各種主流模型中有著 3x 倍的效能提升。



    Pre-Training FP8、FP16 等格式 MI355X 效能與 B200 相當;Fine-Tuning FP8 格式 Llama 2 70B 模型時,MI355X 則比起 B200 與 GB200 的效能約提升 1.1x 倍。



    AMD Instinct MI350 系列解決方案將在 Q3 由合作夥伴推出,同時 AMD 也提到明年 2026 會推出 Helios 機架產品,包含新一代 EPYC、MI400 與 Vulcano 等產品。




    更多圖片 小圖 大圖
    組圖打開中,請稍候......
    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2025-12-5 13:30 , Processed in 0.216765 second(s), 67 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表