找回密碼註冊
作者: sxs112.tw
查看: 3711
回復: 0

文章分享:

+ MORE精選文章:

    + MORE活動推薦:

    Micron Crucial T710 SSD 玩家開箱體驗分享

    進入疾速前進! 快速邁向終局勝利 使用 Crucial® T710 Gen5 NVMe® ...

    COUGAR ULTIMUS PRO玩家開箱體驗分享活動

    ULTIMUS PRO 終極功能,無限連接 Ultimus Pro 採用簡潔的 98% 鍵盤佈 ...

    COUGAR AIRFACE 180 玩家開箱體驗分享活動

    AIRFACE 180 180mm 風扇,威力加倍 Airface 180 預裝兩顆 180mm PWM ...

    COUGAR GR 750/GR 850 玩家開箱體驗分享活

    ATX 3.1 兼容,穩定供電無憂 COUGAR GR 系列通過 80 PLUS 金牌認證 ...

    打印 上一主題 下一主題

    [顯示卡器] NVIDIA Blackwell Ultra詳情:20K Cores,288GB HBM3e,速度為8TB/s,比GB200快50%

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#
    sxs112.tw 發表於 2025-8-25 14:48:49 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
    幾天前,NVIDIA發布了一篇文章,詳細介紹其最新、最強大的AI晶片GB300 Blackwell Ultra。這款晶片目前已全面投產,並已向主要客戶交付。雖然晶片是 Blackwell解決方案的延伸,但在性能和功能方面確實實現了顯著升級。
    NVIDIA-Blackwell-GPUs.png

    就像NVIDIA Super系列是原版RTX遊戲卡的升級版一樣,Ultra系列是最初推出的AI晶片的增強版。 NVIDIA先前的系列產品(例如Hopper和Volta)中並沒有Ultra 產品,但嚴格來說,這些產品線也都有Ultra或增強版。此外儘管Ultra晶片在硬體層面上更勝一籌,但軟體更新和優化也能為非Ultra或非增強版晶片帶來顯著提升。
    ConnectX-8-SuperNICs-png.jpg

    那麼Blackwell Ultra GB300究竟是什麼?如上文所述,它是一個增強版,利用兩個Reticle尺寸的晶片,並透過NVIDIA的NV-HBI高頻寬界面將它們連接起來,從而呈現出單顆GPU的效果。這款GPU密度極高,採用台積電4NP(針對NVIDIA優化的5nm)製程,總共整合了2,080億個電晶體。 NV-HBI界面為兩個GPU晶片提供 10TB/s的頻寬,同時保持單晶片的運作。
    NVIDIA-Blackwell-Ultra-GB300.png

    NVIDIA Blackwell Ultra GB300 GPU共包含160個SM,每個SM包含128個CUDA核心、四個第五代Tensor核心(支援FP8、FP6和NVFP4精確度運算)、256KB Tensor記憶體(或TMEM)以及SFU。總計20,480個CUDA核心、640個Tensor核心以及40MB TMEM。
    Blackwell-Ultra-SM-architecture.jpg

    第五代Tensor Core是所有神奇之處的源頭,它負責所有AI計算操作。 NVIDIA在其GPU的每一代Tensor Core中都實現了重大創新,例如:
    • NVIDIA Volta:  8執行緒MMA單元,FP16結合FP32累積用於訓練。
    • NVIDIA Ampere: 全Warp-Wide MMA、BF16和TensorFloat-32格式。
    • NVIDIA Hopper: 跨128個執行緒的Warp-group MMA,支援FP8的Transformer Engine。
    • NVIDIA Blackwell:有FP8、FP6、NVFP4運算能力和TMEM記憶體的第二代Transformer引擎


    Blackwell Ultra也對記憶體進行了大幅升級,提供288GB的HBM3e容量,而先前Blackwell GB200的解決方案最高僅為192GB。此次升級將使NVIDIA能夠支援數兆參數的AI模型。記憶體採用8層堆疊,配備16個512位元控制器(8192位元頻寬界面),每個GPU的運行速度為8TB/s。此記憶體支援:
    capacity-scaling-png.jpg

    • 完整的模型駐留:  300B+參數模型,無需記憶體卸載。
    • 擴展上下文長度:  Transformer模型的更大KV快取容量。
    • 提高運算效率: 針對不同工作負載提供更高的計算與記憶體比率。


    Blackwell上的互連與NVLINK交換器提供的NVLINK相同,即NVLINK-C2C,並且也使用PCIe Gen6 x16界面連接主機GPU。以下是NVLINK 5和主機端連線的功能/規格:
    • 每個GPU 頻寬:  1.8TB/s雙向(18個連結 x 100GB/s)
    • 效能擴展: 比NVLink 4(Hopper GPU)提高2倍
    • 最大拓樸: 非阻塞運算結構中的576個GPU
    • 機架規模整合:  72-GPU NVL72配置,總頻寬130TB/s
    • PCIe界面:  Gen6 × 16通道(雙向256GB/s)
    • NVLink-C2C: 有記憶體一致性的Grace CPU-GPU通訊(900GB/s)


    NVIDIA Blackwell Ultra GB300平台使用新的NVFP4標準,能夠將密集低精度運算 (Dense Low Precision Compute) 的輸出提升50%。新模型可提供接近FP8的精度,且差異通常小於1%。此外與FP8相比,記憶體佔用減少了1.8倍,與FP16相比,減少了3.5倍。

    Blackwell Ultra還有先進的調度管理和新的企業級安全功能,例如:
    • 增強型GigaThread引擎: 下一代工作調度,可提供改進的上下文切換效能並優化所有160個SM的工作負載分配。
    • 多重執行個體GPU (MIG):  Blackwell Ultra GPU可以分割為不同大小的MIG執行個體。例如管理員可以建立兩個各配置140GB記憶體的實例、四個各配置70GB 記憶體的實例,或七個各配置34GB記憶體的實例,從而實現安全的多租用戶架構和可預測的效能隔離。
    • 機密運算與安全AI: 為敏感的AI模型和資料提供安全且高效的保護,將採用硬體的可信任執行環境 (TEE) 擴展到有Blackwell架構中業界首創的TEE-I/O功能的 GPU,並提供內聯NVLink保護,與未加密模式相比,吞吐量幾乎相同。
    • 先進的NVIDIA遠端證明服務 (RAS) 引擎: 由AI驅動的可靠性系統可監控數千個參數,以預測故障、優化維護計劃並最大限度地延長大規模部署中的系統正常運行時間。

    效能效率是Blackwell Ultra GB300佔優勢的另一個領域,其提供比Blackwell GB200更高的TPS/MW,如下圖所示:
    1.png


    2.png


    3.png


    4.png

    所有這些都表明,憑藉Blackwell和Blackwell Ultra,NVIDIA已然站在AI領域的巔峰。其深入的軟體支援和優化才是其真正優勢所在,而每年的硬體更新節奏加上持續的研發投入,無疑將在未來幾年內繼續保持領先地位。

    消息來源
    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2025-12-5 18:14 , Processed in 0.082129 second(s), 33 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表