NVIDIA Blackwell Ultra詳情：20K Cores，288GB HBM3e，速度為8TB/s，比GB200快50%

sxs112.tw · 發表於 2025-8-25 14:48:49

幾天前，NVIDIA發布了一篇文章，詳細介紹其最新、最強大的AI晶片GB300 Blackwell Ultra。這款晶片目前已全面投產，並已向主要客戶交付。雖然晶片是 Blackwell解決方案的延伸，但在性能和功能方面確實實現了顯著升級。

就像NVIDIA Super系列是原版RTX遊戲卡的升級版一樣，Ultra系列是最初推出的AI晶片的增強版。 NVIDIA先前的系列產品（例如Hopper和Volta）中並沒有Ultra 產品，但嚴格來說，這些產品線也都有Ultra或增強版。此外儘管Ultra晶片在硬體層面上更勝一籌，但軟體更新和優化也能為非Ultra或非增強版晶片帶來顯著提升。

那麼Blackwell Ultra GB300究竟是什麼？如上文所述，它是一個增強版，利用兩個Reticle尺寸的晶片，並透過NVIDIA的NV-HBI高頻寬界面將它們連接起來，從而呈現出單顆GPU的效果。這款GPU密度極高，採用台積電4NP（針對NVIDIA優化的5nm）製程，總共整合了2,080億個電晶體。 NV-HBI界面為兩個GPU晶片提供 10TB/s的頻寬，同時保持單晶片的運作。

NVIDIA Blackwell Ultra GB300 GPU共包含160個SM，每個SM包含128個CUDA核心、四個第五代Tensor核心（支援FP8、FP6和NVFP4精確度運算）、256KB Tensor記憶體（或TMEM）以及SFU。總計20,480個CUDA核心、640個Tensor核心以及40MB TMEM。

第五代Tensor Core是所有神奇之處的源頭，它負責所有AI計算操作。 NVIDIA在其GPU的每一代Tensor Core中都實現了重大創新，例如：

NVIDIA Volta： 8執行緒MMA單元，FP16結合FP32累積用於訓練。
NVIDIA Ampere：全Warp-Wide MMA、BF16和TensorFloat-32格式。
NVIDIA Hopper：跨128個執行緒的Warp-group MMA，支援FP8的Transformer Engine。
NVIDIA Blackwell：有FP8、FP6、NVFP4運算能力和TMEM記憶體的第二代Transformer引擎

Blackwell Ultra也對記憶體進行了大幅升級，提供288GB的HBM3e容量，而先前Blackwell GB200的解決方案最高僅為192GB。此次升級將使NVIDIA能夠支援數兆參數的AI模型。記憶體採用8層堆疊，配備16個512位元控制器（8192位元頻寬界面），每個GPU的運行速度為8TB/s。此記憶體支援：

完整的模型駐留： 300B+參數模型，無需記憶體卸載。
擴展上下文長度： Transformer模型的更大KV快取容量。
提高運算效率：針對不同工作負載提供更高的計算與記憶體比率。

Blackwell上的互連與NVLINK交換器提供的NVLINK相同，即NVLINK-C2C，並且也使用PCIe Gen6 x16界面連接主機GPU。以下是NVLINK 5和主機端連線的功能/規格：

每個GPU 頻寬：  1.8TB/s雙向（18個連結 x 100GB/s）
效能擴展：比NVLink 4（Hopper GPU）提高2倍
最大拓樸：非阻塞運算結構中的576個GPU
機架規模整合：  72-GPU NVL72配置，總頻寬130TB/s
PCIe界面：  Gen6 × 16通道（雙向256GB/s）
NVLink-C2C：有記憶體一致性的Grace CPU-GPU通訊（900GB/s)

NVIDIA Blackwell Ultra GB300平台使用新的NVFP4標準，能夠將密集低精度運算 (Dense Low Precision Compute) 的輸出提升50%。新模型可提供接近FP8的精度，且差異通常小於1%。此外與FP8相比，記憶體佔用減少了1.8倍，與FP16相比，減少了3.5倍。

Blackwell Ultra還有先進的調度管理和新的企業級安全功能，例如：

增強型GigaThread引擎：下一代工作調度，可提供改進的上下文切換效能並優化所有160個SM的工作負載分配。
多重執行個體GPU (MIG)： Blackwell Ultra GPU可以分割為不同大小的MIG執行個體。例如管理員可以建立兩個各配置140GB記憶體的實例、四個各配置70GB 記憶體的實例，或七個各配置34GB記憶體的實例，從而實現安全的多租用戶架構和可預測的效能隔離。
機密運算與安全AI：為敏感的AI模型和資料提供安全且高效的保護，將採用硬體的可信任執行環境 (TEE) 擴展到有Blackwell架構中業界首創的TEE-I/O功能的 GPU，並提供內聯NVLink保護，與未加密模式相比，吞吐量幾乎相同。
先進的NVIDIA遠端證明服務 (RAS) 引擎：由AI驅動的可靠性系統可監控數千個參數，以預測故障、優化維護計劃並最大限度地延長大規模部署中的系統正常運行時間。

效能效率是Blackwell Ultra GB300佔優勢的另一個領域，其提供比Blackwell GB200更高的TPS/MW，如下圖所示：

所有這些都表明，憑藉Blackwell和Blackwell Ultra，NVIDIA已然站在AI領域的巔峰。其深入的軟體支援和優化才是其真正優勢所在，而每年的硬體更新節奏加上持續的研發投入，無疑將在未來幾年內繼續保持領先地位。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

GO27Q24G Gaming Monitor 玩家開箱體驗分享

Micron Crucial T710 SSD 玩家開箱體驗分享

COUGAR ULTIMUS PRO玩家開箱體驗分享活動

COUGAR AIRFACE 180 玩家開箱體驗分享活動

[顯示卡器] NVIDIA Blackwell Ultra詳情：20K Cores，288GB HBM3e，速度為8TB/s，比GB200快50%

瀏覽過的版塊