幾天前,NVIDIA發布了一篇文章,詳細介紹其最新、最強大的AI晶片GB300 Blackwell Ultra。這款晶片目前已全面投產,並已向主要客戶交付。雖然晶片是 Blackwell解決方案的延伸,但在性能和功能方面確實實現了顯著升級。
就像NVIDIA Super系列是原版RTX遊戲卡的升級版一樣,Ultra系列是最初推出的AI晶片的增強版。 NVIDIA先前的系列產品(例如Hopper和Volta)中並沒有Ultra 產品,但嚴格來說,這些產品線也都有Ultra或增強版。此外儘管Ultra晶片在硬體層面上更勝一籌,但軟體更新和優化也能為非Ultra或非增強版晶片帶來顯著提升。
那麼Blackwell Ultra GB300究竟是什麼?如上文所述,它是一個增強版,利用兩個Reticle尺寸的晶片,並透過NVIDIA的NV-HBI高頻寬界面將它們連接起來,從而呈現出單顆GPU的效果。這款GPU密度極高,採用台積電4NP(針對NVIDIA優化的5nm)製程,總共整合了2,080億個電晶體。 NV-HBI界面為兩個GPU晶片提供 10TB/s的頻寬,同時保持單晶片的運作。
NVIDIA Blackwell Ultra GB300 GPU共包含160個SM,每個SM包含128個CUDA核心、四個第五代Tensor核心(支援FP8、FP6和NVFP4精確度運算)、256KB Tensor記憶體(或TMEM)以及SFU。總計20,480個CUDA核心、640個Tensor核心以及40MB TMEM。
第五代Tensor Core是所有神奇之處的源頭,它負責所有AI計算操作。 NVIDIA在其GPU的每一代Tensor Core中都實現了重大創新,例如:
- NVIDIA Volta: 8執行緒MMA單元,FP16結合FP32累積用於訓練。
- NVIDIA Ampere: 全Warp-Wide MMA、BF16和TensorFloat-32格式。
- NVIDIA Hopper: 跨128個執行緒的Warp-group MMA,支援FP8的Transformer Engine。
- NVIDIA Blackwell:有FP8、FP6、NVFP4運算能力和TMEM記憶體的第二代Transformer引擎
Blackwell Ultra也對記憶體進行了大幅升級,提供288GB的HBM3e容量,而先前Blackwell GB200的解決方案最高僅為192GB。此次升級將使NVIDIA能夠支援數兆參數的AI模型。記憶體採用8層堆疊,配備16個512位元控制器(8192位元頻寬界面),每個GPU的運行速度為8TB/s。此記憶體支援:
- 完整的模型駐留: 300B+參數模型,無需記憶體卸載。
- 擴展上下文長度: Transformer模型的更大KV快取容量。
- 提高運算效率: 針對不同工作負載提供更高的計算與記憶體比率。
Blackwell上的互連與NVLINK交換器提供的NVLINK相同,即NVLINK-C2C,並且也使用PCIe Gen6 x16界面連接主機GPU。以下是NVLINK 5和主機端連線的功能/規格:
- 每個GPU 頻寬: 1.8TB/s雙向(18個連結 x 100GB/s)
- 效能擴展: 比NVLink 4(Hopper GPU)提高2倍
- 最大拓樸: 非阻塞運算結構中的576個GPU
- 機架規模整合: 72-GPU NVL72配置,總頻寬130TB/s
- PCIe界面: Gen6 × 16通道(雙向256GB/s)
- NVLink-C2C: 有記憶體一致性的Grace CPU-GPU通訊(900GB/s)
NVIDIA Blackwell Ultra GB300平台使用新的NVFP4標準,能夠將密集低精度運算 (Dense Low Precision Compute) 的輸出提升50%。新模型可提供接近FP8的精度,且差異通常小於1%。此外與FP8相比,記憶體佔用減少了1.8倍,與FP16相比,減少了3.5倍。
Blackwell Ultra還有先進的調度管理和新的企業級安全功能,例如:
- 增強型GigaThread引擎: 下一代工作調度,可提供改進的上下文切換效能並優化所有160個SM的工作負載分配。
- 多重執行個體GPU (MIG): Blackwell Ultra GPU可以分割為不同大小的MIG執行個體。例如管理員可以建立兩個各配置140GB記憶體的實例、四個各配置70GB 記憶體的實例,或七個各配置34GB記憶體的實例,從而實現安全的多租用戶架構和可預測的效能隔離。
- 機密運算與安全AI: 為敏感的AI模型和資料提供安全且高效的保護,將採用硬體的可信任執行環境 (TEE) 擴展到有Blackwell架構中業界首創的TEE-I/O功能的 GPU,並提供內聯NVLink保護,與未加密模式相比,吞吐量幾乎相同。
- 先進的NVIDIA遠端證明服務 (RAS) 引擎: 由AI驅動的可靠性系統可監控數千個參數,以預測故障、優化維護計劃並最大限度地延長大規模部署中的系統正常運行時間。
效能效率是Blackwell Ultra GB300佔優勢的另一個領域,其提供比Blackwell GB200更高的TPS/MW,如下圖所示:
所有這些都表明,憑藉Blackwell和Blackwell Ultra,NVIDIA已然站在AI領域的巔峰。其深入的軟體支援和優化才是其真正優勢所在,而每年的硬體更新節奏加上持續的研發投入,無疑將在未來幾年內繼續保持領先地位。
消息來源 |