NVIDIA 在 MLPerf Training v5.1 基準測試中全面奪冠

Kimi · 發表於 2025-11-16 11:00:00

NVIDIA Blackwell Ultra 搭配 NVFP4 技術，為大型語言模型訓練帶來突破性躍進

在人工智慧（AI）推理的時代，訓練更聰明、更強大的模型對於擴展智慧而言至關重要。為了滿足這個新時代的強大效能需求，需要在GPU、CPU、網路介面卡（NIC）、網路的垂直擴展（scale-up）和水平擴展（scale-out）、系統架構，以及大量的軟體和演算法等方面取得突破性進展。

NVIDIA在MLPerf Training v5.1中橫掃全部七項測試，於大型語言模型（LLM）、圖像生成、推薦系統、電腦視覺和圖像神經網路等領域均創下最快的訓練速度。MLPerf Training v5.1為持續多年舉辦的AI訓練效能業界基準測試中最新一輪。

NVIDIA亦是唯一在所有測試項目中都提交結果的平台，彰顯NVIDIA GPU強大的可程式化特性，以及其CUDA軟體堆疊的成熟度和通用性。

NVIDIA Blackwell Ultra再寫佳績
基於NVIDIA Blackwell Ultra GPU架構的GB300 NVL72機架級系統在本輪MLPerf Training測試中首次亮相，在此之前該系統已在最新一輪MLPerf Inference測試中創下紀錄。

與上一代Hopper架構相比，基於Blackwell Ultra的GB300 NVL72在相同數量的GPU下，Llama 3.1 405B預訓練的效能提升了4倍以上，Llama 2 70B LoRa微調效能增加了近5倍。

這些效能提升得益於Blackwell Ultra的架構躍進，包括具備15 petaflops NVFP4 AI運算能力的全新Tensor Core、2倍的注意力層運算能力，以及279GB的HBM3e記憶體，同時結合全新的訓練方法，充分釋放該架構龐大的NVFP4運算效能。

用於連接多組GB300 NVL72系統，且為業界首款端到端 800 Gb/s 垂直擴展網路平台的NVIDIA Quantum-X800 InfiniBand平台，也在MLPerf測試首度亮相，其橫向擴展網路頻寬較前一代提升1倍。

釋放效能：NVFP4加速大型語言模型訓練
NVIDIA於本輪取得卓越成果的關鍵，在於採用NVFP4精度進行運算，這也是MLPerf Training歷史上的首次創舉。

提升運算效能的其中一個方法，是打造能以較少位元表示資料並進行運算的架構，並以更快的速度執行這些計算。然而，精度降低意味著每次計算可用的資訊量減少，因此在訓練過程中使用低精度計算需要謹慎設計決策，以確保結果的準確性。

NVIDIA 團隊在每一層技術堆疊都進行了創新，以將FP4精度應用於大型語言模型訓練。NVIDIA Blackwell GPU可執行FP4計算，包括NVIDIA設計的NVFP4格式及其他FP4變體，計算速度是FP8的兩倍。Blackwell Ultra更將此效能提升至3倍，使GPU得以提供更強大的AI運算效能。

NVIDIA 是迄今為止唯一一個在滿足基準測試嚴格精度要求的同時，使用 FP4 精度進行計算並提交 MLPerf 訓練結果的平台。

NVIDIA Blackwell突破擴展效能
NVIDIA憑藉逾5,000顆Blackwell GPU的高效協同運作，在Llama 3.1 405B測試中創下了僅需10分鐘訓練時間的全新紀錄。這項成績較上一輪基於Blackwell的最佳成績高出2.7倍，歸功於GPU數量增加至原先2倍以上的高效擴展，以及採用NVFP4精度大幅提升每顆Blackwell GPU的有效效能。

為說明每顆GPU的效能提升幅度，NVIDIA本輪提交採用2,560顆Blackwell GPU的測試結果，訓練耗時縮短至18.79分鐘，較上一輪採用2,496顆GPU的提交方案快上45%。

全新基準測試，全新效能紀錄
NVIDIA在本輪新增的兩項基準測試中同樣創下效能紀錄，包括Llama 3.1 8B與FLUX.1。

Llama 3.1 8B 是一款精巧卻功能強大的大型語言模型，取代了長期運行的BERT-large模型，為基準測試套件增添更現代化、更小的大型語言模型。NVIDIA使用多達512顆Blackwell Ultra GPU提交了測試結果，創下僅需 5.2分鐘即可完成訓練的紀錄。

此外，FLUX.1是一款先進的圖像生成模型，取代了Stable Diffusion v2，且只有NVIDIA平台提交了該基準測試的結果。NVIDIA使用1,152個Blackwell GPU提交的測試結果，創下將訓練時間縮短至12.5分鐘的新紀錄。

NVIDIA 持續保持現有圖像神經網路、目標偵測和推薦系統測試的紀錄。

廣泛且深度的夥伴生態系
NVIDIA生態系在本輪測試中展現積極參與度，共計15個機構提交了令人矚目的成果，其中包括華碩、戴爾科技集團、技鋼科技、HPE、Krai、Lambda、聯想集團、Nebius、雲達科技、Supermicro、佛羅里達大學、Verda（原DataCrunch）和緯穎。

NVIDIA以一年為週期持續創新，在預訓練、後訓練及推論階段推動顯著且快速的效能提升，為邁向全新層級的智慧鋪路，加速AI普及化。

如欲了解更多NVIDIA的效能資料，請參閱NVIDIA資料中心深度學習產品效能中心和Performance Explorer頁面。

文章標籤：

文章分享：

+ MORE精選文章：

相關帖子

雙 11 限時優惠 RTX 5070 筆電 4 萬 ...

《神力科莎出賽準備：拉力賽》現已支 ...

業績創紀錄！NVIDIA 公佈 2026 財年 ...

+ MORE活動推薦：

Micron Crucial T710 SSD 玩家開箱體驗分享

COUGAR ULTIMUS PRO玩家開箱體驗分享活動

COUGAR AIRFACE 180 玩家開箱體驗分享活動

COUGAR GR 750/GR 850 玩家開箱體驗分享活

[業界新聞] NVIDIA 在 MLPerf Training v5.1 基準測試中全面奪冠