NVIDIA利用Hopper H100、GH200超級晶片和L4 GPU在MLPerf Inference v3.1測試中公佈了巨大的AI數據

sxs112.tw · 發表於 2023-9-12 12:21:29

NVIDIA發布了在全球最快的AI GPU（例如Hopper H100、GH200和L4）上運行的官方MLPerf Inference v3.1性能測試。

NVIDIA-MLPerf-Inference-v3.1-Hopper-H100-Grace-Hopper-GH200-L4-GPU-Performance-_.png

今天NVIDIA發布了MLPerf Inference v3.1測試套件中的首個性能測試，該套件涵蓋了人工智慧用例的各種行業標準測試。這些工作負載包括推薦器、自然語言處理、大型語言模型、語音辨識、影像分類、醫學成像和對象檢測。

NVIDIA-MLPerf-Inference-v3.1-Hopper-H100-Grace-Hopper-GH200-L4-GPU-Performance-_1.png

兩組新的測試包括DLRM-DCNv2和GPT-J 6B。第一個是真實推薦器的更大數據集表示，它使用新的跨層算法來提供更好的推薦，並且參數數量是之前版本的兩倍。另一方面GPT-J是一種小型LLM，其基礎模型是開源的，於2021年發布。此工作負載專為摘要任務而設計。

NVIDIA-MLPerf-Inference-v3.1-Hopper-H100-Grace-Hopper-GH200-L4-GPU-Performance-_3.png

NVIDIA還展示了應用的概念性現實工作負載管道，該應用利用一系列AI模型來實現所需的查詢或任務。所有型號都將在NGC平台上提供。

在性能方面，NVIDIA H100在整個MLPerf v3.1推理集（離線）上與來自Intel (HabanaLabs)、高通 (Cloud AI 100) 和Google (TPUv5e) 的競爭對手進行了測試。NVIDIA在所有工作負載中提供了領先的性能。

NVIDIA-MLPerf-Inference-v3.1-Hopper-H100-Grace-Hopper-GH200-L4-GPU-Performance-_7.png

為了讓事情變得更有趣，該公司表示這些基準是在大約一個月前實現的，因為MLPerf需要至少1個月的提交時間才能發布最終結果。從那時起NVIDIA提出了一項名為TensorRT-LLM的新技術，該技術將性能進一步提升了8倍。預計NVIDIA也將很快提交TensorRT-LLM的MLPerf測試。

但回到測試，NVIDIA的GH200 Grace Hopper Superchip也在MLPerf上首次提交，與H100 GPU相比，性能提高了17%。這種性能提升主要來自更高的VRAM 容量（96GB HBM3與80GB HBM3）和4TB/s頻寬。

NVIDIA-MLPerf-Inference-v3.1-Hopper-H100-Grace-Hopper-GH200-L4-GPU-Performance-_8.png

Hopper GH200 GPU採用與H100相同的核心配置，但有助於提升性能的一個關鍵領域是Grace CPU和Hopper GPU之間的自動動力轉向。由於Superchip平台在同一板上為CPU和GPU提供電力傳輸，因此客戶基本上可以在任何特定工作負載中將電力從CPU切換到GPU，反之亦然。GPU上的額外能量可以使晶片時脈更快、運行速度更快。NVIDIA還提到這裡的Superchip運行的是1000W配置。

NVIDIA GH200 Grace Hopper Superchip在MLPerf行業測試中首次亮相，它運行了所有數據中心推理測試，擴展了NVIDIA H100 Tensor Core GPU的領先性能。總體結果顯示了NVIDIA AI平台從雲端到網絡邊緣的卓越性能和多功能性。

GH200將Hopper GPU與Grace CPU連接在一個超級晶片中。該組合提供了更多記憶體、頻寬以及在CPU和GPU之間自動轉移功率以優化性能的能力。另外配備8個H100 GPU的H100系統在本輪的每個MLPerf推理測試中提供了最高的吞吐量。

Grace Hopper Superchips和H100 GPU在MLPerf的所有數據中心測試中處於領先地位，包括計算機視覺推理、語音辨識和醫學成像，以及要求更高的推薦系統用例和生成AI中使用的大型語言模型 (LLM)。總體而言這些結果延續了NVIDIA自2018年推出MLPerf測試以來在每一輪人工智慧訓練和推理方面表現出領先地位的記錄。

via NVIDIA

採用Ada Lovelace GPU架構的NVIDIA L4 GPU也在MLPerf v3.1中強勢亮相。它不僅能夠運行所有工作負載，而且效率非常高，在FHFL外形尺寸下，TDP為72W，運行速度比現代x86 CPU（Intel 8380雙路）快6倍。L4 GPU還將視訊/AI任務（例如解碼、推理、編碼）提高了120倍。最後得益於軟體更新，NVIDIA Jetson Orion的性能提升了高達84%，這體現了NVIDIA將軟體提升到新水平的承諾。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

SPATIUM PCle Gen5 NVMe SSD 玩家開箱體驗

Intel® Arc™ A770 顯示晶片旗艦三強出擊

Uniface RGB機殼玩家體驗分享活動

T5 EVO 移動固態硬碟玩家體驗分享活動

[處理器主機板] NVIDIA利用Hopper H100、GH200超級晶片和L4 GPU在MLPerf Inference v3.1測試中公佈了巨大的AI數據

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

SPATIUM PCle Gen5 NVMe SSD 玩家開箱體驗

Intel® Arc™ A770 顯示晶片 旗艦三強出擊

Uniface RGB機殼 玩家體驗分享活動

T5 EVO 移動固態硬碟 玩家體驗分享活動

[處理器 主機板] NVIDIA利用Hopper H100、GH200超級晶片和L4 GPU在MLPerf Inference v3.1測試中公佈了巨大的AI數據

Intel® Arc™ A770 顯示晶片旗艦三強出擊

Uniface RGB機殼玩家體驗分享活動

T5 EVO 移動固態硬碟玩家體驗分享活動

[處理器主機板] NVIDIA利用Hopper H100、GH200超級晶片和L4 GPU在MLPerf Inference v3.1測試中公佈了巨大的AI數據