找回密碼註冊
作者: sxs112.tw
查看: 3583
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

SUP-01 玩家開箱體驗分享活動

SUP-01緊湊佈局,“直”而強大(Compact Power, Redefined Layout) ...

Micron Crucial T705 Gen5 SSD 玩家開箱體

挑戰極限 再創顛峰無懼的速度正等著您 我們最快的變得更快了無懼的速 ...

A3-mATX 玩家開箱體驗分享活動

[*]簡約時尚設計 26.3L 微型機箱 [*]側板和頂板採用鋼網設計 [*]可 ...

PURE WINGS 3 玩家開箱體驗分享活動

PURE WINGS 3卓越效能,安靜散熱 Pure Wings 3 是 be quiet! 的主流 ...

打印 上一主題 下一主題

[顯示卡器] NVIDIA Hopper H200 GPU在最新的MLPerf 4.0結果中繼續佔據主導地位

[複製鏈接]| 回復
跳轉到指定樓層
1#
NVIDIA憑藉其強大的TensorRT-LLM套件繼續推動AI極限,在最新的MLPerf v4.0結果中將H200 GPU提升到新的高度。
NVIDIA-MLPerf-v4.0-AI-GPU-Results.jpg

生成式人工智慧(GenAI)是一個新興市場,所有硬體製造商都在努力分一杯羹。儘管他們盡了最大努力,但到目前為止NVIDIA仍佔據了大部分,而且這家綠色巨人無法阻止,因為它在MLPerf v4.0推理結果中展示了一些非常強大的記錄。
NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_3-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_4-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_5-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_6-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_7-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_8-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_2-1456x819.png

自去年發布AI軟體套件以來,TensorRT-LLM的微調一直持續進行。我們看到先前的MLPerf v3.1結果和現在的MLPerf v4.0效能有了顯著提高,NVIDIA正在增強 Hopper的效能。推理之所以重要,是因為它佔資料中心收入(去年產生)的40%。推理工作負載範圍包括LLM(大型語言模型)、視覺內容和推薦器。隨著這些模型尺寸的增加,複雜性也隨之增加,並且需要強大的硬體和軟體。

這就是為什麼TensorRT-LLM成為與NVIDIA GPU架構共同設計的最先進的推理編譯器。 TensorRT-LLM的一些功能包括:
  • 運行中序列批次(最佳化 GPU利用率)
  • KV快取管理(更高的GPU記憶體利用率)
  • 廣義注意力(XQA核心)
  • 多GPU多節點(Tensor和管道並行)
  • FP8量化(更高性能並適合更大型號)

使用最新的TensorRT-LLM最佳化,NVIDIA成功地將MLPerf v4.0中的Hopper GPU(例如H100)的效能比MLPerf v3.1提高了2.9倍。在今天的測試結果NVIDIA 在MLPerf Llama 2(700 億)中創造了新的效能記錄,H200(預覽版)每秒產生高達31,712個Tokens ,H100每秒產生21,806個Tokens。值得一提的是H200 GPU大約一個月前進行了測試,這就是為什麼在預覽狀態中提到它,但NVIDIA表示他們已經向客戶提供GPU樣品,並將在第二季發貨。
NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_10.png

憑藉141GB HBM3E的更高記憶體配置和高達4.8TB/s的更快頻寬,NVIDIA H200 GPU使Llama 2的效能比H100 GPU額外提高了45% 。除此之外8 GPU NVIDIA HGX H200 GPU系統打破了Stable Diffusion XL測試,在伺服器和離線場景中分別實現了13.8個查詢/秒和13.7個樣本/秒。

不僅如此雖然H200與H100平台直接相容,但H200的客製化熱設計版本還以MGX平台 (GPU+CPU+DPU) 的形式存在,可將TDP提升至1000W與標準風冷型號相比,性能提高了14%。客製化解決方案可從華擎Rack、華碩、技嘉、和碩、QCT 和 Supermicro等OEM廠商處取得。此外H200 AI GPU預計也將從NVIDIA的眾多CSP和OEM合作夥伴處獲得。
NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_11-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_12-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_13-1456x819.png


NVIDIA-H100-H200-AI-MLPerf-v4.0-Benchmark-Results-_2024-_14-1456x819.png

NVIDIA的Hopper H200 GPU有700W的基本TDP和高達1000W的客製化設計。 Blackwell GPU有700W (B100) 和1000/1200W (B200) 配置。談到Blackwell GPU,NVIDIA確認只有B100 GPU能夠與Hopper系統直接相容,而B200 GPU將需要完全不同的機殼和系統設計。第一款Blackwell系統將於今年稍後上市,因此我們可以期待未來提交的MLPerf系統的結果。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-6-4 14:18 , Processed in 0.079029 second(s), 34 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表