找回密碼註冊
作者: sxs112.tw
查看: 3363
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

Uniface RGB機殼 玩家體驗分享活動

性能即是一切 與 Uniface RGB 中塔機箱探索效益和性能的完美平衡, ...

T5 EVO 移動固態硬碟 玩家體驗分享活動

自信無懼 生活帶著你遨遊四方。高性能的 T5 EVO 在工作、創作、學習 ...

ZOTAC 40 SUPER顯示卡 玩家開箱體驗活動 --

頭獎 dwi0342 https://www.xfastest.com/thread-286366-1-1.html ...

FSP VITA GM 玩家開箱體驗分享活動

[*]符合最新 Intel ® ATX 3.1電源設計規範 [*]遵從 ATX 3.1 推薦 ...

打印 上一主題 下一主題

[顯示卡器] Intel Gaudi 2加速器速度比NVIDIA H100快55%,AI測試對決比A100快3倍

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2024-3-12 11:08:40 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
Stability AI發布了一篇新部落格文章,提供了 Intel Gaudi 2與NVIDIA H100和A100 GPU加速器之間的AI測試對決。測試表明與NVIDIA的產品相比,Intel的解決方案提供了巨大的價值,對於那些尋求快速且易於使用的解決方案的客戶來說,可以視為受人尊敬的替代方案。
Intel-Gaudi-vs-NVIDIA-H100-A100-AI-Accelerators-GPUs-Stable-Diffusion-LLMs.jpg

人工智慧公司Stability AI一直在開發可以有效處理各種任務的開放模型。為了測試這一點,Stability AI使用了包括Stable Diffusion 3在內的兩個模型,並在 NVIDIA和Intel最受歡迎的AI加速器之間進行了測試,以了解它們之間的表現如何。
graphic_1.png

在Stability Diffusion 3(高度流行的文件到影像模型的下一章)中,Intel的Gaudi 2 AI加速器提供了一些出色的結果。此模型的參數範圍從800M到8B,並使用2B參數版本進行測試。為了進行比較,使用了總共16個Intel和NVIDIA加速器的2個節點,每個加速器的批次大小設定為16個,批次大小高達512個。最終結果是Intel Gaudi 2比H100提供了56%的加速80GB GPU,與A100 80GB GPU相比,加速速度提高了2.43倍。

96GB HBM容量也使Intel的Gaudi 2能夠容納每個加速器32個批次大小,總批次大小為512個。這進一步提高了每秒1,254個影像的速度,比16個批次的速度提高了35%,比H100 80GB AI GPU快2.10倍,比A100 80GB AI GPU快3.26倍。
graphic_2.png

對於Gaudi 2和A100 80GB GPU進一步擴展到32個節點(256個加速器),您會發現Intel解決方案的效能提高了3.16倍,每裝置每秒可輸出49.4個影像,而A100 解決方案僅輸出15.6個圖像。

雖然Gaudi 2 AI加速器的訓練表現非常出色,但由於Tensor-RT優化在過去一年中取得了巨大進步,並且NVIDIA團隊在推理方面不斷取得長足進步,NVIDIA似乎仍然保持著推理領域的王座。據稱在相同的Stable Diffusion 3 8B模型下,與Gaudi 2加速器相比,A100 GPU在這些特定工作負載中產生影像的速度提高了 40%。
在使用Stable Diffusion 3 8B參數模型進行推理測試時,Gaudi 2晶片提供的推理速度與使用基礎PyTorch的Nvidia A100晶片相似。然而透過TensorRT優化,A100 片產生影像的速度比Gaudi 2快40%。預計透過進一步優化,Gaudi 2在此模型上的表現很快就會超過A100。在使用基礎PyTorch對我們的SDXL模型進行的早期測試中Gaudi 2在3.2秒內通過30個步驟生成了1024x1024圖像,而在A100上使用PyTorch需要3.6秒,在A100上使用TensorRT生成圖像需要2.7秒。

Gaudi 2更高的記憶體和快速互連,加上其他設計考慮因素,使其在運行支援下一代媒體模型的Diffusion Transformer架構方面有競爭力。

透過Stability AI

最後我們得到了第二個模型的結果,即Stable Beluga 2.5 70B,它是LLaMA 2 70B的微調版本。在沒有額外優化並在PyTorch下運行的情況下,256個Intel Gaudi 2 AI加速器實現了116,777 tokens/second的平均吞吐量。它比TensorRT下運行的A100 80GB解決方案快約28%。

所有這些都表明人工智慧領域的競爭正在變得多麼激烈,最重要的不是硬體,而是每個特定加速器的軟體和優化。雖然硬體很重要,但如果沒有堅實的基礎來驅動所有這些核心、記憶體和各種人工智慧專用加速器,那麼你在這個領域將會遇到困難。

Intel CEO Pat Gelsinger(右)和執行副總裁兼首席商務官Christoph Schell首次展示了用於深度學習和大規模生成式人工智慧模型的下一代Intel Gaudi 3人工智慧加速器。
Intel-AIEverywhere-Event-5-scaled.jpg

NVIDIA很早就知道這一點,這就是為什麼Intel和AMD剛開始鞏固他們的AI軟體套件,而他們是否會追趕這個綠色巨人,或者是否能夠透過快速的軟體發布來解決CUDA/Tensor架構仍然是一個未知數。這些測試表明Intel正在成為一個非常可行的解決方案,不僅作為替代方案,而且作為與NVIDIA產品相比的競爭解決方案,並且透過未來的Gaudi和AI GPU產品,我們可以期待一個更強大的AI市場,為客戶提供出色的解決方案供選擇來自而不是依賴於單獨的公司。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-4-28 23:19 , Processed in 0.072787 second(s), 33 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表