找回密碼註冊
作者: Martin
查看: 3164
回復: 0

文章標籤:

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

PURE WINGS 3 玩家開箱體驗分享活動

PURE WINGS 3卓越效能,安靜散熱 Pure Wings 3 是 be quiet! 的主流 ...

Hydrogon D140 ARGB 玩家開箱體驗分享活動

Hydrogon D140 ARGB高效能雙塔雙ARGB風扇六導管CPU散熱器 [*]免拆風 ...

PRO Plus 記憶卡 玩家開箱體驗分享活動

您的新選擇 動感生活之選。超快的寫入速度和值得信賴的性能,使用手 ...

SPATIUM PCle Gen5 NVMe SSD 玩家開箱體驗

疾速儲存-MSI SPATIUM PCle Gen5 NVMe SSD體驗當今最快Gen5 SSD的超 ...

打印 上一主題 下一主題

[業界新聞] AI領域大顯神威, Gaudi2和Sapphire Rapids為AI訓練提供優秀性能還節約成本

[複製鏈接]| 回復
跳轉到指定樓層
1#
Martin 發表於 2023-7-2 12:00:04 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
Intel今年2月份推出了Sapphire Rapids架構的第四代至強可擴展處理器,而在5月份推出了第二代深度學習芯片Habana Gaudi 2,後者自然是針對AI領域的產品,而前者也針對AI性能經行了大量優化,MLC ommons公佈其行業AI性能基準測試MLPerf訓練3.0的結果,Intel的這兩款產品都展現出令人印象深刻的訓練結果。
1.jpg

目前,業內普遍認為生成式AI和大語言模型(LLMs)僅適宜在GPU上運行。然而,最新的數據顯示,基於Intel產品組合的AI解決方案,能夠為在封閉生態系統中尋求擺脫當前效率與規模限制的客戶提供極具競爭力的選擇。

先來說說Habana Gaudi2,訓練生成式AI和大語言模型需要服務器集群來滿足大規模的計算要求。最新MLPerf結果切實驗證了Gaudi2在要求極為苛刻的模型——1750億參數的GPT-3上的出色性能以及高效的可擴展性。

Gaudi2在GPT-3模型上,384個加速器上的訓練時間為311分鐘,從256個加速器到384個加速器實現近線性95%的擴展效果。•在計算機視覺模型ResNet-50(8個加速器)和Unet3D(8個加速器)以及自然語言處理模型BERT(8個和64個加速器)上取得了優異的訓練結果。與去年11月提交的數據相比,BERT和ResNet模型的性能分別提高了10%和4%,證明Gaudi2軟件成熟度的提升,軟件支持在持續發展和成熟,並能與日益增長的生成式AI及大語言模型的需求保持同步。
2.jpg

而第四代至強可擴展處理器則是眾多解決方案中唯一提交的基於CPU的解決方案,MLPerf結果表明,至強可擴展處理器為企業提供了“開箱即用”的功能,可以在通用系統上部署AI,避免了引入專用AI系統的高昂成本和復雜性。

在封閉區,第四代至強可以分別在50分鐘以內(47.93分鐘)和90分鐘以內(88.17分鐘)的時間裡訓練BERT和ResNet-50模型。對於BERT模型的開放區,結果顯示,當擴展至16個節點時,第四代至強能夠在大約30分鐘左右(31.06分鐘)完成模型訓練。對於較大的RetinaNet模型,第四代至強能夠在16個節點上實現232分鐘的訓練時間,使客戶能夠靈活地使用非高峰期的至強週期來訓練其模型,即可以在早晨、午餐或者夜間進行模型訓練。具備Intel AMX的第四代英特爾至強可擴展處理器提供了顯著的性能提升,其範圍覆蓋了多個框架、端到端數據科學工具,以及廣泛的智能解決方案生態系統。

對於少數從頭開始間歇性訓練大模型的用戶,他們可以使用通用CPU,並且通常是在已經完成部署的、基於Intel的服務器上運行其業務。此外,大多數人將採用預先訓練好的模型,並用小型數據集對其進行微調。Intel發布的結果表明,通過使用Intel AI軟件以及標準的行業開源軟件,這種微調可以在短短幾分鐘內完成。

消息來源

您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-5-29 10:32 , Processed in 0.123062 second(s), 67 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表