找回密碼註冊
作者: sxs112.tw
查看: 3245
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

Uniface RGB機殼 玩家體驗分享活動

性能即是一切 與 Uniface RGB 中塔機箱探索效益和性能的完美平衡, ...

T5 EVO 移動固態硬碟 玩家體驗分享活動

自信無懼 生活帶著你遨遊四方。高性能的 T5 EVO 在工作、創作、學習 ...

ZOTAC 40 SUPER顯示卡 玩家開箱體驗活動 --

頭獎 dwi0342 https://www.xfastest.com/thread-286366-1-1.html ...

FSP VITA GM 玩家開箱體驗分享活動

[*]符合最新 Intel ® ATX 3.1電源設計規範 [*]遵從 ATX 3.1 推薦 ...

打印 上一主題 下一主題

[業界新聞] Intel已為Meta Llama 3 GenAI工作負載做好準備:針對Xeon和Core Ultra CPU、Arc GPU和Gaudi最佳化

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2024-4-19 09:30:57 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
Intel宣布針對Meta最新的Llama 3 GenAI工作負載對其Xeon、Core Ultra、Arc和Gaudi產品系列進行驗證和最佳化。

新聞稿:今天Meta推出了 下一代大型語言模型 (LLM) Meta Llama 3 。自發布之日起,Intel已針對首批Llama 3 8B和70B型號驗證了其AI產品組合,涵蓋Gaudi 加速器、Xeon處理器、Core Ultra處理器和Arc GPU。
Intel-Xeon-Core-Ulra-Arc-Gaudi-Meta-Llama-3-GenAI-Workloads.jpg

重要性: 作為讓人工智慧無所不在的使命的一部分,Intel投資於軟體和人工智慧生態系統,以確保其產品為動態人工智慧領域的最新創新做好準備。在資料中心,擁有高級矩陣擴展 (AMX) 加速功能的Gaudi和Xeon處理器為客戶提供了滿足動態和廣泛需求的選擇。

Intel Core Ultra處理器和Arc顯示卡產品提供本地開發工具和跨數百萬設備的部署,並支援全面的軟體框架和工具,包括用於本地研發的PyTorch和Intel Extension for PyTorch以及用於模型開發和推理的OpenVINO工具包。

關於在Intel上運行的Llama 3:Intel對Llama 3 8B和70B型號的初步測試和性能結果使用開源軟體,包括PyTorch、DeepSpeed、Optimum Habana庫和Intel Extension for PyTorch以提供最新的軟體優化。

Intel Gaudi 2加速器在Llama 2型號上優化了性能(7B、13B和70B參數),現在對新的Llama 3型號進行了初步性能測試。隨著Gaudi軟體的成熟,Intel可以輕鬆運行新的Llama 3模型並產生用於推理和微調的結果。最近發布的Gaudi 3加速器也支援Llama 3 。

Intel Xeon處理器可滿足要求嚴格的端到端人工智慧工作負載,Intel投資優化LLM結果以減少延遲。與第四代Xeon處理器相比,有高效能核心(代號Granite Rapids)的Xeon 6處理器的Llama 3 8B推理延遲提高了2倍,並且能夠運行更大的語言模型(如Llama 3 70B),每個產生的令牌的時間低於100ms。

Intel Core Ultra和Arc Graphics為Llama 3提供了令人印象深刻的效能。此外Arc A770 GPU有Xe Matrix eXtensions (XMX) AI加速和16GB專用記憶體,可為 LLM工作負載提供卓越的性能。

Intel可擴充處理器
Intel一直在不斷優化 Xeon平台的LLM推理。例如與Llama 2相比,PyTorch和Intel Extension for PyTorch中的軟體改進已發展到可將延遲減少5倍。此最佳化利用分頁注意力和張量並行來最大化可用的計算利用率和記憶體頻寬。圖1顯示了Meta Llama 3 8B推理在採用第四代Xeon可擴展處理器的AWS m7i.metal-48x實例上的效能。
llama3-xeon-performance-chart2.png


llama3-aws-performance-chart1.png

我們在有效能核心(以前代號為Granite Rapids)的Xeon 6處理器上對Meta Llama 3進行了測試,以分享效能預覽。這些預覽數據表明與使用第四代Xeon處理器相比,Xeon 6的Llama 3 8B推理延遲提高了2倍,並且能夠運行更大的語言模型(如Llama 3 70B),在單個兩層上每個產生的令牌不到100ms。

客戶端平台
在第一輪評估中,Intel Core Ultra處理器的閱讀速度已經超過了人類典型的閱讀速度。這些結果是由有8個Xe核心的內建Arc GPU、包括DP4a AI加速和高達120GB/s的系統記憶體頻寬所驅動的。我們很高興能夠投資Llama 3的持續性能和能源效率優化,特別是當我們轉向下一代處理器時。
llama3-arc-performance-chart3.png

憑藉對Core Ultra處理器和Arc顯示產品的發布日支援,Intel和Meta之間的合作提供了本地開發工具和跨數百萬台設備的部署。Intel用戶端硬體透過全面的軟體框架和工具進行加速,包括用於本地研發的PyTorch和Intel Extension for PyTorch,以及用於模型部署和推理的OpenVINO Toolkit。

下一步: 在接下來的幾個月中,Meta預計將推出新功能、額外的模型大小和增強的效能。Intel將繼續優化其人工智慧產品的性能,以支援這項新的LLM。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-5-7 23:44 , Processed in 0.143985 second(s), 33 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表