Intel發布了其Arc Pro Project Battlematrix解決方案的首款主要軟體LLM Scaler v1.0,並進行了大規模改進。
在2025年台北國際電腦展 (Computex) 期間,Intel發布了Battlematrix專案及其Arc Pro GPU。 Battlematrix旨在為運行多個Arc Pro GPU的推理工作站平台提供一站式解決方案。該公司在其路線圖中承諾將在第三季以推理優化容器的形式提供首個容器使用,以及vLLM暫存和基本遙測支援,而如今LLM Scaler v1.0終於問世了。
以下是LLM Scaler容器v1.0包含的功能和最佳化的完整清單:
vLLM:
- 針對長輸入長度(>4K)的TPOP效能最佳化:在32B KPI模型上,40K序列長度的效能提升高達1.8倍;在70B KPI模型上,40K序列長度的效能提升高達4.2倍
- 與上一次相比,8B-32B KPI模型的效能最佳化使輸出吞吐量提高了約10%
- 逐層線上量化,減少所需GPU記憶體
- vLLM中的PP(管線並行)支援(實驗性)
- torch.compile(實驗性的)
- 推測解碼(實驗)
- 支援嵌入、重新排序模型
- 增強的多模態模型支援
- 最大長度自動檢測
- 數據並行支援
- OneCCL測試工具支援
- XPU管理器:
- GPU功率
- GPU韌體更新
- GPU診斷
- GPU記憶體頻寬
據Intel稱新的軟體在打造時充分考慮了易用性和行業標準。新的容器在設計時充分考慮了Linux系統,並進行了最佳化,透過多GPU擴充和PCIe P2P資料傳輸,可將效能提升高達80%。它還具備企業級可靠性和可管理性功能,例如ECC、SRIOV、遙測和遠端韌體更新。
根據先前的路線圖,此次更新後,Intel將在同一季發布更強化的容器版本,提供更強大的性能和vLLM服務。最終Intel將在第四季發布有完整的功能集版本。
消息來源 |