資料中心網路是公眾最容易忽略的因素之一,實際上它負責節點之間的所有通訊。然而NVIDIA知道擁有數百萬個GPU的資料中心即將出現,而對於最快的AI模型,它們需要互連,甚至跨多個設施互連。這就是NVIDIA今天推出Spectrum-XGS乙太網路的原因,它是Spectrum-X 網路平台的擴展,旨在將多個地理位置分散的資料中心互連成 AI 超級工廠。
該公司表示Spectrum-XGS透過倒立距離感知網路消除了單一設施的容量限制,可在校園、城市和大洲之間提供可預測的低延遲效能。該技術主要透過對現有Spectrum-X交換器和ConnectX SuperNIC進行軟體和韌體更新來提供,而不是透過新的晶片。 Spectrum-XGS提供針對長距離鏈路優化的自動調整擁塞控制、可最大程度減少抖動的精確延遲管理以及全面的端到端遙測,使運營商能夠可視化和控制跨多個站點的網路流量。
NVIDIA報告稱這些改進使多GPU、多節點訓練作業和大規模實驗的NCCL(集體通訊庫)吞吐量幾乎翻了一倍,從而提高了分散式AI工作負載的效率。 NVIDIA將Spectrum-XGS定位為AI基礎設施的新成長軸:繼伺服器內部擴展和資料中心內部擴展之後,跨規模擴展將設施連接到統一的運算結構中。
超大規模業者正準備採用這種方法。 CoreWeave將成為第一批將多個設施與Spectrum-XGS連接在一起的公司之一。該公司將把其分散式站點用作超級電腦,為客戶提供更大的聚合容量,並簡化千兆級實驗和生產訓練運行的操作。
Spectrum-XGS是Spectrum-X平台的一部分,並在Hot Chips大會上進行了展示。更多細節預計將在Hot Chips大會上公佈,但大規模、跨洲規模的訓練運行已不再是空想。有了Spectrum-XGS這樣的解決方案,只有天空(和電網)才是極限。
消息來源 |