AMD Pollara 400 AI網路卡正在出貨,AMD Vulcano 800G網路卡正在為下一代產品做準備。 AMD專注於UltraEthernet和UALink,以實現其橫向擴展和縱向擴展功能,而網路卡對這些應用至關重要。
第一個公告是AMD Pensando Pollara 400 UltraEthernet RDMA NIC,該公告在上次Advancing AI活動上發布,現已開始發貨。
AMD Pollara 400 是一款整合了UltraEthernet的400G裝置(實際上適用於PCIe Gen5平台)。 AMD表示當使用AMD版本的NVIDIA NCCL(稱為RCCL,用於橫向擴展集體通訊)時,它的速度更快。這意味著它比NVIDIA ConnectX-7快約10%,比Broadcom Thor2快約20%。這意義重大,因為如果通訊效率低下,可能會導致GPU空閒,從而降低整體工作負載的運作速度。 NVIDIA會迅速強調其Spectrum-X對其GPU的優勢,但這就是AMD的生態系統。
AMD表示由於擁塞控制和負載平衡等新功能,UEC功能可以在叢集層級帶來更高的效能。同樣從某個角度來看NVIDIA會表示UEC導入的一些功能已在AI訓練集群中大規模部署的Spectrum-X中實現。
在叢集規模上,GPU和HBM經常是故障點,但網路也是另一個故障點。因此網路可靠性是集群級設計的關鍵特性。現代AI叢集的效能和可靠性遠遠超越了單節點。
AMD還強調它可以使用成本較低的通用UEC交換器並以更大規模運行叢集。
這是合作夥伴關係的資料。 UEC是業界的一股強大力量。未來我們預計所有或幾乎所有高階乙太網路產品都將採用UEC,尤其是在800G伺服器和加速器基礎設施方面。
然而隨著下一代AMD Helios機架規模架構的出現,事情變得更加令人興奮。
AMD將使用UALink 1.0來處理其擴充。這是NVIDIA NVLink 5.0的開放替代方案,AMD表示其擴展能力幾乎是NVIDIA的兩倍,而且還能整合來自多家供應商的零件。
另一個值得關注的公告是,AMD計劃將Fabric Manager導入ROCm。這看似一個小功能,但如果你考慮擴展到擁有800G連線的數十萬個加速器,它就需要以比整個公共網路更高的速率傳輸更多資料。管理高效能Fabric意義重大,因此ROCm即將推出Fabric Manager。
不過2026年還有更多產品,包括Vulcano。AMD Pensando Vulcano是一款800G NIC,適用於新一代PCIe Gen6叢集以及UALink和UltraEthernet時代。NVIDIA已開始發售ConnectX-8,但AMD擁有一個專注於開放生態系統的替代方案意義重大。
歸根究底,如果你想在2026年的AI集群中有所作為,你不僅需要AI晶片,還需要具備縱向和橫向擴展的能力。 AMD擁有NIC聽起來可能很像NVIDIA的策略,因為這是必要的。另一方面支援開放標準與NVIDIA傾向於多供應商和開放標準的做法截然不同。
消息來源 |