NVIDIA詳細介紹了其用於Blackwell系統的下一代ConnectX-8 NIC,並表示該NIC非常先進,應該稱為SuperNIC。
根據NVIDIA介紹,AI訓練和AI推理是兩種不同的工作負載,需要可互換的點到點網路策略。推理是一種分解的、分區的工作負載,對延遲敏感,並且與外界有大量接口需求;而訓練是一種同步的、持久的工作負載,尾部延遲會影響效率,並且與外界的接口需求極少。
如上所述ConnectX-8 NIC被稱為SuperNIC,並受Spectrum-X乙太網路和Quantum-X Infiniband支援。
ConnectX-8 800G SuperNIC:用於AI、RDMA、可靠性、安全性和整合的進階網路。
以下是這款NIC的一些亮點:
- 部署在數百萬GPU上的RDMA技術
- 800G RDMA硬體管道,專為AI頻寬、延遲和規模設計
- 整合負載平衡、擁塞控制和可靠性
- 針對AI工作負載和資料中心多功能性的深度資料路徑可程式性
- 與系統架構緊密整合
- 企業級安全
規格方面,ConnectX-8 800G SuperNIC符合Verbs、NCCL、NIXL和DOCA API標準,並配備800Gb/s Infiniband XDR或2x400G乙太網路整合Spectrum-X乙太網路界面,最多可支援8個連接埠。其主機I/O界面為PCIe Gen6,支援48條通道,透過整合PCIe交換器提供。
NVIDIA表示ConnectX-8 RDMA可在800G上實現不同訊息大小(64KB至1MB)的無限擴充。 SuperNIC不僅僅是一個NIC,它還充當連接GPU和其他叢集的 ASIC。
此網卡首先使用在最新的NVIDIA Blackwell GB300 NVL72系統中。這些系統採用Blackwell Ultra GPU,詳情已在昨天發布。 CX8 PCIe交換器可節省更多 NVLINK C2C頻寬,並提升網路間的QoS。
每個CX8 PCIe交換器(NVL72板上有兩個)都有用於Grace CPU的Gen5 x16通道和Blackwell Ultra GPU的Gen6 x16通道;SSD還配備了PCIe Gen5 x4通道。
鑑於當今人工智慧的規模化趨勢,NVIDIA設計了ConnectX-8整合式Spectrum-X乙太網路交換器。它是Spectrum-X乙太網路交換器基礎架構的擴展,並具備交換功能,可提供負載平衡和擁塞控制功能。 ConnectX-8 RDMA支援擴展用於AI網路的傳統作業系統服務,而ConnectX-8封包處理器則支援AI工廠的安全性和路由。
為了保持網路高效運行,ConnectX-8包含一個資料路徑加速器,它是一個16T RISC-V事件處理器。憑藉所有這些技術和硬體級整合,與OTS RDMA網路卡/交換器相比,Spectrum-X乙太網路在負載下可將訓練步長縮短60%,並且尾部延遲接近零。
查看NVIDIA分享的一些Spectrum-X效能數據,我們得到:
- 有效頻寬提高1.6倍(負載平衡)
- 集體頻寬(尾部延遲)提高1.3倍
- 2.2倍更高的全降低頻寬(雜訊隔離)
- 1.3倍更高的全對全頻寬(彈性性能)
- 遙測收集速度提高1000倍(高頻遙測)
Spectrum-X和ConnectX-8 SuperNIC不僅支援800G,還支援PCIe Gen6。該公司已在Blackwell系統中使用了採用這些技術的解決方案,因此預計更多細節將在未來幾個月內公佈。
消息來源 |