本帖最後由 as89725671 於 2026-4-23 12:52 編輯
Google 在自家大會上 Google Cloud Next 2026 正式發表第八代客製化 TPU;經由自家旗下 Google Cloud 與 DeepMind 共同設計,推出針對大規模訓練優化的 TPU 8t,以及低延遲推論優化的 TPU 8i。
Google 表示,第八代 TPU 旨在為 AI 代理人(AI Agent)應用情境提供強大算力支援,並大規模適配持續演進的模型架構。
TPU 8t 定位為訓練加速器,旨在將尖端模型的開發週期從數月縮短至數週;TPU 8t 的單節點效能較上一代提升近 3 倍,且單一節點現已支援擴充至 9,600 個晶片,並配備 2 PB 的共享 HBM 記憶體,晶片間頻寬 (Inter-chip Bandwidth) 亦實現翻倍。
Google 表示,單一節點可提供高達 121 ExaFlops 的運算能力;同時透過全面的 RAS(可靠性、可用性與服務性)功能,可實現超過 97% 的有效吞吐量,大幅減少硬體故障導致訓練中斷的情況。
TPU 8i 則聚焦於推論場景,針對多代理人協同與低延遲需求進行優化;TPU 8i 的單節點擴展至 1,152 個晶片,配備 384 MB 晶片內 SRAM 與 288 GB HBM 記憶體,確保模型的活動工作集能完全保留在晶片內部。
此外,Google 將每台伺服器的實體 CPU 主機數量翻倍,並改採客製化的 Axion CPU,搭配 Boardfly 最佳化網路拓撲,將最大網路直徑降低 50% 以上,顯著降低延遲。
Google 強調,這兩款晶片均首度運行於自研的 Axion ARM 架構 CPU 主機上,這讓系統能針對效能與能效進行全方位優化。
軟體支援方面,兩款晶片均原生支援 JAX、MaxText、PyTorch、SGLang 與 vLLM 等主流框架,並提供「裸金屬(Bare Metal)」存取權限。
在功耗方面,第八代 TPU 的每瓦效能較上一代(Ironwood)提升高達兩倍,並配備動態調節功耗的功能。
兩款產品均搭載第四代液冷技術,實現了傳統氣冷方案難以達到的效能密度。Google 預計 TPU 8t 與 TPU 8i 將於今年稍晚正式上市。
|