Google Cloud Next 2026 推出第八代 TPU，效能算力提升、訓練時效「月變週」

as89725671 · 發表於 1 小時前

本帖最後由 as89725671 於 2026-4-23 12:52 編輯

Google 在自家大會上 Google Cloud Next 2026 正式發表第八代客製化 TPU；經由自家旗下 Google Cloud 與 DeepMind 共同設計，推出針對大規模訓練優化的 TPU 8t，以及低延遲推論優化的 TPU 8i。

Google 表示，第八代 TPU 旨在為 AI 代理人（AI Agent）應用情境提供強大算力支援，並大規模適配持續演進的模型架構。

TPU 8t 定位為訓練加速器，旨在將尖端模型的開發週期從數月縮短至數週；TPU 8t 的單節點效能較上一代提升近 3 倍，且單一節點現已支援擴充至 9,600 個晶片，並配備 2 PB 的共享 HBM 記憶體，晶片間頻寬 (Inter-chip Bandwidth) 亦實現翻倍。

Google 表示，單一節點可提供高達 121 ExaFlops 的運算能力；同時透過全面的 RAS（可靠性、可用性與服務性）功能，可實現超過 97% 的有效吞吐量，大幅減少硬體故障導致訓練中斷的情況。

TPU 8i 則聚焦於推論場景，針對多代理人協同與低延遲需求進行優化；TPU 8i 的單節點擴展至 1,152 個晶片，配備 384 MB 晶片內 SRAM 與 288 GB HBM 記憶體，確保模型的活動工作集能完全保留在晶片內部。

此外，Google 將每台伺服器的實體 CPU 主機數量翻倍，並改採客製化的 Axion CPU，搭配 Boardfly 最佳化網路拓撲，將最大網路直徑降低 50% 以上，顯著降低延遲。

Google 強調，這兩款晶片均首度運行於自研的 Axion ARM 架構 CPU 主機上，這讓系統能針對效能與能效進行全方位優化。

軟體支援方面，兩款晶片均原生支援 JAX、MaxText、PyTorch、SGLang 與 vLLM 等主流框架，並提供「裸金屬（Bare Metal）」存取權限。

在功耗方面，第八代 TPU 的每瓦效能較上一代（Ironwood）提升高達兩倍，並配備動態調節功耗的功能。

兩款產品均搭載第四代液冷技術，實現了傳統氣冷方案難以達到的效能密度。Google 預計 TPU 8t 與 TPU 8i 將於今年稍晚正式上市。

消息來源 : 1 , 2

文章標籤：