在Hot Chips 2025上Google展示了有關其下一代TPU平台Ironwood的更多見解以及它如何在機架層級上擴展。
代號為Ironwood的第七代TPU架構於今年4月發布,據稱其性能是當今最強大的超級電腦的24倍。Google在Hot Chips 2025大會上首先回顧了其現有的TPU系統及其多年來的發展歷程。
早在2022年,Google就推出了TPU v4,單一pod整合成4096個晶片,配備32GB的1.2TB/s HBM,每個晶片的計算輸出為275 TFLOP。一年後他們推出了TPU v5p,它整合8960個晶片,配備95GB的2.8TB/s HBM,計算輸出為459 TFLOP。今年Ironwood TPU Superpod將每個pod內整合9216個晶片,配備192GB的7.4TB/s HBM,每個晶片的峰值FLOP高達4614 TFLOP。這比TPU v4提升了16倍以上。
Google繼續深入研究Ironwood Superpod和Max-scale集群。系統的核心模組是Ironwood SoC。其中四塊晶片整合在Ironwood PCBA主機板上,並嵌入 Ironwood TPU機架中。一個Ironwood TPU機架可像托盤一樣堆疊總共16塊Ironwood PCBA,從而提供64晶片的解決方案。
接下來是互連解決方案。Google利用其晶片間互連(ICI),這是一種可擴展網路。該網路允許他們使用1.8PB網路連接43個Superpod區塊(每個區塊包含64個晶片)。內部通訊由一系列NIC處理。
Google透過這些提供了一套機架。首先是Ironwood Superpod,包含144個機架;然後是光交換機機箱,用於實現跨多個區塊的ICI擴展;最後是CBU機架,用於分配冷卻液。
現在說到機架本身,Google至少在過去三代中都為其TPU使用了3D環面設計。每個邏輯構建塊由一個4x4x4的3D網路組成,該網路包含64個晶片或節點,這些晶片或節點被封裝在一個機架中。
消息來源 |