Meta的Catalina Pod AI系統將NVIDIA的Blackwell GB200 NVL72與Open Rack v3和液體散熱相結合

sxs112.tw · 發表於 2025-8-25 14:59:14

Meta分享了其Catalina AI系統的建置模組，該系統採用NVIDIA的GB200 NVL72解決方案，並配備Open Rack v3和液體散熱。

早在2022年Meta就主要關注規模約6,000塊GPU的叢集。這些叢集主要用於傳統的排名和推薦模型，因此運行的工作負載實際上跨越128-512個GPU。一年後由於GenAI和LLM的出現，叢集規模成長至16,000至24,000塊GPU（成長了4 倍）。僅在去年Meta就運行了100,000塊GPU，並且還在持續增加中。 Meta也是LLama 等模型的軟體賦能者，預計未來幾年叢集規模將成長10倍。

Meta表示他們很早就與NVIDIA合作啟動了Catalina項目，並以NVIDIA的NVL72 GPU解決方案為標準。 Meta還與NVIDIA合作定制了系統以滿足他們的需求，並且雙方都開源了MGX和NVL72的公版設計，Catalina現已在Open Compute網站上線。

來看看Meta的Catalina，這就是他們在資料中心使用的。 Meta將每個系統稱為一個Pod，出於擴展的原因，他們基本上是複製/貼上它。

標準NVL72與Meta定製版的區別在於，前者有兩個IT機架，每個機架包含一個72 GPU擴充域。每個IT機架的配置相同。它們有18個計算托盤，分佈在機架的頂部和底部。每個IT機架的左右兩側各有9個NV交換器。每個系統之間都有一大捆粗的線。

這基本上可以將兩個機架上的所有GPU合併在一起，透過NV交換器連接，打造一個包含72個GPU的擴展域。在機架的左右兩側，可以看到大型ALC（空氣輔助液冷設備）。這些設備使Meta能夠將液冷、高功率密度機架部署到其遍布美國乃至全球的現有資料中心。

Meta表示透過兩個機架，他們可以大幅增加CPU數量和機架內的總記憶體容量，將LPDDR記憶體從17TB提升至34TB，從而幫助他們將機架內GPU和CPU之間的快取一致性記憶體總量提升至48TB。電源供應器採用480伏特或277伏特單相電壓，並將其轉換為48伏特直流電，透過背面的降壓器進行分配，從而為機架內的所有刀片伺服器、NV 交換器和網路設備供電。

在機架的頂部和底部，你可以看到一個電源架，每個電源架的底部還有兩個電源架。 Meta還擁有自己的光纖路徑面板，所有機架內光纖佈線都連接到這裡，用於後端網絡，然後這些光纖佈線會延伸到資料中心，連接到位於機架末端的網路交換機，用於擴展域。此外還有機架管理控制器Wedge 400，它是一款前端網路交換機，此外還有幾個IT和交換機工位。

為了支援所有這些，Meta需要一系列新技術，其中一些技術已應用於NVIDIA NVL72 GB200 Blackwell系統。 Meta的獨特之處在於他們擁有一些技術，例如其開放式機架的高功率版本，本質上是更高的電源和CPU。他們還擁有液體散熱技術，因此需要空氣輔助液體散熱來支援這些機架和傳統資料中心。機架管理控制器本質上是一個安全和編排設備，用於啟用和停用散熱功能，還可以監控機架中的洩漏。他們擁有自己的網路拓撲結構，即分解式調度結構，這使得他們可以連接多個這樣的pod以組成更大的叢集。

另外這也是Meta高功率機架版OpenRack v3的首次使用。這使得Meta能夠將每個機架的功率提升至94kW（600A）。這也支援配備設施液冷的較新打造，實際上可以直接將液體輸送到機架。為了管理液體，Meta使用了一種名為RMC（機架管理控制器）的設備。它位於機架內，持續監控機架內多個不同零件的洩漏情況。它安全地位於機架頂部，主要是為了確保如果發生洩漏，洩漏物不會滴落到機架上並關閉。但它連接到ALC，幫助它們關閉，或連接到設施層級的閥組，基本上可以關閉來自有問題的液體閥門。

Meta也在為Catalina使用他們自己的分解式調度架構。這使得他們能夠在單一資料中心大樓或套件內連接多個Pod，並允許他們連接在一起。甚至可能更大規模地提供真正大規模的集群。它針對AI進行了調優，有助於提供靈活性和速度。這本質上就是所有GPU之間相互通訊的方式。

消息來源

文章分享：

+ MORE精選文章：

+ MORE活動推薦：

Micron Crucial T710 SSD 玩家開箱體驗分享

COUGAR ULTIMUS PRO玩家開箱體驗分享活動

COUGAR AIRFACE 180 玩家開箱體驗分享活動

COUGAR GR 750/GR 850 玩家開箱體驗分享活

[業界新聞] Meta的Catalina Pod AI系統將NVIDIA的Blackwell GB200 NVL72與Open Rack v3和液體散熱相結合

瀏覽過的版塊