Meta分享了其Catalina AI系統的建置模組,該系統採用NVIDIA的GB200 NVL72解決方案,並配備Open Rack v3和液體散熱。
早在2022年Meta就主要關注規模約6,000塊GPU的叢集。這些叢集主要用於傳統的排名和推薦模型,因此運行的工作負載實際上跨越128-512個GPU。一年後由於GenAI和LLM的出現,叢集規模成長至16,000至24,000塊GPU(成長了4 倍)。僅在去年Meta就運行了100,000塊GPU,並且還在持續增加中。 Meta也是LLama 等模型的軟體賦能者,預計未來幾年叢集規模將成長10倍。
Meta表示他們很早就與NVIDIA合作啟動了Catalina項目,並以NVIDIA的NVL72 GPU解決方案為標準。 Meta還與NVIDIA合作定制了系統以滿足他們的需求,並且雙方都開源了MGX和NVL72的公版設計,Catalina現已在Open Compute網站上線。
來看看Meta的Catalina,這就是他們在資料中心使用的。 Meta將每個系統稱為一個Pod,出於擴展的原因,他們基本上是複製/貼上它。
標準NVL72與Meta定製版的區別在於,前者有兩個IT機架,每個機架包含一個72 GPU擴充域。每個IT機架的配置相同。它們有18個計算托盤,分佈在機架的頂部和底部。每個IT機架的左右兩側各有9個NV交換器。每個系統之間都有一大捆粗的線。
這基本上可以將兩個機架上的所有GPU合併在一起,透過NV交換器連接,打造一個包含72個GPU的擴展域。在機架的左右兩側,可以看到大型ALC(空氣輔助液冷設備)。這些設備使Meta能夠將液冷、高功率密度機架部署到其遍布美國乃至全球的現有資料中心。
Meta表示透過兩個機架,他們可以大幅增加CPU數量和機架內的總記憶體容量,將LPDDR記憶體從17TB提升至34TB,從而幫助他們將機架內GPU和CPU之間的快取一致性記憶體總量提升至48TB。電源供應器採用480伏特或277伏特單相電壓,並將其轉換為48伏特直流電,透過背面的降壓器進行分配,從而為機架內的所有刀片伺服器、NV 交換器和網路設備供電。
在機架的頂部和底部,你可以看到一個電源架,每個電源架的底部還有兩個電源架。 Meta還擁有自己的光纖路徑面板,所有機架內光纖佈線都連接到這裡,用於後端網絡,然後這些光纖佈線會延伸到資料中心,連接到位於機架末端的網路交換機,用於擴展域。此外還有機架管理控制器Wedge 400,它是一款前端網路交換機,此外還有幾個IT和交換機工位。
為了支援所有這些,Meta需要一系列新技術,其中一些技術已應用於NVIDIA NVL72 GB200 Blackwell系統。 Meta的獨特之處在於他們擁有一些技術,例如其開放式機架的高功率版本,本質上是更高的電源和CPU。他們還擁有液體散熱技術,因此需要空氣輔助液體散熱來支援這些機架和傳統資料中心。機架管理控制器本質上是一個安全和編排設備,用於啟用和停用散熱功能,還可以監控機架中的洩漏。他們擁有自己的網路拓撲結構,即分解式調度結構,這使得他們可以連接多個這樣的pod以組成更大的叢集。
另外這也是Meta高功率機架版OpenRack v3的首次使用。這使得Meta能夠將每個機架的功率提升至94kW(600A)。這也支援配備設施液冷的較新打造,實際上可以直接將液體輸送到機架。為了管理液體,Meta使用了一種名為RMC(機架管理控制器)的設備。它位於機架內,持續監控機架內多個不同零件的洩漏情況。它安全地位於機架頂部,主要是為了確保如果發生洩漏,洩漏物不會滴落到機架上並關閉。但它連接到ALC,幫助它們關閉,或連接到設施層級的閥組,基本上可以關閉來自有問題的液體閥門。
Meta也在為Catalina使用他們自己的分解式調度架構。這使得他們能夠在單一資料中心大樓或套件內連接多個Pod,並允許他們連接在一起。甚至可能更大規模地提供真正大規模的集群。它針對AI進行了調優,有助於提供靈活性和速度。這本質上就是所有GPU之間相互通訊的方式。
消息來源 |