找回密碼註冊
作者: sxs112.tw
查看: 4097
回復: 0

文章分享:

+ MORE精選文章:

    + MORE活動推薦:

    Micron Crucial T710 SSD 玩家開箱體驗分享

    進入疾速前進! 快速邁向終局勝利 使用 Crucial® T710 Gen5 NVMe® ...

    COUGAR ULTIMUS PRO玩家開箱體驗分享活動

    ULTIMUS PRO 終極功能,無限連接 Ultimus Pro 採用簡潔的 98% 鍵盤佈 ...

    COUGAR AIRFACE 180 玩家開箱體驗分享活動

    AIRFACE 180 180mm 風扇,威力加倍 Airface 180 預裝兩顆 180mm PWM ...

    COUGAR GR 750/GR 850 玩家開箱體驗分享活

    ATX 3.1 兼容,穩定供電無憂 COUGAR GR 系列通過 80 PLUS 金牌認證 ...

    打印 上一主題 下一主題

    [業界新聞] Meta的Catalina Pod AI系統將NVIDIA的Blackwell GB200 NVL72與Open Rack v3和液體散熱相結合

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#
    sxs112.tw 發表於 2025-8-25 14:59:14 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
    Meta分享了其Catalina AI系統的建置模組,該系統採用NVIDIA的GB200 NVL72解決方案,並配備Open Rack v3和液體散熱。
    2025-08-25_10-04-47.png

    早在2022年Meta就主要關注規模約6,000塊GPU的叢集。這些叢集主要用於傳統的排名和推薦模型,因此運行的工作負載實際上跨越128-512個GPU。一年後由於GenAI和LLM的出現,叢集規模成長至16,000至24,000塊GPU(成長了4 倍)。僅在去年Meta就運行了100,000塊GPU,並且還在持續增加中。 Meta也是LLama 等模型的軟體賦能者,預計未來幾年叢集規模將成長10倍。
    2025-08-25_10-04-12-scaled.png


    Meta表示他們很早就與NVIDIA合作啟動了Catalina項目,並以NVIDIA的NVL72 GPU解決方案為標準。 Meta還與NVIDIA合作定制了系統以滿足他們的需求,並且雙方都開源了MGX和NVL72的公版設計,Catalina現已在Open Compute網站上線。
    2025-08-25_10-04-38-scaled.png


    來看看Meta的Catalina,這就是他們在資料中心使用的。 Meta將每個系統稱為一個Pod,出於擴展的原因,他們基本上是複製/貼上它。
    2025-08-25_10-05-00-scaled.png


    標準NVL72與Meta定製版的區別在於,前者有兩個IT機架,每個機架包含一個72 GPU擴充域。每個IT機架的配置相同。它們有18個計算托盤,分佈在機架的頂部和底部。每個IT機架的左右兩側各有9個NV交換器。每個系統之間都有一大捆粗的線。
    2025-08-25_10-05-43-scaled.png

    這基本上可以將兩個機架上的所有GPU合併在一起,透過NV交換器連接,打造一個包含72個GPU的擴展域。在機架的左右兩側,可以看到大型ALC(空氣輔助液冷設備)。這些設備使Meta能夠將液冷、高功率密度機架部署到其遍布美國乃至全球的現有資料中心。

    Meta表示透過兩個機架,他們可以大幅增加CPU數量和機架內的總記憶體容量,將LPDDR記憶體從17TB提升至34TB,從而幫助他們將機架內GPU和CPU之間的快取一致性記憶體總量提升至48TB。電源供應器採用480伏特或277伏特單相電壓,並將其轉換為48伏特直流電,透過背面的降壓器進行分配,從而為機架內的所有刀片伺服器、NV 交換器和網路設備供電。
    2025-08-25_10-05-36-scaled (1).png


    2025-08-25_10-05-59-scaled.png

    在機架的頂部和底部,你可以看到一個電源架,每個電源架的底部還有兩個電源架。 Meta還擁有自己的光纖路徑面板,所有機架內光纖佈線都連接到這裡,用於後端網絡,然後這些光纖佈線會​​延伸到資料中心,連接到位於機架末端的網路交換機,用於擴展域。此外還有機架管理控制器Wedge 400,它是一款前端網路交換機,此外還有幾個IT和交換機工位。

    為了支援所有這些,Meta需要一系列新技術,其中一些技術已應用於NVIDIA NVL72 GB200 Blackwell系統。 Meta的獨特之處在於他們擁有一些技術,例如其開放式機架的高功率版本,本質上是更高的電源和CPU。他們還擁有液體散熱技術,因此需要空氣輔助液體散熱來支援這些機架和傳統資料中心。機架管理控制器本質上是一個安全和編排設備,用於啟用和停用散熱功能,還可以監控機架中的洩漏。他們擁有自己的網路拓撲結構,即分解式調度結構,這使得他們可以連接多個這樣的pod以組成更大的叢集。

    另外這也是Meta高功率機架版OpenRack v3的首次使用。這使得Meta能夠將每個機架的功率提升至94kW(600A)。這也支援配備設施液冷的較新打造,實際上可以直接將液體輸送到機架。為了管理液體,Meta使用了一種名為RMC(機架管理控制器)的設備。它位於機架內,持續監控機架內多個不同零件的洩漏情況。它安全地位於機架頂部,主要是為了確保如果發生洩漏,洩漏物不會滴落到機架上並關閉。但它連接到ALC,幫助它們關閉,或連接到設施層級的閥組,基本上可以關閉來自有問題的液體閥門。

    Meta也在為Catalina使用他們自己的分解式調度架構。這使得他們能夠在單一資料中心大樓或套件內連接多個Pod,並允許他們連接在一起。甚至可能更大規模地提供真正大規模的集群。它針對AI進行了調優,有助於提供靈活性和速度。這本質上就是所有GPU之間相互通訊的方式。

    消息來源
    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2025-12-7 21:39 , Processed in 0.076588 second(s), 33 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表