NVIDIA 為一些最大的 Amazon Titan Foundation 模型提供訓練動力

lin.sinchen · 發表於 2023-12-3 15:57:45

大型語言模型的一切都很龐大—巨型模型在數千個 NVIDIA GPU 上的海量資料集上進行訓練。

這可能會為追求生成式人工智慧的公司帶來許多巨大的挑戰。NVIDIA NeMo是一個用於建置、客製化和運行大型語言模型的框架，有助於克服這些挑戰。

在 Amazon Web Services 中，一個由經驗豐富的科學家和開發人員組成的團隊在過去幾個月中一直在使用 NVIDIA NeMo，為用於基礎模型的生成式人工智慧服務 Amazon Bedrock創建 Amazon Titan 基礎模型。

AWS 資深應用科學家 Leonard Lausen 說：「我們與NeMo 合作的一個關鍵原因是它是可擴展的，並且具有最佳化功能，使我們能夠以高度使用GPU 運行，同時還使我們能夠擴展到更大的叢集，以便我們可以更快地訓練模型並向客戶交付模型。」

非常大規模的思考

NeMo 中的平行技術可實現大規模的高效的大型語言模型訓練。當與 AWS 的 Elastic Fabric Adapter 結合使用時，團隊可以將其大型語言模型分佈在多個 GPU 上以加速訓練。

EFA 為 AWS 客戶提供 UltraCluster 網路基礎設施，可直接連接超過 10,000 個 GPU，並使用 NVIDIA GPUDirect繞過作業系統和 CPU。

這一組合使 AWS 科學家能夠提供卓越的模型品質，這是僅依靠資料並行方法無法大規模實現的。

適合所有規模的框架

Lausen表示：「NeMO的彈性讓 AWS 能夠針對新 Titan 模型、資料集和基礎設施的特定情況客製化訓練軟體。」

AWS 的創新包括從 Amazon Simple Storage Service（Amazon S3）到 GPU 叢集的高效能串流。「整合這些改進很容易，因為 NeMo 建立在 PyTorch Lightning 等廣泛使用的函示庫的基礎上，這些函示庫標準化了大型語言模型訓練管道組件」Lausen說。

AWS 和 NVIDIA 的目標是將從合作中學到的經驗注入到像是 NVIDIA NeMo 和 Amazon Titan 這樣的產品，以造福客戶。

文章標籤：

文章分享：

+ MORE精選文章：

相關帖子

NVIDIA Hopper 在 MLPerf 的生成式人 ...

啟動引擎：NVIDIA 和 Google Cloud ...

傳播產業的突破：NVIDIA Holoscan fo ...

+ MORE活動推薦：

PRO Plus 記憶卡玩家開箱體驗分享活動

SPATIUM PCle Gen5 NVMe SSD 玩家開箱體驗

Intel® Arc™ A770 顯示晶片旗艦三強出擊

Uniface RGB機殼玩家體驗分享活動

[業界新聞] NVIDIA 為一些最大的 Amazon Titan Foundation 模型提供訓練動力