NVIDIA再次強調了其透過Blackwell RTX GPU(例如RTX 5090和RTX PRO 6000)提供的神經渲染和遊戲創新。
NVIDIA的Blackwell RTX於今年1月推出,自那時起我們對其背後的技術原理有了許多了解。 AI一直是Blackwell的核心功能,但所有這些創新都始於2006年,即 CUDA的推出。 CUDA是NVIDIA用於加速運算和AI的通用架構和軟體架構。
該公司表示計算密度已超越摩爾定律的擴展速度,這得益於稀疏性、新的指令集 (ISA)、更低精度的格式以及對架構效率的嚴格把控。 2018年NVIDIA推出了即時光線追蹤技術,僅僅一年後,DLSS便應運而生。
這些技術是透過RT核心和Tensor核心等新技術的組合實現的。今天Blackwell推出了這些技術的最先進版本,以及更多其他技術。
在資料中心領域,NVIDIA推出了FP4精度,將密集規模工作負載的效能提升了4倍。據稱黃仁勳本人希望將AI帶回其主場——顯示領域,因此Blackwell RTX開啟了神經渲染和圖形時代。正如NVIDIA所說,RTX是他們的品牌、內容創作品牌和遊戲品牌。因此讓我們將所有這些在資料中心完成的工作擴展到消費級RTX GPU 上。
那麼Blackwell帶來了什麼呢? DLSS 4、MFG、ACE、路徑追蹤等技術都能帶來更快的效能、更絢麗的視覺效果。 NVIDIA官方聲稱Blackwell RTX的效能、佔用空間和設計週期都提升了10倍。 DLSS 4還利用AI產生首幀後100%的渲染畫素,從而縮短渲染時間,並延長移動平台的電池續航時間。
RTX Blackwell 的主要設計原則是:
- 針對新的神經工作負載進行最佳化
- 減少記憶體佔用
- 神經+圖形的服務品質
- 可擴展的能源效率
RTX Blackwell得益於第五代Tensor Core,其AI TOPS高達4000,並支援高速FP4;其採用第四代RT Core的Mega Geometry計算能力高達360 RT TFLOP;其AI管理進程 (AMP) 可同時處理AI模型和圖形;Black 125;能源效率比提升至兩倍;此外它還配備了全球最快的GDDR7記憶體解決方案,擁有30Gbps的記憶體速度。該架構還融合了顯示/視訊創新技術,例如DP2.1 UHBR20、PCIe Gen5、4個NVDEC/NVENC通道,支援4:2:2編碼。
NVIDIA隨後對RTX Blackwell SM進行了概述,它與用於資料中心的Blackwell SM有很大不同。一個重大變化是它將FP32/INT32單元結合在一起,而上一代Ada SM則採用了分割設計。
RTX Blackwell也提供高達2倍的SER(著色器執行重新排序)改進。
然後我們有了第五代Tensor Core,它增加了FP4支援,並在DLSS 4中增加了MFG模式,使GPU能夠使用AI加速渲染四個畫面。
透過DLSS 4,Frame Gen可縮短單獨渲染每個畫面的時間,並提供10倍更快的核心軌道門控、100倍更快的DRAM自刷新率,並且行動平台的GPU功率還可降低2倍以延長電池壽命。
透過GDDR7,RTX Blackwell使NVIDIA能夠提供兩倍於GDDR6的資料速率,速度高達30Gbps。在行動平台上,相同的記憶體標準可達到高達兩倍的效率。
NVIDIA的AMP單元可同時處理AI和圖形工作負載。這確保了更流暢、更均勻的畫素速率以及更快的模型反應。
從RTX Blackwell的遊戲方面轉向PRO方面,NVIDIA展示了一些最新功能,例如Universal MIG,這些功能在RTX PRO 6000等GPU上啟用。借助此功能使用者可以專用最多四個RTX PRO GPU實例,每個實例配備24GB VRAM和核心/硬體單元的子集,這些單元以可預測的延遲和吞吐量並行運行。
在一個精彩的展示中,NVIDIA展示了RTX PRO 6000使用MIG的擴展性能。使用的工作負載是四個Cyberpunk 2077,以1080p解析度和最高設定運行。對於RTX PRO 6000這樣的顯示卡來說,這是一個相對較低的圖形工作負載。
我們以標準實例作為標準,並與MIG 2x和4x模式進行了比較,後者可提供高達60%的更高擴展性。所以如果您想同時執行四個Cyberpunk 2077,RTX PRO 6000 Blackwell GPU將非常適合這項任務。
總體而言,NVIDIA的RTX Blackwell GPU架構已發布數月,目前正在針對消費級和專業級應用程式進行進一步調校。即將推出的幾款遊戲和內容創作應用程式已開始利用RTX Blackwell豐富的AI和神經增強功能,我們迫不及待地想看到開發者在未來幾年內如何利用這些功能來擴展他們的應用程式。
消息來源
|