sxs112.tw 發表於 2025-9-8 22:07:37

NVIDIA的GeForce RTX 5090和RTX PRO 6000 GPU受到虛擬化漏洞的影響,需要完全重新啟動系統才能恢復

NVIDIA的旗艦GPU GeForce RTX 5090和RTX PRO 6000似乎遇到了一個新的錯誤,導致虛擬化下無回應。

CloudRift是一家開發者的GPU雲端服務,該公司率先報告了NVIDIA高階GPU的崩潰問題。據他們稱這些產品在虛擬機器上運行了幾天後,就開始完全失去回應。有趣的是除非重新啟動節點系統,否則無法再存取GPU。據稱該問題僅針對RTX 5090和RTX PRO 6000,RTX 4090、Hopper H100和採用Blackwell的B200等型號目前不受影響。

這個問題尤其出現在使用裝置驅動程式VFIO將GPU分配給虛擬機器環境時,如果在功能級重置 (FLR) 之後GPU完全沒有回應。這種無回應會導致核心軟鎖,使主機和客戶端環境陷入死鎖。為了擺脫這種死鎖,必須重新啟動主機,考慮到CloudRift的客戶機數量,這對CloudRift來說是一個困難的過程。

此問題並非僅限於CloudRift。 Proxmox的一位用戶也報告了類似的問題,他在關閉Windows用戶端後發現主機完全崩潰。有趣的是他表示NVIDIA已對此問題做出回應,聲稱該公司已成功重現該問題並正在努力修復。我們正在等待NVIDIA的官方確認,但問題似乎僅存在於採用Blackwell的GPU上。

有趣的是CloudRift為那些能夠修復或緩解問題的人提供了1,000美元的漏洞賞金,考慮到該問題正在影響關鍵的AI工作負載,我們預計NVIDIA將很快發布修復。

消息來源
頁: [1]
查看完整版本: NVIDIA的GeForce RTX 5090和RTX PRO 6000 GPU受到虛擬化漏洞的影響,需要完全重新啟動系統才能恢復