NVIDIA的旗艦GPU GeForce RTX 5090和RTX PRO 6000似乎遇到了一個新的錯誤,導致虛擬化下無回應。
CloudRift是一家開發者的GPU雲端服務,該公司率先報告了NVIDIA高階GPU的崩潰問題。據他們稱這些產品在虛擬機器上運行了幾天後,就開始完全失去回應。有趣的是除非重新啟動節點系統,否則無法再存取GPU。據稱該問題僅針對RTX 5090和RTX PRO 6000,RTX 4090、Hopper H100和採用Blackwell的B200等型號目前不受影響。
這個問題尤其出現在使用裝置驅動程式VFIO將GPU分配給虛擬機器環境時,如果在功能級重置 (FLR) 之後GPU完全沒有回應。這種無回應會導致核心軟鎖,使主機和客戶端環境陷入死鎖。為了擺脫這種死鎖,必須重新啟動主機,考慮到CloudRift的客戶機數量,這對CloudRift來說是一個困難的過程。
此問題並非僅限於CloudRift。 Proxmox的一位用戶也報告了類似的問題,他在關閉Windows用戶端後發現主機完全崩潰。有趣的是他表示NVIDIA已對此問題做出回應,聲稱該公司已成功重現該問題並正在努力修復。我們正在等待NVIDIA的官方確認,但問題似乎僅存在於採用Blackwell的GPU上。
有趣的是CloudRift為那些能夠修復或緩解問題的人提供了1,000美元的漏洞賞金,考慮到該問題正在影響關鍵的AI工作負載,我們預計NVIDIA將很快發布修復。
消息來源 |