找回密碼註冊
作者: lin.sinchen
查看: 387
回復: 0

精華與得獎推薦: 圖檔下載

文章分享:

+ MORE精選文章:

    相關帖子

    + MORE活動推薦:

    Micron Crucial T710 SSD 玩家開箱體驗分享

    進入疾速前進! 快速邁向終局勝利 使用 Crucial® T710 Gen5 NVMe® ...

    COUGAR ULTIMUS PRO玩家開箱體驗分享活動

    ULTIMUS PRO 終極功能,無限連接 Ultimus Pro 採用簡潔的 98% 鍵盤佈 ...

    COUGAR AIRFACE 180 玩家開箱體驗分享活動

    AIRFACE 180 180mm 風扇,威力加倍 Airface 180 預裝兩顆 180mm PWM ...

    COUGAR GR 750/GR 850 玩家開箱體驗分享活

    ATX 3.1 兼容,穩定供電無憂 COUGAR GR 系列通過 80 PLUS 金牌認證 ...

    打印 上一主題 下一主題

    [NVIDIA] 終極單槽 24GB 專業繪圖卡!NVIDIA RTX PRO™ 4000 Blackwell 工作站 GPU 開箱

    [複製鏈接]| 回復
    跳轉到指定樓層
    1#
    Leadtek-NVIDIA_RTX_PRO_4000_Blackwell_774x300.jpg


    單槽好擴充的 NVIDIA RTX PRO 專業工作站 GPU!「NVIDIA RTX PRO™ 4000 Blackwell」由 NVIDIA Blackwell 架構驅動,為 AI 開發者、資料科學家與創意工作者提供強大效能,單插槽的體積上擁有 24GB GDDR7 記憶體,滿足專業工作站多 GPU 擴充所需的運算效能,適用於生成式 AI、代理 AI、神經渲染、數位內容、資料科學等專業工作。

    NVIDIA Blackwell 架構:NVIDIA RTX PRO™ 4000 Blackwell 工作站 GPU

    NVIDIA RTX PRO 系列專業工作站 GPU,針對不同工作站、伺服器推出多款不同尺寸、散熱形式、功耗與記憶體容量的工作站 GPU,不論是單卡最大 96GB 記憶體的 RTX PRO 6000 Blackwell,或者是最近新推出的 72GB 版本 RTX PRO 5000 Blackwell,以及本次開箱的 RTX PRO 4000 Blackwell 工作站 GPU,可依據專業工作者的需求來挑選最適合的專業繪圖卡。

    AI 如今不斷進化,從生成式 AI 演進為更複雜的多模態代理型 AI,對於開發與部署新一代技術的硬體門檻也跟著提高,而 AI 開發與各種大型模擬、資料運算、3D 等專案都需要相當大的記憶體容量,尤其是大型語言模型(LLM)與 AI 代理的情境,包含工具鏈、檢索增強生成(RAG)與多模態理解,需要在 GPU 記憶體中載入多個 AI 模型、資料來源與不同程式碼,不僅考驗 GPU 性能也更要求記憶體的容量。


    ↑ NVIDIA RTX PRO 系列 Blackwell 架構工作站 GPU。


    NVIDIA RTX PRO 4000 Blackwell 工作站 GPU,採用 NVIDIA Blackwell 架構核心,擁有 8960 個全新串流多處理器核心、280 個第五代 Tensor 核心與 70 個第四代 RT 核心。新一代 Tensor 核心加速了神經網路訓練與推論所需的深度學習矩陣運算,並新增 FP4 精度同時支援 TF32、BF16、FP16、FP8 及 FP6 等數據類型,可達到 1178 AI TOPS 推論效能。

    另一方面 RTX PRO 4000 Blackwell 工作站 GPU,搭配 24GB GDDR7 ECC 記憶體、頻寬 672 GB/s、介面 192-bit;針對影音編碼處理,也具備 2 組第九代 NVENC 編碼器 2 組第六代 NVDEC 解碼器,亦可處理影音數位內容創作工作流。


    ↑ NVIDIA RTX PRO 4000 Blackwell 工作站 GPU 包裝彩盒。


    ↑ NVIDIA RTX PRO 工作站 GPU,交由麗臺科技販售並提供原廠三年保固、到府收送與專業技術支援。


    ↑ GPU 內包裝。


    比較有趣的是 RTX PRO 4000 Blackwell 工作站 GPU 的體積,介面卡採用 PCIe 5.0 x16 連接,而繪圖卡的尺寸僅 4.4” x 9.5” L,也就是長 24.1cm、寬 2cm、高 11.1cm 佔用單插槽的超薄體積,並採用薄型鼓風扇作為主要的散熱器,而 GPU 功耗為 140W 需要連接 1 個 PCIe 16pin 供電。

    單槽卡的設計讓多 GPU 的工作站在配置上更有彈性,不論是雙卡、三卡或者四卡擴充的情況下都游刃有餘,而且 GPU TBP 僅 140W 也相對容易在各種尺寸的工作站中輕鬆擴充。


    ↑ 簡約風格的 RTX PRO 4000 Blackwell 工作站 GPU。


    ↑ 單槽設計下,採用前方雙面進風的鼓風扇進行散熱。


    即使是單槽卡設計,RTX PRO 4000 Blackwell 工作站 GPU 在側面一樣有著這世代的設計語言,灰色的格柵造型與獨特的曲線線條。而在顯卡前方,則有著 RTX PRO Sync 介面,能夠驅動數位顯示看板、大規模沉浸式顯示系統,或者是互動式 3D 圖形等專業影像工作。


    ↑ 側面造型。


    ↑ RTX PRO Sync 介面。


    顯卡前方為封閉式設計,並有著 1 個 PCIe 16pin 供電插座,而 RTX PRO 4000 Blackwell 的 TBP 僅需 140W 即可工作,因此也可使用配件的轉換接頭改用 1 個 PCIe 8+2pin 供電。


    ↑ 顯卡前方的 PCIe 16pin 供電插座。


    ↑ 顯卡背面造型。


    顯示輸出,則提供 4 個 DisplayPort 2.1b 連接埠,最高支援 4 個 3840 x 2160 @ 165 Hz 或 2 個 7680 x 4320 @ 100 Hz 顯示輸出。


    ↑ 顯卡後方 4 個 DisplayPort 2.1b 連接埠。


    ↑ 配件的快速說明書與 PCIe 16pin 轉 PCIe 8+2pin 供電線材。


    RTX PRO™ 4000 Blackwell 工作站 GPU - Nemotron 3 Nano 小型模型推論效能

    「開放式創新是 AI 進步的基礎。」NVIDIA 推出 Nemotron 3 系列開放模型、資料與函式庫,提供 Nano、Super 與 Ultra 三種規模大小,採用混合式潛在(hybrid latent)混合專家(MoE)架構,協助開發者大規模建置與部署可靠的多代理系統。

    目前已開放的 Nemotron 3 Nano 模型擁有 300 億個參數的小型模型,於目標明確、高效的任務時啟用至多30 億個參數,針對軟體除錯、內容摘要、AI 助理工作流程與資訊檢索等任務,以低推論成本進行最佳化。該模型採用獨特的混合式混合專家架構,帶來更佳效率與可擴展性。


    ↑ 執行 nemotron-3-nano:30b 模型,約佔用 22.7 GB 的 GPU 記憶體。


    通過 Ollama 應用程式來部署 nemotron-3-nano:30b 模型。模型執行時需要佔用約 22.7 GB 的 GPU 記憶體。測試使用 Prompt:說明 AI 代理。通過 RTX PRO 4000 Blackwell 工作站 GPU 推論,最終模型通過推理後最終給出答案,花費 50.8 秒完成推論與輸出,推論效能約每秒 62.5 tokens/s。

    NVIDIA 不僅止於 GPU 硬體架構開發,更藉助硬體堆疊便利的 AI 開發工具、框架,以及各種 AI 模型功能,讓開發者可更快速的 AI 迭代加速創新。


    ↑ 執行 nemotron-3-nano:30b 模型,RTX PRO 4000 Blackwell 輸出效能。


    RTX PRO™ 4000 Blackwell 工作站 GPU - ComfyUI FLUX.2 FP8 影像生成效能

    由 Black Forest Labs 所推出最先進的 FLUX.2 影像生成模型,包括多參考影像(multi-reference)功能,可生成數十種相似的影像變化。但該模型強大的同時對於硬體相當要求,該模型具備 32B 參數量,需要高達 90GB VRAM 才能完整載入。即便使用熱門的 lowVRAM 模式,即創作者一次僅加載當前模型的模型設定,仍需 64GB VRAM,讓一般消費級顯示卡難以有效運行。

    NVIDIA 與 Black Forest Labs 合作將模型量化為 FP8,在維持相近的品質下將 VRAM 使用量降低 40%。並與 ComfyUI 這款 PC 上運行視覺生成 AI 模型的熱門的應用程式,合作升級應用程式的 RAM 卸載功能,也就是 Weight Streaming,讓一般消費者也能輕鬆運行 AI 影像生成功能。


    ↑ ComfyUI 執行 image_flux2_fp8 模版,採用 FP8 精度並採用 RAM 卸載功能,讓影像生成可順利執行。


    通過 ComfyUI 執行 image_flux2_fp8 模版,輸入 2 張參考影像並加入 Prompt 說明主體、背景後,通過 RTX PRO 4000 Blackwell 工作站 GPU 推論,視訊記憶體佔用約 21GB 左右,但大量負載串流到系統記憶體與 SSD,最終約花費約 300s 秒的時間完成影像生成。

    NVIDIA 與各式開發者密切合作,從 AI 模型到 PC 應用程式,藉由深度合作提升效能、降低硬體需求,讓各式 GPU 都能夠用在本地端運行 AI 影像生成。


    ↑ ComfyUI 執行 image_flux2_fp8 模版,RTX PRO 4000 Blackwell 輸出效能。


    RTX PRO™ 4000 Blackwell 工作站 GPU - 生成式 AI 測試

    GPU-Z 檢視 NVIDIA RTX PRO 4000 Blackwell 工作站 GPU 資訊,採用 5nm 製程、NVIDIA Blackwell 架構 GB203 核心,使用 PCIe 5.0 x16 介面,有著 8960 個 CUDA 核心、24576 MB GDDR7 記憶體支援 ECC 功能,GPU 預設時脈 1230 MHz、Boost 時脈 2055 MHz。


    ↑ GPU-Z。


    UL Procyon AI Image GenerationBenchmark 採用 Stable Diffusion XL (FP16) 與 Stable Diffusion 1.5 (FP16) 兩種模型,並支援 ONNX runtime with DirectML、NVIDIA TensorRT 與 Intel OpenVINO 的推論引擎,可用來測試裝置的 AI 文生圖效能。

    RTX PRO 4000 Blackwell 工作站 GPU 採用 TensorRT 推論引擎,在 Stable Diffusion 1.5 標準模型,總花費 39.2 秒完成 16 張照片生成、生成一張照片則需要 2.451 秒。換成 Stable Diffusion 1.5 XL 模型,總花費來到 259.1 秒、生成一張照片 16.1 秒。


    ↑ UL Procyon AI Image Generation,Stable Diffusion (FP16)。


    ↑ UL Procyon AI Image Generation,Stable Diffusion XL (FP16)。


    UL Procyon AI Text Generation Benchmark 採用 Phi-3.5-mini、Llama-3.1-8B、Mistral-7B 與 Llama-2-13B 等 4 個 LLM 模型、ONNX 引擎測試,每個模型測試 7 個 Prompts 包含 RAG 與非 RAG 的查詢,通過權重後的總分與平均 Time To First Token(TTFT)、平均 Output Token Speed(OTS)提供專業用戶橫量電腦的 AI LLM 推論效能。

    RTX PRO 4000 Blackwell 工作站 GPU 採用 ONNX DirectML 推論引擎,在 PHI 3.5 模型達到 3956 分、TTFT 0.25s、OTS 154.6 tokens/s;MISTRAL 7B 模型 3724 分、TTFT 0.38s、OTS 114.7 tokens/s;LLAMA 3.1 獲得 3341 分、TTFT 0.36s、OTS 98.33 tokens/s;LLAMA 2 獲得 3603 分、TTFT 0.58s、OTS 56.07 tokens/s。


    ↑ UL Procyon AI Text Generation Benchmark。


    RTX PRO™ 4000 Blackwell 工作站 GPU–創作影音輸出、GPU 渲染測試

    PugetBench for DaVinci Resolve 測試,分別針對影片的編碼輸出效能、處理不同片源的效能、Fusion 運用 VFX 繪圖效果測試,以及利用 GPU 加速的 OpenFX 特效等測試。測試影像包含 4K、8K 的影像,以及各種常見的媒體格式,4K H.264 150mbps 8-bit、4K ProRes 422、4K RED、8K H.265 100mbps、8K RED 等媒體。

    RTX PRO 4000 Blackwell 工作站 GPU 獲得基本 12191、標準 10942 分的總成績,這性能在 PugetBench 資料庫稍比 RTX 5080 的成績低一些。


    ↑ PugetBench for DaVinci Resolve。


    ↑ 成績比較。


    SPECviewperf 15 基準測試,則是更符合現代的專業應用程式圖形效能的工具,保有 OpenGL、DirectX 與 Vulkan 等 API 支援,新加入 blender、unreal_engine、Enscape 等應用測試,以及更新既有的應用測試情境。

    RTX PRO 4000 Blackwell 工作站 GPU 在 4K 解析度,在各種專業應用下的檢視效能。


    ↑ SPECviewperf 15。


    KeyShot 是由 Luxion 所開發的 3D 渲染軟體,能夠快速的建立逼真的 3D 模型影像,並以直覺的介面與即時渲染而出名。KeyShot 預設使用 CPU 進行渲染並支援 GPU 加速渲染等功能,在 KeyShot Viewer 當中提供 Benchmark 功能。KeyShot Benchmark 基準分為 1,測試分數越高代表性能越好。

    KeyShot CPU 測試獲得 5.81 分,而 、RTX PRO 4000 Blackwell 工作站 GPU 獲得 114.34 分的成績,大幅加速影像渲染的速度。


    ↑ KeyShot。


    V-Ray Benchmark 是由 Chaos Group 所開發,V-Ray 是基於物理法則所設計的光線渲染軟體,而此工具可針對 CPU 進行光線追蹤的渲染圖像的運算效能測試,CPU 評分以 vsamples 每秒計算數為單位。

    RTX PRO 4000 Blackwell 工作站 GPU 在 V-Ray RTX 測試中,在 1 分鐘的時間能有著 6474 vpaths 的光線運算量。


    ↑ V-Ray Benchmark。


    3DMark Speed Way 測試,採用新一代 DirectX 12 Ultimate API 所開發,包含著 DirectX Raytracing tier 1.1 的即時光追全域照明、光線追蹤反射、Mesh Shader 等新一代繪圖技術。測試以 2K 解析度、無使用 SR 或 FG 加速技術,純粹展現 GPU 在光線追蹤渲染下的效能。

    RTX PRO 4000 Blackwell 工作站 GPU,可達到 5345 分的成績,也就是平均 53.46 FPS 的影像順暢度。


    ↑ 3DMark Speed Way。


    3DMark DLSS 4 功能測試,採用光線追蹤的 Port Royal 場景測試,分別比較 DLSS 4 開啟前後的效能差距。新版本支援 DLSS 4 SR 超解析度,以及 DLSS 4 多畫格生成功能,最高支援 FG 4x 的畫格生成。

    RTX PRO 4000 Blackwell 工作站 GPU,未開啟 DLSS 時原生渲染 23.18 FPS,開啟 DLSS 4 加速後可達到 222.84 FPS 的效能提升,約達到 9.6x 倍的效能升級。


    ↑ 3DMark DLSS 4 功能測試。


    RTX PRO™ 4000 Blackwell 工作站 GPU 功耗與溫度測量

    溫度測試,則使用 3DMark Speed Way Stress test(GPU)壓力測試,以及 V-Ray GPU RTX 10min 與 ComfyUI image_flux2_fp8 影像生成測試,並利用 HWINFO 軟體紀錄 GPU 溫度與 TBP 功耗。

    RTX PRO 4000 Blackwell 工作站 GPU,待機時溫度僅 33.9°C,通過 Speed Way 壓力測試時 GPU 溫度 80.3°C、記憶體 84°C;而其餘兩項測試結果雷同。

    功耗方面 RTX PRO 4000 Blackwell 工作站 GPU,在三項測試中穩穩的維持在 145W 的功耗表現。可見 NVIDIA 精準的設計 GPU 規格、功耗與散熱器,讓專業工作站能輕鬆擴充至新一代 Blackwell 工作站 GPU。


    ↑ RTX PRO 4000 Blackwell 工作站 GPU 溫度測試。


    ↑ RTX PRO 4000 Blackwell 工作站 GPU 功耗測試。


    總結

    終極單槽卡 NVIDIA RTX PRO 4000 Blackwell 工作站 GPU,僅佔用單一插槽的厚度,即可擁有 Blackwell 新世代的效能與超大 24GB GDDR7 ECC 記憶體,而且具備主動散熱設計與較低 140W TBP 功耗設計,讓多卡工作站有著相當好的擴充彈性,不論是雙卡、三卡甚至是四卡系統都可輕鬆升級。

    此外 RTX PRO 4000 Blackwell 工作站 GPU,具備 2 組第九代 NVENC 編碼器 2 組第六代 NVDEC 解碼器,支援 4:2:2 H.264 與 HEVC 編碼,可大幅提升數位內容創作工作流。亦支援 RTX PRO Sync 能夠驅動大規模高解析度影像輸出。

    NVIDIA 不僅止於工作站 GPU,更在 GPU 之上堆疊各種開發框架、應用優化,甚至是開放式的 AI 模型,讓開發者可在快速的 AI 迭代中保有強大持效能發揮創新本能。

    最後,NVIDIA 的專業繪圖卡產品,由捷元代理的麗臺科技NVIDIA專業繪圖卡產品提供完善的售後服務,不僅享有 3 年到府收送的保固服務,以及免付費的客服專線「0800-600-206」,提供各領域的專業用戶最安心、穩定的創作、運算體驗。
    您需要登錄後才可以回帖 登錄 | 註冊 |

    本版積分規則

    小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

    GMT+8, 2025-12-29 17:40 , Processed in 0.106500 second(s), 53 queries .

    專業網站主機規劃 威利 100HUB.COM

    © 2001-2018

    快速回復 返回頂部 返回列表