NVIDIA 加速 Gemma 4 在 RTX PC 與 DGX Spark 的地端部署推進代理 AI 應用

lin.sinchen · 發表於 2026-4-8 18:45:53

開放模型正推動新一波裝置端 AI 浪潮，將創新從雲端延伸至日常裝置。隨著模型持續進化，其價值愈發取決於是否能存取地端即時脈絡資訊，將有意義的洞察轉化為可執行的行動。

為因應趨勢，Google 的 Gemma 4 家族系列加入全新模型，主打「小巧、快速、全能多模態（omni-capable）」，可在多種裝置上高效率地端運行。

Google 也與 NVIDIA 合作，將 Gemma 4 針對 NVIDIA GPU 進行最佳化，讓其可在多種系統上發揮高效能，涵蓋範圍包括資料中心部署、搭載 NVIDIA RTX 的 PC 與工作站、NVIDIA DGX Spark 個人 AI 超級電腦，以及 NVIDIA Jetson Orin Nano 邊緣 AI 模組。

Gemma 4：為 NVIDIA GPU 最佳化的精巧模型

Gemma 4 開放模型家族的最新成員包含 E2B、E4B、26B 和 31B 等版本，專為從邊緣裝置到高效能 GPU 的高效率部署而設計。

所有配置均採用 Q4_K_M 量化、BS = 1、ISL = 4096 和 OSL = 128，在 NVIDIA GeForce RTX 5090 與 Mac M3 Ultra 桌上型電腦進行測試。Token 生成吞吐量數據是以 llama.cpp b7789 為基礎，並使用 llama-bench 工具測得。

新一代精巧模型可支援多種任務，包括：

推理：在複雜問題解題任務中展示出色表現。
程式開發：面向開發者工作流程的程式碼生成與除錯。
代理：原生支援結構化工具使用（function calling）。
視覺、影片和音訊能力：支援物件辨識、自動語音辨識，以及文件或影片理解等多模態互動。
交錯式多模態輸入：可在單一指令中，以任意順序混合文字與影像。
多語言：開箱即用，支援超過 35 種語言，並已在超過 140 種語言上進行預先訓練。

E2B 和 E4B 模型專為超高效率、低延遲的邊緣推理打造，可在包括 Jetson Nano 模組在內的多種裝置上，以接近零延遲的方式完全離線執行。26B 和 31B 模型則專為高效能推理與以開發者為中心的工作流程設計，非常適合代理 AI 任務。該批模型已針對 NVIDIA RTX GPU 和 DGX Spark 完成高效率運行準備，可用於驅動開發環境、程式助理及代理驅動的工作流程。

隨著地端代理 AI 持續升溫，OpenClaw 等應用使得 RTX PC、工作站和 DGX Spark 上「隨時待命」的 AI 助理成為現實。最新的 Gemma 4 模型也相容於 OpenClaw，讓使用者能建構從個人檔案、應用程式與工作流程中擷取脈絡的地端智慧代理，以實現任務自動化。

查看頁面了解如何在 RTX GPU 和 DGX Spark 上免費運行 OpenClaw，或查看 DGX Spark OpenClaw playbook。如欲了解 Gemma 4 家族最新成員的更多資訊，請參閱 Google DeepMind 公告部落格。

如何開始？在 RTX GPU 和 DGX Spark 上運行 Gemma 4

NVIDIA 亦與 Ollama 和 llama.cpp 合作，為各款 Gemma 4 模型提供更完善的地端部署體驗。若要在地端使用 Gemma 4，用戶可以下載 Ollama 來運行 Gemma 4 模型，或安裝 llama.cpp，並搭配 Gemma 4 的 GGUF Hugging Face checkpoint 使用。此外，Unsloth 也同步支援，透過 Unsloth Studio 提供已最佳化與量化的模型，實現高效率的地端微調與部署。現在即可在 Unsloth Studio 中執行及微調 Gemma 4。

在 NVIDIA GPU 上運行 Gemma 4 系列等開放模型可獲得更理想的效能表現。NVIDIA Tensor Core 可加速 AI 推論工作負載，進而為地端運行提供更高吞吐量和更低延遲。同時 CUDA 軟體堆疊可確保與主流框架及工具廣泛相容，讓模型自發佈首日起即可高效率執行。

這樣的組合讓 Gemma 4 等開放模型可在多種系統上擴展部署，涵蓋範圍從邊緣端的 Jetson Orin Nano 到 RTX PC、工作站和 DGX Spark，都能在不需大量額外最佳化的情況下運行。

請參閱 NVIDIA 技術部落格，了解如何在 NVIDIA GPU 上開始使用 Gemma 4 的更多細節，並進一步認識 NVIDIA 在開放模型領域的相關工作。

文章標籤：

文章分享：

+ MORE精選文章：

相關帖子

NVIDIA 傳將重推 RTX 3060 舊世代顯 ...

NVIDIA 推出 Nemotron 3 Nano Omni ...

三星 4nm 良率突破 80% 關鍵門檻，獲 ...

+ MORE活動推薦：

Micron Crucial T710 SSD 玩家開箱體驗分享

COUGAR ULTIMUS PRO玩家開箱體驗分享活動

COUGAR AIRFACE 180 玩家開箱體驗分享活動

COUGAR GR 750/GR 850 玩家開箱體驗分享活

[業界新聞] NVIDIA 加速 Gemma 4 在 RTX PC 與 DGX Spark 的地端部署推進代理 AI 應用

瀏覽過的版塊