找回密碼註冊
作者: lin.sinchen
查看: 1144
回復: 0

文章標籤:

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

Micron Crucial T710 SSD 玩家開箱體驗分享

進入疾速前進! 快速邁向終局勝利 使用 Crucial® T710 Gen5 NVMe® ...

COUGAR ULTIMUS PRO玩家開箱體驗分享活動

ULTIMUS PRO 終極功能,無限連接 Ultimus Pro 採用簡潔的 98% 鍵盤佈 ...

COUGAR AIRFACE 180 玩家開箱體驗分享活動

AIRFACE 180 180mm 風扇,威力加倍 Airface 180 預裝兩顆 180mm PWM ...

COUGAR GR 750/GR 850 玩家開箱體驗分享活

ATX 3.1 兼容,穩定供電無憂 COUGAR GR 系列通過 80 PLUS 金牌認證 ...

打印 上一主題 下一主題

[業界新聞] NVIDIA 加速 Gemma 4 在 RTX PC 與 DGX Spark 的地端部署推進代理 AI 應用

[複製鏈接]| 回復
跳轉到指定樓層
1#


開放模型正推動新一波裝置端 AI 浪潮,將創新從雲端延伸至日常裝置。隨著模型持續進化,其價值愈發取決於是否能存取地端即時脈絡資訊,將有意義的洞察轉化為可執行的行動。

為因應趨勢,Google 的 Gemma 4 家族系列加入全新模型,主打「小巧、快速、全能多模態(omni-capable)」,可在多種裝置上高效率地端運行。

Google 也與 NVIDIA 合作,將 Gemma 4 針對 NVIDIA GPU 進行最佳化,讓其可在多種系統上發揮高效能,涵蓋範圍包括資料中心部署、搭載 NVIDIA RTX 的 PC 與工作站、NVIDIA DGX Spark 個人 AI 超級電腦,以及 NVIDIA Jetson Orin Nano 邊緣 AI 模組。



Gemma 4:為 NVIDIA GPU 最佳化的精巧模型

Gemma 4 開放模型家族的最新成員包含 E2B、E4B、26B 和 31B 等版本,專為從邊緣裝置到高效能 GPU 的高效率部署而設計。

所有配置均採用 Q4_K_M 量化、BS = 1、ISL = 4096 和 OSL = 128,在 NVIDIA GeForce RTX 5090 與 Mac M3 Ultra 桌上型電腦進行測試。Token 生成吞吐量數據是以 llama.cpp b7789 為基礎,並使用 llama-bench 工具測得。

新一代精巧模型可支援多種任務,包括:
  • 推理:在複雜問題解題任務中展示出色表現。
  • 程式開發面向開發者工作流程的程式碼生成與除錯。
  • 代理原生支援結構化工具使用(function calling)。
  • 視覺、影片和音能力:支援物件辨識、自動語音辨識,以及文件或影片理解等多模態互動。
  • 交錯式多模態輸入:可在單一指令中,以任意順序混合文字與影像。
  • 多語言:開箱即用,支援超過 35 種語言,並已在超過 140 種語言上進行預先訓練。

E2B 和 E4B 模型專為超高效率、低延遲的邊緣推理打造,可在包括 Jetson Nano 模組在內的多種裝置上,以接近零延遲的方式完全離線執行。26B 和 31B 模型則專為高效能推理與以開發者為中心的工作流程設計,非常適合代理 AI 任務。該批模型已針對 NVIDIA RTX GPU 和 DGX Spark 完成高效率運行準備,可用於驅動開發環境、程式助理及代理驅動的工作流程。

隨著地端代理 AI 持續升溫,OpenClaw 等應用使得 RTX PC、工作站和 DGX Spark 上「隨時待命」的 AI 助理成為現實。最新的 Gemma 4 模型也相容於 OpenClaw,讓使用者能建構從個人檔案、應用程式與工作流程中擷取脈絡的地端智慧代理,以實現任務自動化。

查看頁面了解如何在 RTX GPU 和 DGX Spark 上免費運行 OpenClaw,或查看 DGX Spark OpenClaw playbook。如欲了解 Gemma 4 家族最新成員的更多資訊,請參閱 Google DeepMind 公告部落格

如何開始?在 RTX GPU DGX Spark 上運行 Gemma 4

NVIDIA 亦與 Ollama 和 llama.cpp 合作,為各款 Gemma 4 模型提供更完善的地端部署體驗。若要在地端使用 Gemma 4,用戶可以下載 Ollama 來運行 Gemma 4 模型,或安裝 llama.cpp,並搭配 Gemma 4 的 GGUF Hugging Face checkpoint 使用。此外,Unsloth 也同步支援,透過 Unsloth Studio 提供已最佳化與量化的模型,實現高效率的地端微調與部署。現在即可在 Unsloth Studio 中執行及微調 Gemma 4。

在 NVIDIA GPU 上運行 Gemma 4 系列等開放模型可獲得更理想的效能表現。NVIDIA Tensor Core 可加速 AI 推論工作負載,進而為地端運行提供更高吞吐量和更低延遲。同時 CUDA 軟體堆疊可確保與主流框架及工具廣泛相容,讓模型自發佈首日起即可高效率執行。

這樣的組合讓 Gemma 4 等開放模型可在多種系統上擴展部署,涵蓋範圍從邊緣端的 Jetson Orin Nano 到 RTX PC、工作站和 DGX Spark,都能在不需大量額外最佳化的情況下運行。

請參閱 NVIDIA 技術部落格,了解如何在 NVIDIA GPU 上開始使用 Gemma 4 的更多細節,並進一步認識 NVIDIA 在開放模型領域的相關工作。
更多圖片 小圖 大圖
組圖打開中,請稍候......
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2026-4-10 06:16 , Processed in 0.372071 second(s), 66 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表