AIPress.com.cn報道
4月3日消息,英偉達發布技術博客稱,已與谷歌合作對Gemma 4開源模型進行優化,使其能夠在英偉達 GPU生態中高效運行,從RTX PC到DGX Spark個人AI超級計算機以及Jetson邊緣設備均可部署,從而推動本地“Agentic AI”應用的發展。
Gemma 4是谷歌DeepMind最新發布的開源模型家族,包括E2B、E4B、26B和31B四種規模。英偉達表示,這些模型在保持較小體積的同時具備較強推理、代碼生成和多模態能力,可在本地設備上完成復雜任務。通過針對英偉達 GPU的優化,Gemma 4能夠在從數據中心到個人電腦的多種硬件環境中高效運行。
在功能方面,Gemma 4支持復雜推理、代碼生成與調試,并原生支持函數調用等結構化工具使用能力,使其能夠作為AI代理執行自動化任務。模型還具備多模態處理能力,可處理圖像、視頻與音頻,并支持在同一提示中混合文本和圖像輸入。語言方面,模型支持35種以上語言的直接使用,并在超過140種語言數據上進行預訓練。
其中E2B和E4B模型主要面向邊緣設備與移動端部署,強調低延遲和離線運行能力,可在Jetson Nano等設備上實現接近實時的推理性能。26B和31B模型則更適合開發者工作流和高性能推理任務,能夠在RTX GPU和DGX Spark設備上支持本地代碼助手、開發工具和AI代理應用。
英偉達表示,隨著本地AI代理逐漸成為重要應用形態,一些軟件已經開始利用這些模型構建常駐本地的智能助手。例如OpenClaw平臺已兼容Gemma 4,使用戶可以構建訪問本地文件、應用程序和工作流程的AI代理,以自動化日常任務。
在部署方面,Gemma 4模型可以通過Ollama或llama.cpp在本地運行,也可以從Hugging Face下載GGUF格式模型權重。英偉達還與Unsloth合作提供優化版本,以支持更高效的本地微調和部署。
英偉達表示,借助GPU中的Tensor Core加速以及CUDA軟件棧,Gemma 4等開源模型可以在不同硬件平臺上實現更高吞吐量和更低延遲,使開發者能夠在本地設備上運行復雜AI應用,而不必完全依賴云端計算資源。(AI普瑞斯編譯)








