商湯科技近日宣布,正式開源兩款多模態自主推理模型——SenseNova-MARS-8B與SenseNova-MARS-32B。這兩款模型在多模態搜索與推理的核心基準測試中表現突出,性能超越了Gemini 3 Pro、GPT-5.2等知名專有模型,標志著多模態AI領域的技術突破。
SenseNova-MARS系列模型的核心優勢在于其動態視覺推理與圖文搜索深度融合的能力。作為首個支持此類功能的Agentic VLM(視覺語言模型),它能夠在多輪推理過程中主動調用圖像搜索、文本搜索及圖像裁剪工具。例如,當需要分析圖片細節時,模型可通過放大或裁剪圖像定位關鍵信息,再結合外部知識庫完成背景查詢,整個過程無需人工干預。這一特性使其在處理復雜任務時展現出接近人類思維的連貫性。
在基準測試中,SenseNova-MARS的表現令人矚目。在MMSearch、HR-MMSearch、FVQA等搜索導向型測試中,32B版本分別取得74.3和54.4的得分,超越Gemini-3-Pro與GPT-5.2;在知識密集型任務中,其依賴外部搜索工具的比例高達90%,僅10%依賴局部感知,體現了對全局信息的精準把握。而在高分辨率感知測試如V Bench中,32B版本同樣優于Qwen3-VL-235B-A22B等模型,證明其在視覺理解與推理能力上的均衡性。
技術實現層面,SenseNova-MARS采用雙階段流水線并行訓練策略。第一階段通過系統框架訓練(SFT)構建基礎能力:針對跨模態數據稀缺問題,研發團隊設計自動化數據合成引擎,利用細粒度視覺錨點與多跳檢索機制,動態生成高復雜度推理鏈路,并通過閉環校驗剔除低質量數據。第二階段引入強化學習(RL),模型在決策正確時獲得獎勵,錯誤時調整策略,配合BN-GSPO算法避免“偏科”,確保在簡單與復雜任務中均能穩定進步。這種訓練方式使模型不僅學會使用工具,更能根據場景靈活組合工具結果。
實際應用中,SenseNova-MARS的閉環解題能力可顯著提升產業效率。例如,在工業質檢場景,模型能通過裁剪圖像定位產品缺陷,結合搜索工具追溯生產批次信息;在金融風控領域,它可分析合同文本與關聯圖表,自動驗證數據一致性;在科研輔助中,模型能從論文配圖中提取實驗參數,跨數據庫檢索相關研究,加速假設驗證。這些場景此前因AI缺乏多步驟推理與工具協作能力而難以落地,而SenseNova-MARS的開源為行業提供了可定制的解決方案。
目前,商湯已將SenseNova-MARS的模型、代碼及數據集全量開源,開發者可通過GitHub獲取資源。這一舉措不僅推動了多模態AI技術的普及,也為跨領域應用創新提供了基礎框架。隨著模型在真實場景中的持續優化,其潛力有望進一步釋放,助力更多行業實現智能化轉型。












