商湯科技近日宣布開源其最新研發的多模態自主推理模型——SenseNova-MARS,該模型同時推出8B和32B兩個版本,為人工智能領域帶來了新的突破。作為首個支持動態視覺推理與圖文搜索深度融合的Agentic VLM模型,SenseNova-MARS在多模態搜索與推理方面展現出卓越性能,在核心基準測試中以69.74分的成績超越了Gemini-3-Pro和GPT-5.2等知名模型。
SenseNova-MARS的獨特之處在于其自主規劃與工具調用能力。面對復雜任務時,該模型能夠自動規劃解決步驟,調用圖像裁剪、文本及圖像搜索等工具,形成完整的解決方案閉環。例如,在識別賽車服上的微小logo、查詢公司成立年份、匹配車手出生年月并計算差值的任務中,模型無需人工干預即可完成全流程操作。這種能力使AI系統首次具備了真正的"執行能力",能夠處理需要多步驟推理和跨模態信息整合的復雜場景。
在性能驗證方面,SenseNova-MARS在MMSearch、HR-MMSearch、FVQA等多個權威基準測試中均取得開源模型中的最佳成績,甚至超越了Gemini-3.0-Pro等頂級閉源模型。該模型在細節識別、信息檢索和邏輯推理三大核心能力上表現突出:其圖像裁剪功能可精準定位占比不足5%的微小細節,如賽事照片中的觀眾標語或設備標識;圖像搜索能實時匹配物體、人物或場景的相關信息;文本搜索則可秒級獲取公司成立時間、行業數據等精準信息。
實際應用場景中,SenseNova-MARS已展現出強大潛力。在行業分析領域,該模型可從產品發布會照片中自動識別企業標志,快速搜集產品參數、時間節點等關鍵信息;在賽事報道方面,模型能通過照片識別運動員身份、追溯比賽背景,并補充觀眾反應等現場細節。更值得關注的是,該模型可處理超長步驟的多模態推理任務,自動調用多種工具驗證假設并形成關鍵判斷,為科研、金融等需要深度分析的領域提供了新的技術路徑。










