阿里巴巴近日正式推出其千問系列最新旗艦推理模型——Qwen3-Max-Thinking,標志著國產大模型在復雜推理任務領域邁出重要一步。該模型在19項國際權威基準測試中展現出與GPT-5.2-Thinking、Claude-Opus-4.5等頂尖模型同臺競技的實力,尤其在搭配測試時擴展(TTS)技術后,多項測試指標達到行業領先水平。
技術突破方面,Qwen3-Max-Thinking創新性地采用自適應工具調用機制,能夠根據任務需求智能選擇搜索引擎或代碼解釋器。這種設計突破了傳統模型需要用戶手動指定工具的局限,在對話界面中甚至移除了顯性的搜索按鈕。實測顯示,當用戶詢問"Clawdbot是什么"這類非時效性問題時,模型會主動進行網絡檢索并整合信息,而同類模型往往因知識庫局限直接拒絕回答。
在復雜任務處理上,該模型展現出獨特的解題策略。當被要求模擬拋擲硬幣1000次并驗證大數定律時,系統自動調用代碼解釋器生成60余行Python代碼,不僅準確統計結果,還通過可視化圖表直觀呈現概率分布。更值得關注的是,在分析英偉達與AMD股價走勢的任務中,模型雖然面臨數據源分散的挑戰,仍通過多渠道信息整合完成了趨勢分析,最終生成的圖表雖不夠精致但抓住了核心規律。
推理機制的創新體現在資源分配策略上。研發團隊摒棄了簡單增加并行推理路徑的傳統做法,轉而構建經驗累積式迭代框架。該系統通過"經驗提取"機制從歷史推理輪次中提煉關鍵信息,使模型在相同計算資源下能更聚焦于未解決的不確定性。測試數據顯示,這種策略在GPQA、HLE等推理基準測試中帶來2-4分的性能提升,同時將token消耗控制在合理范圍。
在編程任務處理方面,正式版模型相比預覽版展現出顯著進步。當要求構建力量與速度種群模擬器時,新版本更傾向于使用代碼生成可視化圖表,而非簡單生成靜態網頁。在明確指定網頁輸出要求后,系統交付的作品不僅功能完整,界面設計也更為精致,反映出模型在上下文理解與審美判斷方面的提升。不過,研發團隊對思維鏈展示方式的調整引發部分開發者討論,當前版本改為提供總結性推理路徑而非完整過程。
該模型已通過Qwen Chat平臺開放體驗,并提供具有競爭力的API服務定價:輸入tokens收費2.5元/百萬,輸出tokens收費10元/百萬。同步開源的Qwen3-TTS全系列語音合成模型,支持音色克隆、情感語音生成等高級功能,進一步拓展了應用場景。這些舉措顯示出阿里巴巴在構建大模型生態方面的系統布局,既保持核心技術競爭力,又通過開放接口促進生態繁榮。









