阿里正式推出千問(wèn)旗艦推理模型Qwen3-Max-Thinking,該模型在事實(shí)知識(shí)、復(fù)雜推理、指令遵循、人類偏好對(duì)齊及智能體能力等關(guān)鍵維度實(shí)現(xiàn)突破性進(jìn)展。在19項(xiàng)權(quán)威基準(zhǔn)測(cè)試中,其性能表現(xiàn)與GPT-5.2-Thinking、Claude-Opus-4.5等國(guó)際頂尖模型持平,部分指標(biāo)甚至實(shí)現(xiàn)超越。
這款總參數(shù)規(guī)模超萬(wàn)億的模型通過(guò)三項(xiàng)核心創(chuàng)新實(shí)現(xiàn)性能躍升:其一,采用更大規(guī)模的強(qiáng)化學(xué)習(xí)后訓(xùn)練策略;其二,引入推理技術(shù)系列創(chuàng)新;其三,構(gòu)建自適應(yīng)工具調(diào)用體系。在科學(xué)知識(shí)(GPQA Diamond)、數(shù)學(xué)推理(IMO-AnswerBench)和代碼編程(LiveCodeBench)等專項(xiàng)測(cè)試中,該模型刷新多項(xiàng)SOTA紀(jì)錄,其中數(shù)學(xué)推理得分較前代提升12.3%,代碼生成準(zhǔn)確率提高9.7%。
模型最引人注目的突破在于原生Agent能力的進(jìn)化。通過(guò)自主調(diào)用搜索引擎、記憶模塊和代碼解釋器,Qwen3-Max-Thinking可像專業(yè)人士般實(shí)現(xiàn)"思考-工具調(diào)用-再思考"的閉環(huán)流程。在金融分析場(chǎng)景中,模型能自動(dòng)檢索實(shí)時(shí)市場(chǎng)數(shù)據(jù),調(diào)用Python解釋器進(jìn)行復(fù)雜計(jì)算,最終生成包含可視化圖表的深度報(bào)告。這種能力使模型在處理真實(shí)復(fù)雜任務(wù)時(shí)的幻覺(jué)率降低67%,用戶滿意度提升41%。
技術(shù)團(tuán)隊(duì)提出的測(cè)試時(shí)擴(kuò)展技術(shù)(Test-Time Scaling)構(gòu)成另一重要?jiǎng)?chuàng)新。該技術(shù)通過(guò)動(dòng)態(tài)分配推理階段計(jì)算資源,在保持相同token消耗的前提下,使模型在關(guān)鍵基準(zhǔn)測(cè)試中的表現(xiàn)顯著提升:GPQA得分從90.3增至92.8,LiveCodeBench v6從88.0提升至91.4。這種迭代式自我反思機(jī)制通過(guò)提取歷史推理經(jīng)驗(yàn),避免重復(fù)計(jì)算,在相同上下文窗口內(nèi)實(shí)現(xiàn)更高效的信息融合。
目前,用戶可通過(guò)Qwen Chat平臺(tái)(chat.qwen.ai)直接體驗(yàn)?zāi)P徒换スδ埽_發(fā)者則可調(diào)用開放API(模型名稱:qwen3-max-2026-01-23)進(jìn)行二次開發(fā)。阿里云百煉平臺(tái)同步上線該模型(https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3-max-2026-01-23),提供從模型調(diào)用到應(yīng)用部署的全鏈路支持。
自適應(yīng)工具調(diào)用體系經(jīng)過(guò)特殊訓(xùn)練流程打造:在完成基礎(chǔ)工具使用微調(diào)后,模型通過(guò)規(guī)則反饋和模型反饋的混合訓(xùn)練模式,在多樣化任務(wù)場(chǎng)景中持續(xù)優(yōu)化工具選擇策略。實(shí)驗(yàn)數(shù)據(jù)顯示,該體系使搜索工具使用頻率提升3倍,代碼解釋器調(diào)用準(zhǔn)確率達(dá)到92%,在處理需要多工具協(xié)同的復(fù)雜任務(wù)時(shí),任務(wù)完成率較前代提高58%。










