阿里近日正式推出其最新旗艦推理模型Qwen3-Max-Thinking,該模型在多項國際權威基準測試中表現卓越,成功超越GPT-5.2、Claude Opus 4.5及Gemini 3 Pro等知名模型,刷新全球人工智能推理性能紀錄。這一突破標志著阿里在人工智能領域的技術實力邁上新臺階,為行業樹立了新的標桿。
據技術團隊介紹,Qwen3-Max-Thinking通過擴大總參數規模、優化強化學習策略以及創新推理計算架構,實現了性能的質的飛躍。在科學知識、數學推理和代碼編程等關鍵領域,該模型均展現出顯著優勢,創造了多項測試的全球最高分。例如,在科學知識測試GPQA Diamond中,其表現遠超同類模型;在數學推理測試IMO-AnswerBench和代碼編程測試LiveCodeBench中,同樣以絕對優勢領跑。
該模型的核心創新在于引入了一種名為“測試時擴展”的全新推理機制。與傳統方法僅通過增加并行路徑來提升推理能力不同,這一機制能夠從歷史推理結果中提取經驗,進行多輪自我優化,從而在相同計算資源下實現更高效的推理。這一技術突破使得Qwen3-Max-Thinking在“人類最后的測試”HLE中以58.3分的成績脫穎而出,遠超GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分。
除了性能提升,Qwen3-Max-Thinking還顯著增強了原生Agent能力,能夠像專業人士一樣自主調用工具并持續思考。同時,模型幻覺問題得到大幅改善,為處理復雜真實任務提供了更可靠的支持。目前,普通用戶已可通過千問PC端和網頁端體驗這一新模型,千問APP也將于近期接入,所有用戶均可免費使用。











