阿里巴巴旗下千問團隊近日正式發(fā)布全新語言模型Qwen3-Coder-Next,這款專為編碼代理和本地開發(fā)場景設計的開放權重模型,通過創(chuàng)新架構與訓練方法在編程智能體領域展現(xiàn)出顯著優(yōu)勢。該模型基于Qwen3-Next-80B-A3B-Base構建,采用混合注意力機制與專家混合(MoE)架構,在保持低推理成本的同時實現(xiàn)了強大的編程能力。
在訓練方法上,研究團隊突破傳統(tǒng)參數(shù)擴展模式,重點強化智能體訓練信號的擴展性。通過構建包含大規(guī)模可驗證編程任務和可執(zhí)行環(huán)境的訓練體系,模型能夠直接從環(huán)境反饋中學習優(yōu)化。具體訓練流程涵蓋四個階段:首先在代碼與智能體相關數(shù)據(jù)上進行持續(xù)預訓練,隨后利用高質量智能體軌跡數(shù)據(jù)進行監(jiān)督微調,接著針對軟件工程、QA測試、Web/UX設計等領域開展專家訓練,最終將多領域專家能力蒸餾整合到單一可部署模型中。這種訓練范式特別強化了長程推理、工具調用和錯誤恢復能力,這些特性對現(xiàn)實編程場景至關重要。
性能評估顯示,該模型在多個權威編程智能體基準測試中表現(xiàn)突出。在SWE-Bench系列測試中,使用SWE-Agent框架時模型在Verified版本上取得超過70%的準確率,在多語言版本和更具挑戰(zhàn)性的Pro版本中仍保持競爭力。特別值得注意的是,盡管激活參數(shù)規(guī)模僅30億,其性能已可媲美激活參數(shù)多10-20倍的開源模型。在TerminalBench 2.0和Aider等基準測試中,模型同樣展現(xiàn)出優(yōu)異表現(xiàn)。
效率分析圖表揭示,Qwen3-Coder-Next在性能與資源消耗間實現(xiàn)了更優(yōu)平衡。在SWE-Bench-Pro測試中,30億激活參數(shù)版本的性能與參數(shù)量大數(shù)十倍的模型相當,展現(xiàn)出顯著的成本優(yōu)勢。雖然全注意力架構的專有模型在絕對性能上仍占優(yōu)勢,但該模型在低成本智能體部署場景中已處于領先位置,特別適合資源受限環(huán)境下的編程任務處理。
技術文檔顯示,模型開發(fā)團隊將持續(xù)優(yōu)化推理決策能力,計劃擴展對更多編程任務類型的支持,并建立快速迭代機制根據(jù)用戶反饋持續(xù)改進。目前該模型已通過ModelScope和Hugging Face平臺開源,開發(fā)者可自由獲取模型權重及訓練代碼進行二次開發(fā)。





