東京理工大學(xué)科研團(tuán)隊在人工智能推理訓(xùn)練領(lǐng)域取得突破性進(jìn)展,其研究論文以編號arXiv:2602.09591v1公開后引發(fā)學(xué)界關(guān)注。該團(tuán)隊通過對比實驗發(fā)現(xiàn),不同基礎(chǔ)能力的AI模型在處理復(fù)雜推理任務(wù)時,對推理文本長度的需求存在顯著差異,這一發(fā)現(xiàn)為優(yōu)化AI訓(xùn)練策略提供了全新視角。
研究選取Qwen3-1.7B Base與DeepSeek-R1-Distill-Qwen-1.5B兩個模型作為實驗對象,前者代表推理能力較弱的基礎(chǔ)模型,后者則是通過知識蒸餾技術(shù)獲得較強推理能力的進(jìn)階模型。在數(shù)學(xué)競賽題測試中,科研人員采用DAPO強化學(xué)習(xí)框架,結(jié)合RLOO-LP、ALP、DRPO三種長度控制方法,系統(tǒng)觀察不同模型在推理長度變化時的表現(xiàn)差異。
實驗數(shù)據(jù)顯示,基礎(chǔ)模型Qwen3呈現(xiàn)出獨特的"長度依賴"特性:隨著推理文本長度增加,其解題準(zhǔn)確率持續(xù)提升。科研人員解釋,這類模型如同初學(xué)解題的學(xué)生,需要通過完整記錄每個推理步驟來確保方向正確,限制文本長度反而會剝奪其試錯空間。當(dāng)允許生成更長的推理過程時,模型有更多機會偶然發(fā)現(xiàn)正確解法,并通過強化學(xué)習(xí)機制鞏固有效推理模式。
與之形成鮮明對比的是,進(jìn)階模型DeepSeek-R1展現(xiàn)出倒U型性能曲線。該模型在中等長度推理時表現(xiàn)最佳,過短導(dǎo)致思考不充分,過長則引發(fā)"過度分析"現(xiàn)象。研究團(tuán)隊通過答案分布分析發(fā)現(xiàn),當(dāng)推理文本過長時,模型雖能保持主要答案的正確性,但會生成大量偏離目標(biāo)的次要答案,這種分散化失誤顯著降低了整體表現(xiàn)。這類似于經(jīng)驗豐富的廚師過度調(diào)整火候,反而破壞菜品本味。
科研人員構(gòu)建的投籃理論模型為這種現(xiàn)象提供了量化解釋。他們將AI推理過程比作射手投籃,正確答案對應(yīng)籃筐位置。基礎(chǔ)模型因瞄準(zhǔn)能力不足,需要增加投籃次數(shù)提高命中概率;進(jìn)階模型雖具備精準(zhǔn)瞄準(zhǔn)能力,但過度思考會導(dǎo)致動作變形,使投籃軌跡分散。通過引入模式準(zhǔn)確率、答案熵、模式占比三個指標(biāo),研究團(tuán)隊成功量化不同模型的失誤模式,為長度控制策略提供理論依據(jù)。
這項發(fā)現(xiàn)對AI產(chǎn)品開發(fā)具有直接指導(dǎo)意義。在訓(xùn)練階段,開發(fā)者需根據(jù)模型能力動態(tài)調(diào)整長度約束:對基礎(chǔ)模型應(yīng)放寬文本長度限制,允許其充分探索推理路徑;對進(jìn)階模型則需通過適度懲罰機制,引導(dǎo)其聚焦核心推理步驟。在實際部署時,基于基礎(chǔ)模型的系統(tǒng)需預(yù)留更多計算資源,而進(jìn)階模型系統(tǒng)則可優(yōu)先優(yōu)化響應(yīng)速度,這種差異化策略能有效平衡性能與效率。
研究團(tuán)隊同時指出當(dāng)前工作的局限性。實驗僅涉及數(shù)學(xué)推理領(lǐng)域,且測試模型數(shù)量有限。不同類型推理任務(wù)(如邏輯推理、創(chuàng)意寫作)可能呈現(xiàn)不同規(guī)律,隨著大模型架構(gòu)持續(xù)演進(jìn),現(xiàn)有結(jié)論可能需要修正。不過,該研究建立的分析框架為后續(xù)研究提供了重要工具,其提出的差異化訓(xùn)練理念,正在推動AI開發(fā)從"一刀切"向"精準(zhǔn)施策"轉(zhuǎn)變。
針對開發(fā)者關(guān)心的實踐問題,研究團(tuán)隊建議:在構(gòu)建AI推理系統(tǒng)時,應(yīng)建立模型能力評估機制,根據(jù)測試結(jié)果自動匹配長度控制參數(shù)。例如,可通過少量樣本測試判斷模型屬于"探索型"還是"精煉型",進(jìn)而選擇RLOO-LP或ALP等適配方法。這種動態(tài)調(diào)整策略,能有效避免資源浪費與性能損失的雙重困境。











