阿里巴巴通義實驗室智能計算團隊在強化學習領域取得新突破,其研發的FIPO算法通過精準調控關鍵Token訓練信號,成功提升大模型推理能力。該研究成果已發表于學術論文《Future-KL Influenced Policy Optimization》,相關代碼與模型同步開源。
研究團隊在分析強化學習微調模型時發現,訓練前后超過98%的Token輸出分布幾乎保持不變,僅有極少數位置發生顯著變化。這些關鍵位置集中出現在推理鏈的邏輯決策節點,形成"稀疏但關鍵"的獨特現象。研究人員指出,強化學習并非全面重構模型能力,而是通過調整少量關鍵Token引導模型形成更穩定的推理路徑。
傳統評估指標如熵值和KL散度僅能反映分布變化幅度,卻無法判斷變化方向。為此,團隊創新性地引入符號對數概率差(Δlog p)作為分析工具,該指標可精準捕捉強化學習對特定Token的"鼓勵"或"抑制"作用。實驗表明,通過替換Δlog p識別的關鍵Token,僅需調整極少量Token即可恢復模型推理性能,效果顯著優于傳統篩選方法。
在長推理鏈研究中,團隊觀察到模型存在"自我誤導"現象:約3%的推理過程中,模型在得出正確結論后仍繼續推導,最終導致錯誤答案。相比之下,真正產生突破性理解的"頓悟時刻"僅占1%。這種現象源于傳統強化學習算法在獎勵分配時存在缺陷,GRPO等典型算法會將最終正確答案的獎勵均勻分配至整個推理鏈,使模型難以定位關鍵推理步驟。
針對上述問題,FIPO算法引入Future-KL指標量化單個Token對后續推理軌跡的影響。該指標通過計算當前Token對后續輸出概率分布的累積偏移,評估其"未來影響力"。訓練過程中,算法對產生正向影響的Token提高權重,對產生負向影響的Token進行抑制,實現Token級別的精準信用分配。為確保訓練穩定性,團隊還設計了極端值過濾、軟衰減窗口和影響力權重裁剪三重保障機制。
在Qwen2.5-32B-Base模型的純強化學習實驗中,FIPO算法展現出顯著優勢。傳統算法生成的推理鏈平均長度約4000 Token,而FIPO將這一數值提升至10000 Token以上。在AIME 2024數學測試基準上,模型準確率從基線算法DAPO的50.0%提升至58.0%。研究證實,通過細粒度的Token級信用分配機制,模型可在不依賴額外長推理數據的情況下持續擴展推理能力。











