AIPress.com.cn報道
4月7日消息,阿里巴巴通義實驗室智能計算團隊近日發布論文《Future-KL Influenced Policy Optimization》(FIPO),提出一種針對大模型推理強化學習的新算法,通過識別并優化少量關鍵 Token 的訓練信號,實現對推理能力的有效提升。
研究團隊在對強化學習(RL)微調前后的模型行為進行分析時發現,強化學習對模型輸出的影響呈現出高度稀疏的特征。在逐 Token 對比模型輸出分布后,研究人員發現超過 98% 的 Token 在訓練前后幾乎沒有變化,僅在極少數位置出現明顯差異。
進一步分析顯示,這些關鍵位置往往對應推理鏈中的重要邏輯決策點。研究人員將這種現象稱為“稀疏但關鍵”(sparse but critical):強化學習并非重新構建模型能力,而是通過調整少量關鍵 Token,引導模型沿著更穩定的推理路徑運行。
為了識別這些關鍵 Token,團隊發現傳統評估指標如熵(Entropy)或 KL 散度主要反映分布變化的幅度,卻難以判斷變化方向。為此,研究人員引入符號對數概率差(Δlog p)作為新的分析指標,用于捕捉強化學習對特定 Token 的“鼓勵”或“抑制”方向。
在實驗中,研究人員通過替換由 Δlog p 識別出的關鍵 Token,發現只需調整極少比例的 Token 即可恢復強化學習后的推理性能,其效果明顯優于基于 KL 散度或熵篩選的方式。
在進一步研究長推理鏈行為時,團隊還觀察到一種被稱為“Oops Moment”的現象:模型在推理過程中已經得到正確結果,卻在后續步驟中重新推導并最終給出錯誤答案。統計結果顯示,在相關實驗數據中,所謂的“頓悟時刻”(Aha Moment)出現概率約為 1%,而“自我誤導”(Oops Moment)的發生率約為 3%。
研究人員認為,這一問題源于傳統強化學習方法在獎勵分配上的粗粒度設計。以 GRPO 等算法為代表的策略通常在最終答案正確時向整條推理鏈均勻分配獎勵,使模型難以識別具體哪一步推理真正起到了關鍵作用。
為解決這一問題,研究團隊提出 FIPO(Future-KL Influenced Policy Optimization)算法,引入 Future-KL 指標,用于衡量單個 Token 對后續推理軌跡的影響。具體而言,算法通過計算當前 Token 對后續輸出概率分布產生的累積偏移,從而估計其“未來影響力”。
根據這一指標,算法在訓練過程中對 Token 進行差異化處理:當 Token 對后續推理產生正向影響時提高其權重;當 Token 對后續推理產生負向影響時則進行抑制,從而實現 Token 級別的信用分配。
為保證訓練穩定性,研究團隊還設計了三種穩定機制,包括極端值過濾、軟衰減窗口以及影響力權重裁剪,以避免由于概率分布波動帶來的梯度不穩定問題。
實驗在 Qwen2.5-32B-Base 模型上進行,并采用純強化學習設置,即未使用長鏈思維(Long-CoT)數據進行預訓練。結果顯示,在數學推理任務中,FIPO 能夠顯著提升模型的推理深度和性能。
在推理長度方面,傳統算法生成的推理鏈長度約為 4000 Token,而 FIPO 將平均推理長度提升至 10000 Token 以上。在 AIME 2024 數學測試基準上,模型準確率從基線算法 DAPO 的 50.0% 提升至 58.0%。
研究團隊表示,這一結果表明,通過細粒度的 Token 級信用分配機制,可以在不依賴額外長推理數據的情況下,持續擴展模型推理能力。相關代碼與模型已經開源。








