阿里通義實驗室的 Qwen Pilot 團隊近日推出了一種全新的算法 FIPO(Future-KL Influenced Policy Optimization),該算法旨在突破當前大模型在推理過程中面臨的瓶頸問題。傳統的強化學習方法(RLVR)在處理推理鏈中的每個 Token 時,往往無法區分出哪些 Token 對最終結果至關重要。因此,如何精準識別關鍵 Token 成為了一個亟待解決的難題。
FIPO 算法引入了 Future-KL 機制,專門獎勵那些對后續推理有顯著影響的 Token,從而解決了在純 RL 訓練中 “推理長度停滯” 的問題。在實際測試中,FIPO 在32B 規模的純 RL 設置下,表現超越了 o1-mini 和 DeepSeek-Zero-MATH 等同規模的模型。
根據團隊的研究結果,大多數 Token 在訓練前后幾乎沒有變化,顯示出強化學習的影響是極度稀疏的。團隊發現,行業常用的評估指標如熵和 KL 散度,難以精準識別關鍵 Token 的變化。因此,他們引入了新的觀察維度 —— 符號對數概率差(Δlog p),有效捕捉到優化的方向性。
在實驗中,FIPO 算法在零基礎模型 Qwen2.5-32B-Base 上進行測試,突破了推理長度的瓶頸,平均推理長度提升至10,000Token 以上。同時,該算法還實現了推理準確率的顯著提升,證明了其在復雜數學推理中的潛力。
劃重點:











