滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

通義實驗室發布新算法：改進大模型推理訓練機制

時間：2026-04-08 03:55:53 來源：鞭牛士編輯：快訊 IP：北京 發表評論無障礙通道

AIPress.com.cn報道

4月7日消息，阿里巴巴通義實驗室智能計算團隊近日發布論文《Future-KL Influenced Policy Optimization》（FIPO），提出一種針對大模型推理強化學習的新算法，通過識別并優化少量關鍵 Token 的訓練信號，實現對推理能力的有效提升。

研究團隊在對強化學習（RL）微調前后的模型行為進行分析時發現，強化學習對模型輸出的影響呈現出高度稀疏的特征。在逐 Token 對比模型輸出分布后，研究人員發現超過 98% 的 Token 在訓練前后幾乎沒有變化，僅在極少數位置出現明顯差異。

進一步分析顯示，這些關鍵位置往往對應推理鏈中的重要邏輯決策點。研究人員將這種現象稱為“稀疏但關鍵”（sparse but critical）：強化學習并非重新構建模型能力，而是通過調整少量關鍵 Token，引導模型沿著更穩定的推理路徑運行。

為了識別這些關鍵 Token，團隊發現傳統評估指標如熵（Entropy）或 KL 散度主要反映分布變化的幅度，卻難以判斷變化方向。為此，研究人員引入符號對數概率差（Δlog p）作為新的分析指標，用于捕捉強化學習對特定 Token 的“鼓勵”或“抑制”方向。

在實驗中，研究人員通過替換由 Δlog p 識別出的關鍵 Token，發現只需調整極少比例的 Token 即可恢復強化學習后的推理性能，其效果明顯優于基于 KL 散度或熵篩選的方式。

在進一步研究長推理鏈行為時，團隊還觀察到一種被稱為“Oops Moment”的現象：模型在推理過程中已經得到正確結果，卻在后續步驟中重新推導并最終給出錯誤答案。統計結果顯示，在相關實驗數據中，所謂的“頓悟時刻”（Aha Moment）出現概率約為 1%，而“自我誤導”（Oops Moment）的發生率約為 3%。

研究人員認為，這一問題源于傳統強化學習方法在獎勵分配上的粗粒度設計。以 GRPO 等算法為代表的策略通常在最終答案正確時向整條推理鏈均勻分配獎勵，使模型難以識別具體哪一步推理真正起到了關鍵作用。

為解決這一問題，研究團隊提出 FIPO（Future-KL Influenced Policy Optimization）算法，引入 Future-KL 指標，用于衡量單個 Token 對后續推理軌跡的影響。具體而言，算法通過計算當前 Token 對后續輸出概率分布產生的累積偏移，從而估計其“未來影響力”。

根據這一指標，算法在訓練過程中對 Token 進行差異化處理：當 Token 對后續推理產生正向影響時提高其權重；當 Token 對后續推理產生負向影響時則進行抑制，從而實現 Token 級別的信用分配。

為保證訓練穩定性，研究團隊還設計了三種穩定機制，包括極端值過濾、軟衰減窗口以及影響力權重裁剪，以避免由于概率分布波動帶來的梯度不穩定問題。

實驗在 Qwen2.5-32B-Base 模型上進行，并采用純強化學習設置，即未使用長鏈思維（Long-CoT）數據進行預訓練。結果顯示，在數學推理任務中，FIPO 能夠顯著提升模型的推理深度和性能。

在推理長度方面，傳統算法生成的推理鏈長度約為 4000 Token，而 FIPO 將平均推理長度提升至 10000 Token 以上。在 AIME 2024 數學測試基準上，模型準確率從基線算法 DAPO 的 50.0% 提升至 58.0%。

研究團隊表示，這一結果表明，通過細粒度的 Token 級信用分配機制，可以在不依賴額外長推理數據的情況下，持續擴展模型推理能力。相關代碼與模型已經開源。

04-08

辛巴關聯公司因虛假宣傳被罰32萬

04-08

順豐同城年報“含金量”十足：以專業履約筑牢增長根基，估值重塑可期

04-08

鈴聲背后的猶豫：當代年輕人與電話的“微妙博弈”

04-08

京東JoyAI-Image-Edit圖像模型開源，引領AI圖像編輯進入三維空間重塑新時代

JoyAI-Image-Edit深度貼合真實世界空間規律，從空間位置關系、多視角一致性、相機感知到場景推理等維度全面建模，實現了相機坐標視角變換、物體空間位移旋轉、幾何結構精準控制等多項空間編輯技術突破，將…

04-08

智譜求“深”登智能之巔，Minimax求“廣”拓生態之疆：AI江湖雙雄并立

04-08

小米科技工商變更：黎萬強洪鋒退出注冊資本縮減至約14.8億

04-08

天龍三號首飛失利：與獵鷹9號對標之路，歸零迭代成破局關鍵

天龍三號火箭首飛失利，暴露地面測試不足，需加強系統驗證與歸零迭代。

04-08

銀河航天啟動IPO進程：已發射40余顆自研衛星創始人徐鳴掌控超七成表決權

瑞財經吳文婷近日，銀河航天(北京)科技集團股份有限公司（以下簡稱“銀河航天”）啟動IPO。本次IPO的輔導機構為華泰聯合證券有限責任公司，律師事務所為上海市錦天城律師事務所，會計師事務所為立信會計師事務所…

04-08

AI視頻生成新局：快手可靈與字節Seedance，誰能引領行業新潮流？

04-08

德邦退市“合體”京東：一代快運傳奇謝幕，物流業整合大幕拉開

04-08

蘋果入局折疊屏賽道，千億市場爆發，哪些A股企業將迎新機遇？

04-08

體制老將跨界逐夢太空：中科宇航力箭二號能否改寫商業航天格局？

04-08

盒馬重構茶葉供應鏈：拆解非標品，讓定價權回歸品質與效率

04-08

李嘉誠家族“低買高賣”：石油擴張與電網出售背后的商業智慧

04-08

點擊查看更多 +

全站最新

天龍三號首飛失利：與獵鷹9號對標之路，歸零迭代成破局關鍵

從“犀利哥”到“小馬云”：流量狂歡后，普通人被消耗的殘酷真相

盒馬重構茶葉供應鏈：拆解非標品，讓定價權回歸品質與效率

智譜轉型“中國Anthropic”：定價權、規模效應與轉型速度成關鍵挑戰

二代刀片電池與閃充登場，比亞迪技術革新能否重塑新能源市場新格局？

11.99萬起！博越L小藍燈版讓燃油車高階智駕不再是“奢侈品”

熱門內容

本欄最新

京東JoyAI-Image-Edit圖像模型開源，引領AI圖像編輯進入三維空間重塑新時代

天龍三號首飛失利：與獵鷹9號對標之路，歸零迭代成破局關鍵

盒馬重構茶葉供應鏈：拆解非標品，讓定價權回歸品質與效率

智譜轉型“中國Anthropic”：定價權、規模效應與轉型速度成關鍵挑戰

黃曉明帶兒子騎行引熱議，未注意交規公開致歉，育兒路上敲響警鐘

上汽大眾途觀L Pro再添新成員！300TSI智悅版入門款上市 21.38萬起售

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

通義實驗室發布新算法：改進大模型推理訓練機制