滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

?阿里通義實驗室推出 FIPO 算法，助力大模型推理能力大幅提升

時間：2026-04-07 17:49:08 來源：CHINAZ編輯：快訊 IP：北京 發表評論無障礙通道

阿里通義實驗室的 Qwen Pilot 團隊近日推出了一種全新的算法 FIPO（Future-KL Influenced Policy Optimization），該算法旨在突破當前大模型在推理過程中面臨的瓶頸問題。傳統的強化學習方法(RLVR)在處理推理鏈中的每個 Token 時，往往無法區分出哪些 Token 對最終結果至關重要。因此，如何精準識別關鍵 Token 成為了一個亟待解決的難題。

FIPO 算法引入了 Future-KL 機制，專門獎勵那些對后續推理有顯著影響的 Token，從而解決了在純 RL 訓練中 “推理長度停滯” 的問題。在實際測試中，FIPO 在32B 規模的純 RL 設置下，表現超越了 o1-mini 和 DeepSeek-Zero-MATH 等同規模的模型。

根據團隊的研究結果，大多數 Token 在訓練前后幾乎沒有變化，顯示出強化學習的影響是極度稀疏的。團隊發現，行業常用的評估指標如熵和 KL 散度，難以精準識別關鍵 Token 的變化。因此，他們引入了新的觀察維度 —— 符號對數概率差（Δlog p），有效捕捉到優化的方向性。

在實驗中，FIPO 算法在零基礎模型 Qwen2.5-32B-Base 上進行測試，突破了推理長度的瓶頸，平均推理長度提升至10，000Token 以上。同時，該算法還實現了推理準確率的顯著提升，證明了其在復雜數學推理中的潛力。

劃重點:

更多>同類資訊

SpaceX披露IPO細節：將邀請1500名散戶

04-07

雷軍、馬云罕見聯手！千尋智能30天累計融資30億

04-07

貝佐斯AI底牌曝光：挖角OpenAI，擬建百億資本巨獸

04-07

特斯拉前員工出任小米汽車歐洲交付與物流負責人

04-07

車企造手機終究是錯付了？

04-07

蘋果、亞馬遜、OpenAI被指控抓取YouTube視頻訓練AI

04-07

羅福莉：各位醒醒吧，該結束token虛假狂歡了

04-07

小米羅福莉：給Token降價，不如把模型做好

04-07

貝佐斯AI新項目曝光：挖角OpenAI與xAI人才

04-07

蘋果首款折疊屏手機項目穩步推進產業鏈人士稱或于今年秋季正式亮相

04-07

小米科技工商變更：黎萬強、洪鋒退出股東行列注冊資本縮減

04-07

消息稱蘋果首款折疊屏手機已在試產頂配版價格或超2萬元

04-07

小米盧偉冰：K90 Max本月登場定位游戲性能旗艦

04-07

增長迅猛！Anthropic稱其年化收入突破300億美元

04-07

又撕破臉了！OpenAI敦促美方調查馬斯克：涉嫌反競爭、阻礙AGI落地

04-07

點擊查看更多 +

全站最新

中國央行連續第17個月增持黃金

段永平從“看不懂”到贊其為國際化先驅泡泡瑪特有何過人之處？

美股異動丨博通盤前漲超2% 與谷歌、Anthropic達成合作

美股異動丨神經分泌生物科學盤前漲5% 斥29億收購Soleno 進軍代謝病

龍虎榜丨航天電器漲停，三機構凈買入2.06億元

龍虎榜丨東岳硅材20CM漲停，三游資凈買入1.65億元

熱門內容

本欄最新

2026武漢具身智能展啟幕搭建全鏈平臺共繪人機協同產業新藍圖

馬云雷軍聯手注資！杭州千尋智能30天狂攬30億融資加速崛起

蚌埠全國首個米小庭智慧社區人才公寓開業打造高端人才暖心家園

長視頻營銷制勝法則：精準結構布局實現從吸引到轉化的全鏈路升級

福州福晟大廈2026年4月再拍整座起拍價約3.58億元此前曾兩度流拍

3月新能源格局生變：零跑登頂領跑，主流市場成新勢力角逐關鍵

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

?阿里通義實驗室推出 FIPO 算法，助力大模型推理能力大幅提升