岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear科技資訊
手機版
二維碼
內容搜索
無障礙通道
語言：中文 EN

ITBear旗下自媒體矩陣：

滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

通義實驗室新算法FIPO：精準優化關鍵Token 提升大模型推理能力

時間：2026-04-08 01:07:54 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

阿里巴巴通義實驗室智能計算團隊在強化學習領域取得新突破，其研發的FIPO算法通過精準調控關鍵Token訓練信號，成功提升大模型推理能力。該研究成果已發表于學術論文《Future-KL Influenced Policy Optimization》，相關代碼與模型同步開源。

研究團隊在分析強化學習微調模型時發現，訓練前后超過98%的Token輸出分布幾乎保持不變，僅有極少數位置發生顯著變化。這些關鍵位置集中出現在推理鏈的邏輯決策節點，形成"稀疏但關鍵"的獨特現象。研究人員指出，強化學習并非全面重構模型能力，而是通過調整少量關鍵Token引導模型形成更穩定的推理路徑。

傳統評估指標如熵值和KL散度僅能反映分布變化幅度，卻無法判斷變化方向。為此，團隊創新性地引入符號對數概率差（Δlog p）作為分析工具，該指標可精準捕捉強化學習對特定Token的"鼓勵"或"抑制"作用。實驗表明，通過替換Δlog p識別的關鍵Token，僅需調整極少量Token即可恢復模型推理性能，效果顯著優于傳統篩選方法。

在長推理鏈研究中，團隊觀察到模型存在"自我誤導"現象：約3%的推理過程中，模型在得出正確結論后仍繼續推導，最終導致錯誤答案。相比之下，真正產生突破性理解的"頓悟時刻"僅占1%。這種現象源于傳統強化學習算法在獎勵分配時存在缺陷，GRPO等典型算法會將最終正確答案的獎勵均勻分配至整個推理鏈，使模型難以定位關鍵推理步驟。

針對上述問題，FIPO算法引入Future-KL指標量化單個Token對后續推理軌跡的影響。該指標通過計算當前Token對后續輸出概率分布的累積偏移，評估其"未來影響力"。訓練過程中，算法對產生正向影響的Token提高權重，對產生負向影響的Token進行抑制，實現Token級別的精準信用分配。為確保訓練穩定性，團隊還設計了極端值過濾、軟衰減窗口和影響力權重裁剪三重保障機制。

在Qwen2.5-32B-Base模型的純強化學習實驗中，FIPO算法展現出顯著優勢。傳統算法生成的推理鏈平均長度約4000 Token，而FIPO將這一數值提升至10000 Token以上。在AIME 2024數學測試基準上，模型準確率從基線算法DAPO的50.0%提升至58.0%。研究證實，通過細粒度的Token級信用分配機制，模型可在不依賴額外長推理數據的情況下持續擴展推理能力。

04-08

盒馬重構茶葉供應鏈：拆解非標品，讓定價權回歸品質與效率

但隨著信息透明度的提升，這一價格體系正在松動瓦解：一方面，消費者獲取信息的渠道不斷增加，傳統的溢價空間被持續壓縮；另一方面，以盒馬為代表的渠道型平臺，正通過自有品牌與供應鏈能力，直接參與商品定義與定價過程，…

04-08

智譜轉型“中國Anthropic”：定價權、規模效應與轉型速度成關鍵挑戰

在價格戰仍是行業主旋律的背景下，這是國產大模型的第一張漲價牌，而且漲完后用戶不跑，這說明至少在一部分場景里，智譜的模型已經有了定價權。過去一年，智譜已與多個中東國家和東南亞國家展開合作，向當地輸出模型能力，…

04-08

蘋果闊折疊或命名iPhone Ultra 國內廠商新折疊機也欲跟進對標

IT之家 4 月 7 日消息，博主 @數碼閑聊站今日發文稱，傳聞蘋果闊折疊命名是 iPhoneUltra。他透露，國內廠商的闊折疊手機也在考慮跟進，新折疊暫命名 Ultra，屏幕形態、芯片硬件、價格全面對…

04-08

小米SU7拆車后7小時重裝完成！沉浸式裝車視頻發布僅用于展示測試

IT之家 4 月 7 日消息，本月早些時候（4 月 2 日），小米創辦人、董事長兼 CEO 雷軍舉行了新一代 SU7 拆車直播。在此次直播活動中，一輛新一代小米 SU7 被從整車拆到了零部件級。雷軍也在直播…

04-08

REDMI K90 Max“內部揭秘”：風冷散熱亮眼，本月登場引期待

IT之家 4 月 7 日消息，小米 REDMI 產品經理胡馨心今日發布視頻，“內部揭秘”REDMI K90Max手機部分信息。此次“內部揭秘”并未公布新機的外觀，但卻展示了其內部結構。據介紹，REDMI …

04-08

魏思琪微博曝光新機！REDMI K90至尊版攜風冷登場性能續航雙升級

今日，小米中國區市場部總經理魏思琪用小米新機發布微博，不出意外，這正是即將登場的REDMIK90至尊版，這將是小米首款配備主動散熱風扇的機型。整體來看，REDMI K90至尊版在散熱形態、性能釋放與續航…

04-08

Anthropic年化收入破300億美元與博通谷歌合作部署約3.5吉瓦AI算力

Anthropic首席財務官指出，與博通和谷歌的合作將幫助公司建立足以支撐客戶群驚人增長所需的算力。這一合作將于2027年啟動。此外，博通在文件中表示：“Anthropic對上述擴展AI算力的使用取決于其持續…

04-08

蘋果iPhone Fold試生產開啟發布或晚于iPhone 18 Pro 9月發布存變數

【環球網科技綜合報道】4月7日消息，據9to5mac報道，蘋果合作伙伴富士康已開啟iPhoneFold的試生產工作。試生產作為量產前的重要環節，旨在全面檢測生產流程與產品質量，為后續大規模量產做準備。近…

04-08

新一代小米SU7拆車后7小時重裝完成，裝車視頻發布用于展示和測試

04-08

Omdia預測：2030年社交視頻廣告助力全球視訊收入突破萬億美元大關

來源：環球網【環球網科技綜合報道】4月7日消息，據Omdia媒體和娛樂部門負責人Maria RuaAguete發布的最新數據顯示，預計到2030年，全球傳統電視和在線視頻收入將超過1萬億美元。 Omdi…

04-08

蘋果折疊屏新進展：iPhone Fold試產中書本式設計或秋季亮相

快科技4月7日消息，日前，有媒體報道稱，蘋果首款折疊屏手機iPhone Fold正在富士康試產。據證券時報報道，蘋果產業鏈人士對此表示，蘋果首款折疊屏手機項目方案早已確定，目前該項目正在正常推進中。試產是…

04-08

Google推出AI語音轉寫新應用AI Edge Eloquent，離線轉寫+智能潤色成亮點

在應用中，用戶可以看到實時轉錄結果，點擊暫停后，應用會自動過濾掉"嗯"、"啊"等語氣詞，并對文本進行潤色處理。Google AI Edge Eloquent可以從用戶的Gmail賬戶導入特定的關鍵詞、姓名和…

04-08

榮耀WIN游戲本4月23日登場，頂配250W性能釋放補齊電競拼圖

作為榮耀WIN生態系列的第二款核心產品，該游戲本定位高端性能旗艦賽道。在散熱模組設計上，該版本采用了較為激進的風扇配置，以確保高負載場景下的運行穩定性。榮耀此時攜WIN 游戲本入局，補齊了其 PC 全場景…

04-08

99元小米藍牙遙控器2 Pro來襲！功能升級，送父母長輩的貼心之選

除此之外，小米藍牙遙控器 2Pro還內置了NFC一觸投屏功能，這也是該遙控器很適合老年用戶的主要原因。如果該產品加入了“查找”功能，通過手機內置的APP讓小米藍牙遙控器 2 Pro發出聲音，從而讓找遙控器…

04-08

點擊查看更多 +

全站最新

上汽通用五菱華境S開啟預售華為科技加持混動四驅性能強勁

黃曉明帶兒子騎行引熱議，未注意交規公開致歉，育兒路上敲響警鐘

上汽大眾途觀L Pro再添新成員！300TSI智悅版入門款上市 21.38萬起售

蔚來ES9官圖來襲！4月9日亮相預售，旗艦科技與超長續航齊登場

上汽奧迪E7X破佰駿山地賽車場SUV圈速紀錄 4月北京車展將首秀

寶馬旗艦純電iX7諜照來襲！2027年上市，百萬級SUV市場誰主沉浮？

熱門內容

本欄最新

黃曉明帶兒子騎行引熱議，未注意交規公開致歉，育兒路上敲響警鐘

上汽大眾途觀L Pro再添新成員！300TSI智悅版入門款上市 21.38萬起售

出版業新媒體生態重構：出版集團如何布局多平臺實現協同發展？

宜昌AI燈塔計劃教育釘峰會啟幕政企攜手共筑智慧教育新未來

二代刀片電池與閃充技術登場，比亞迪能否憑此開啟新能源新征程？

小米YU7梅森·馬吉拉涂裝版登場：跨界融合，開啟汽車高端定制新范式

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.