滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

字節跳動北航聯手出新招：SAGE算法讓大模型推理“瘦身”又增效

時間：2026-02-27 15:09:26 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

大語言模型的發展速度遠超預期，尤其在復雜邏輯推理任務中展現出令人驚嘆的能力。然而，隨著模型能力不斷提升，一個新問題逐漸浮現——過度思考。這種現象表現為模型在得出正確答案后仍持續生成大量冗余推理步驟，既浪費算力又拖慢響應速度。

典型案例中，美國研究者曾用"Strawberry中有幾個r"測試AI智商，結果多個主流模型集體"翻車"。更有趣的是，當問題升級為"50米外洗車該開車還是步行"時，部分模型陷入復雜計算后仍給出錯誤答案。這些案例暴露出當前模型在推理過程中存在的效率缺陷：為追求準確率而過度消耗資源。

字節跳動與北京航空航天大學的研究團隊在《Does Your Reasoning Model Implicitly Know When to Stop Thinking?》論文中，通過系統分析發現模型過度思考的根源在于采樣策略。傳統"Pass@1"評估方式下，模型即使得出正確答案也會繼續驗證，導致大量無效token消耗。數據顯示，在AIME 2025基準測試中，DeepSeek-R1的回復長度是Claude 3.7 Sonnet的5倍，準確率卻相差無幾。

研究團隊提出"首次正確步驟比率（RFCS）"指標，量化分析顯示超半數樣本存在冗余推理。以計算20260226平方為例，模型在得出正確答案后仍進行位數檢查、進位驗證等12個冗余步驟。這種"思維鏈長度與準確率非正相關"的現象，在輕量級模型中尤為明顯——1.5B參數模型需生成近千token才能結束思考，其中45%屬于冗余內容。

突破性發現來自"Pass@K"采樣實驗：當允許模型生成多條思維鏈時，其路徑置信度指標能準確識別最優解。研究顯示，模型在探索出簡潔正確路徑時，生成結束標識的概率會突然躍升至首位。這表明模型具備全局推理能力，只是被現有采樣策略限制了發揮。

基于上述發現，研究團隊開發出SAGE（Self-Aware Guided Efficient Reasoning）算法。該算法通過步驟級探索機制，在每個推理節點生成多個候選分支，一旦出現以結束標識結尾的分支立即終止思考。實驗數據顯示，在MATH-500測試中，7B參數模型使用SAGE后回復長度減少33%，準確率反而提升1個百分點，token效率顯著優于同類算法。

為將技術落地，研究團隊將SAGE與GRPO強化學習框架結合，創造出SAGE-RL訓練機制。通過混合采樣策略，讓模型在訓練過程中逐步學習高效推理模式。在AIME 2025等6個高難度數學基準測試中，SAGE-RL在保持準確率的同時，將平均推理步驟壓縮41%，首次正確步驟比率提升27%。

這項技術對AI商業化具有重要價值。當前API計費模式下，頭部企業正尋求降低冗余token消耗。以DeepSeek為例，其推理成本優勢不僅來自算法創新，更得益于對推理效率的極致優化。掌握高效推理技術的廠商，能用更少算力實現同等甚至更高性能，這在模型智能提升邊際收益遞減的當下，為價格戰提供了關鍵籌碼。

隨著AI智能體進入實際工作流，響應速度已成為產品生死線。研究團隊指出，未來模型競爭將聚焦于"精準停止"能力——最高級的智能不在于長篇大論，而在于恰到好處的終止。這種轉變或將重新定義大語言模型的評價標準，推動行業從"規模競賽"轉向"效率革命"。

更多>同類資訊

榮耀Magic V6折疊屏新機將至：輕薄設計加持專業攝影與旗艦配置全拉滿

02-27

馬斯克擬建太空數據中心英偉達黃仁勛：太空散熱需大散熱器但前景可期

02-27

榮耀Magic V6“赤兔紅”配色官宣：靈感源自赤兔馬喜慶吉祥開年吸睛

02-27

千問2026年MWC將發AI眼鏡，年內還計劃推出AI指環、耳機等多款新品

02-27

豆包手機助手回應安全漏洞質疑：未接報告已升級防護，嚴正譴責黑公關

02-27

朱雀三號不銹鋼火箭再啟征程：可復用優勢凸顯未來有望比肩獵鷹9

02-27

三星Galaxy S26系列登場：硬件AI雙提升防窺屏與影像成亮點

02-27

第三代領克03大尾翼版3月5日登場，運動內飾+強勁動力，個性之選來襲

02-27

廣汽豐田鉑智7三月登場！集鴻蒙Momenta小米華為之力，能否成爆款？

02-27

Meta或聯手Prada推出時尚AI眼鏡，扎克伯格現身米蘭時裝周引發合作猜測

02-27

Bumble推出AI個人資料指導與照片反饋工具，利用人工智能優化社交匹配

02-27

告別“生硬翻譯”！谷歌翻譯接入 Gemini：精準拿捏習語語境，讓你的外語地道得像本地人

02-27

即夢客服回應Seedance 2.0生成視頻排隊：節后使用人數多

02-27

REDMI Buds 8青春版發布：售價139元支持42dB主動降噪

02-27

?阿里“千問”首款 AI 眼鏡亮相 MWC 2026，3 月開啟預約

02-27

點擊查看更多 +

全站最新

問界M6七色車身官宣亮相增程純電雙版本3月4日全球首發在即

領克03大尾翼版官圖亮相 2026年上市動力強勁內飾熾熱

第三代領克03大尾翼版3月5日登場，運動內飾+強勁動力，個性之選來襲

2026款日產Versa下月墨西哥首發配置升級 1.6L動力延續老款規格

廣汽豐田鉑智7三月登場！集鴻蒙Momenta小米華為之力，能否成爆款？

HALO交易爆火！有色金屬“殺”回來了

熱門內容

本欄最新

第三代領克03大尾翼版3月5日登場，運動內飾+強勁動力，個性之選來襲

廣汽豐田鉑智7三月登場！集鴻蒙Momenta小米華為之力，能否成爆款？

豆包手機助手回應漏洞爭議：未收報告已升級防護，譴責黑公關炒作

從工具到伙伴：機器人如何重塑未來生活、工作與人類文明新圖景

亞馬遜SIOC認證：從實驗室到消費者，包裝如何變身物流“特種兵”？

小米汽車立項引內部路線之爭，選豪華運動挑戰TBBA，未來均價能否看齊BBA？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

字節跳動北航聯手出新招：SAGE算法讓大模型推理“瘦身”又增效