滾動資訊

當前位置：首頁 > 資訊 > 業(yè)界動態(tài) > 正文內(nèi)容

阿里巴巴研究揭示：AI訓練中極少數(shù)關鍵位置驅(qū)動模型性能躍升

時間：2026-04-03 13:09:11 來源：天脈網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

阿里巴巴集團Qwen Pilot團隊在國際學習表征會議（ICLR）上發(fā)表的一項突破性研究，徹底顛覆了人們對人工智能訓練過程的傳統(tǒng)認知。該團隊通過精密實驗發(fā)現(xiàn)，在強化學習訓練大語言模型時，真正推動性能提升的改變僅發(fā)生在不到2%的詞匯位置，其余98%以上的訓練過程幾乎未產(chǎn)生實質(zhì)性影響。這一發(fā)現(xiàn)猶如在AI領域投下一顆重磅炸彈，引發(fā)學界對機器學習機制本質(zhì)的重新思考。

研究團隊采用Jensen-Shannon散度這一數(shù)學工具，對模型訓練前后的詞匯選擇變化進行毫米級測量。實驗數(shù)據(jù)顯示，在使用SimpleRL訓練方法時，僅1.7%的詞匯位置發(fā)生顯著改變；即便采用鼓勵探索的DAPO方法，這一比例也未超過7%。更令人驚訝的是，這些關鍵變化并非隨機分布，而是呈現(xiàn)明顯的位置偏好——約60%的實質(zhì)性改進集中在文本生成的開頭和結(jié)尾部分，對應著模型對整體思路的修正和結(jié)論的優(yōu)化。

交叉采樣實驗為這項發(fā)現(xiàn)提供了決定性證據(jù)。研究人員將強化學習模型在關鍵位置的詞匯選擇，"移植"到基礎模型的生成過程中，結(jié)果發(fā)現(xiàn)僅替換1.53%的詞匯，就能使基礎模型在數(shù)學推理測試中的準確率提升近三倍。反向?qū)嶒瀯t顯示，移除同樣比例的強化學習詞匯選擇，會導致模型性能急劇退化。這種"四兩撥千斤"的現(xiàn)象，證明AI性能的提升高度依賴于少數(shù)關鍵決策點的精準調(diào)整。

深入分析揭示，強化學習的改進機制與人類學習存在深刻共鳴。模型更傾向于修改那些原本就存在不確定性的詞匯選擇，就像學生優(yōu)先攻克難題而非重復練習已掌握的知識。但不同訓練方法展現(xiàn)出獨特策略：DAPO方法能夠突破模型固有認知，對看似確定的選擇進行重新評估；而SimpleRL則采取保守策略，專注于修正高風險錯誤。這種差異在詞匯類型偏好上體現(xiàn)得尤為明顯——功能詞和推理術語更易發(fā)生改變，而數(shù)字和運算符則保持相對穩(wěn)定。

研究團隊通過追蹤訓練動態(tài)發(fā)現(xiàn)，模型在初始階段會進行廣泛探索，但隨著訓練深入，變化逐漸聚焦于越來越小的詞匯子集。這種"先發(fā)散后收斂"的模式，與人類形成專業(yè)能力的過程驚人相似。更有趣的是，強化學習主要通過重新排序現(xiàn)有候選詞匯來優(yōu)化選擇，而非引入全新詞匯。數(shù)據(jù)顯示，約90%的強化學習首選詞匯，原本就排在基礎模型的前三個候選位置中。

這項發(fā)現(xiàn)正在催生新一代訓練技術。研究團隊開發(fā)的散度加權(quán)優(yōu)勢方法，通過調(diào)節(jié)不同詞匯位置的學習信號強度，在數(shù)學推理基準測試中實現(xiàn)了3.6%的準確率提升。這種精準干預策略，為解決AI訓練中的效率瓶頸提供了全新思路。實驗表明，即使只強化模型在0.1%最關鍵位置的學習信號，也能帶來可測量的性能改善。

該研究對AI開發(fā)實踐產(chǎn)生深遠影響。傳統(tǒng)方法需要處理數(shù)以億計的參數(shù)更新，而新發(fā)現(xiàn)提示開發(fā)者可以聚焦于識別和優(yōu)化那些真正影響性能的"決策樞紐"。這種轉(zhuǎn)變不僅將大幅降低計算資源消耗，還能提高模型行為的可解釋性——當知道哪些詞匯選擇決定AI表現(xiàn)時，開發(fā)者就能像調(diào)試精密儀器般調(diào)整模型行為。

對于普通用戶而言，這項研究預示著AI產(chǎn)品將變得更加精準可靠。當訓練過程從"廣撒網(wǎng)"轉(zhuǎn)向"精準打擊"，AI系統(tǒng)在處理復雜任務時將減少不必要的試錯，輸出結(jié)果的質(zhì)量和一致性將顯著提升。更深遠的意義在于，它揭示了智能的本質(zhì)不在于計算規(guī)模，而在于在關鍵時刻做出正確判斷的能力——這個洞見或許同樣適用于人類的學習與成長。

更多>同類資訊

小紅書品牌曝光秘籍：解碼內(nèi)容信號與算法邏輯，實現(xiàn)精準觸達

曝光效率的核心，在于品牌內(nèi)容能否被系統(tǒng)精準識別并投遞給潛在興趣群體，該過程可拆解為內(nèi)容信號發(fā)射、系統(tǒng)算法解析、社區(qū)環(huán)境適配及曝光效果評估四個相互關聯(lián)的環(huán)節(jié)。2. 在內(nèi)容發(fā)布與冷啟動階段，密切關注初始互動數(shù)據(jù)…

04-03

盧偉冰回應小米漲價：內(nèi)存漲價力度遠超預期，相比去年Q1飆升近4倍

04-03

谷歌發(fā)布Gemma 4開源模型

04-03

英偉達優(yōu)化Gemma 4本地運行，推動本地Agent AI落地

04-03

谷歌AI數(shù)據(jù)中心或接入天然氣電廠

04-03

Kimi計劃提前1年授予27屆頂尖人才期權(quán)

04-03

巨日祿杰夫：未來三個月，漫劇承制模式或?qū)⑾?70%

04-03

優(yōu)思益風波外溢：有人秒退，有人被卡在「90天」之外，平臺規(guī)則遭拷問

04-03

五部門規(guī)范網(wǎng)絡平臺招聘信息發(fā)布：要求BOSS直聘等平臺進一步壓實信息內(nèi)容管理主體責任

04-03

抖音小紅書上線「知乎」功能，問答賽道再起新戰(zhàn)事

04-03

西貝起訴西貝百家姓索賠60萬

04-03

爭議泡泡瑪特：多賺100億，市值少了2300多億

04-03

知乎2025年首全年盈利：從降本增效到AI賦能，探索可持續(xù)增長新路徑

04-03

歌爾股份：與蘋果“愛恨交織”，AI眼鏡代工能否開啟新未來？

04-03

從“巷戰(zhàn)”到共贏：鳴鳴很忙2.19萬家加盟店如何織就661億營收大網(wǎng)

04-03

點擊查看更多 +

全站最新

谷歌推出Gemma 4開源大模型：單位參數(shù)智能升級，端側(cè)與大模型性能雙突破

熱門內(nèi)容

本欄最新

谷歌推出Gemma 4開源大模型：單位參數(shù)智能升級，端側(cè)與大模型性能雙突破

從雨中追車少年到世界冠軍！張雪用20年把熱愛“焊”進領獎臺最高處

紐北賽道現(xiàn)身紅色猛獸！小米YU7 GT實車曝光千匹馬力劍指最速SUV

雷軍直播拆解新一代SU7 透露鎖單量破4萬小米汽車“百色計劃”穩(wěn)步推進

百度推醫(yī)生版“龍蝦”有醫(yī)助理醫(yī)療AI進階：算力數(shù)據(jù)安全成待闖關卡

沃爾沃EX60全球首發(fā)：以創(chuàng)新科技與環(huán)保理念，開啟智慧出行新篇章

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

阿里巴巴研究揭示：AI訓練中極少數(shù)關鍵位置驅(qū)動模型性能躍升