岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

國際團隊開源新突破:AI多模態(tài)推理訓(xùn)練全流程透明化公開

   時間:2026-01-16 01:57:52 來源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

人工智能領(lǐng)域迎來一項突破性進展——國際研究團隊成功開發(fā)出名為OpenMMReasoner的多模態(tài)推理模型,其性能較主流模型提升11.6%,且訓(xùn)練方法與數(shù)據(jù)實現(xiàn)完全開源。這項由新加坡MiroMind AI公司、南洋理工大學(xué)、清華大學(xué)及LMMs-Lab團隊聯(lián)合完成的研究,通過創(chuàng)新的兩階段訓(xùn)練策略,在保持模型高效性的同時實現(xiàn)了推理能力的顯著突破。

傳統(tǒng)AI模型訓(xùn)練常被比喻為"黑箱烹飪",企業(yè)往往將核心數(shù)據(jù)與方法視為商業(yè)機密。研究團隊此次打破行業(yè)慣例,不僅公開最終模型,更將87.4萬條監(jiān)督學(xué)習(xí)數(shù)據(jù)、7.4萬條強化學(xué)習(xí)數(shù)據(jù)、完整訓(xùn)練流程及超參數(shù)設(shè)置全部開放。這種透明度在AI領(lǐng)域尚屬首次,為全球研究者提供了可復(fù)現(xiàn)的完整技術(shù)路徑。

模型性能提升得益于獨特的訓(xùn)練架構(gòu)設(shè)計。第一階段采用"教師模型蒸餾"技術(shù),通過對比Qwen2.5-VL-72B與Qwen3-VL-235B兩個教師模型,發(fā)現(xiàn)后者使模型性能提升5.2個百分點。更關(guān)鍵的是,研究團隊發(fā)現(xiàn)對同一問題生成8個不同答案進行訓(xùn)練時,模型得分較單答案訓(xùn)練提升近10個百分點,這驗證了數(shù)據(jù)多樣性對推理能力的重要性。

在數(shù)據(jù)篩選策略上,研究團隊顛覆傳統(tǒng)認知。實驗表明,過度篩選反而降低模型性能,最終采用"無篩選"策略保留所有通過基礎(chǔ)驗證的數(shù)據(jù)。這種策略使模型在數(shù)學(xué)視覺推理測試MathVista中取得79.5%的準確率,較基準模型提升10.3個百分點。跨領(lǐng)域數(shù)據(jù)融合策略同樣成效顯著,同時添加圖像數(shù)學(xué)與文本數(shù)學(xué)數(shù)據(jù)使模型得分再提升1.1個百分點。

第二階段強化學(xué)習(xí)引入組合式獎勵機制,其中90%權(quán)重分配給答案準確性,10%關(guān)注輸出格式規(guī)范性。研究團隊通過對比GSPO、DAPO、GRPO三種算法,發(fā)現(xiàn)GSPO在穩(wěn)定性和收斂速度上表現(xiàn)最優(yōu)。長度懲罰機制的引入有效解決了"過度思考"問題,使模型輸出長度僅為同類模型的一半,同時保持推理深度。

訓(xùn)練過程中出現(xiàn)的意外發(fā)現(xiàn)為AI發(fā)展提供新視角。模型在強化學(xué)習(xí)階段不僅提升多模態(tài)推理能力,純文本推理能力也同步增強,在AIME24數(shù)學(xué)競賽中的得分從6.7%躍升至27.1%。輸出文本分析顯示,"反思性"詞匯使用頻率隨訓(xùn)練增加,表明模型逐漸形成深度思考模式。訓(xùn)練穩(wěn)定性實驗證實,生成溫度設(shè)為1.0、每次更新使用16個樣本的配置效果最佳。

在九項基準測試中,OpenMMReasoner展現(xiàn)全面優(yōu)勢。除數(shù)學(xué)視覺推理外,在涵蓋藝術(shù)歷史到自然科學(xué)的MMMU測試中取得50.0%準確率,MMMU-Pro測試達57.8%。效率對比顯示,某些競爭模型雖能達到相似準確率,但輸出長度是OpenMMReasoner的兩倍,這在實際應(yīng)用中將顯著增加計算成本。

該研究為資源有限的研究團隊提供新思路。OpenMMReasoner僅用87.4萬條監(jiān)督學(xué)習(xí)樣本就達到其他模型數(shù)千萬樣本的訓(xùn)練效果,證明科學(xué)的數(shù)據(jù)篩選與訓(xùn)練策略比單純增加數(shù)據(jù)量更有效。完全開源的87.4萬樣本數(shù)據(jù)集與7.4萬樣本強化學(xué)習(xí)數(shù)據(jù),已成為全球AI研究社區(qū)的重要資源。

對于普通研究者而言,這項成果具有特殊價值。所有訓(xùn)練數(shù)據(jù)、代碼及模型參數(shù)均可免費獲取,研究者既能直接復(fù)現(xiàn)實驗結(jié)果,也可在此基礎(chǔ)上進行改進。研究團隊制作的對比表格顯示,在數(shù)據(jù)流程、監(jiān)督學(xué)習(xí)數(shù)據(jù)、強化學(xué)習(xí)數(shù)據(jù)、模型權(quán)重四個關(guān)鍵維度,OpenMMReasoner是首個實現(xiàn)完全公開的先進多模態(tài)推理模型。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 欧美va在线观看 | 爽爽窝窝午夜精品一区二区 | 91香蕉国产在线观看软件 | 国产日韩欧美在线观看 | 欧美一区二区三区四区五区六区 | 亚洲欧美视频在线观看 | 日韩第一视频 | 欧美日本一区 | 国产精品网站在线 | 国产精品综合在线 | 国产黄色精品网站 | 手机免费av | 国产亚洲精品成人 | 成人久久久精品乱码一区二区三区 | 影音先锋每日资源 | 欧美视频不卡 | 亚洲午夜在线播放 | 污网站在线免费看 | 好吊色在线 | 成年人在线观看视频网站 | 日本全黄裸体片 | 中文日韩在线观看 | 成人自拍一区 | 超碰人人人人人人 | 欧美视频久久久 | 日韩精品一二区 | 日韩一级黄 | 男女啪啪软件 | 可以在线观看av的网站 | 精品免费在线视频 | 婷婷视频在线播放 | 国产911在线观看 | 久久中文字幕在线 | 久久久久久久久免费视频 | 亚洲视频欧洲视频 | 夜夜操天天爽 | 欧美有码在线观看 | 国产精品九九视频 | aaa免费在线观看 | 成人黄色免费网 | 久久激情免费视频 |