滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

國際團隊開源新突破：AI多模態(tài)推理訓(xùn)練全流程透明化公開

時間：2026-01-16 01:57:52 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

人工智能領(lǐng)域迎來一項突破性進展——國際研究團隊成功開發(fā)出名為OpenMMReasoner的多模態(tài)推理模型，其性能較主流模型提升11.6%，且訓(xùn)練方法與數(shù)據(jù)實現(xiàn)完全開源。這項由新加坡MiroMind AI公司、南洋理工大學(xué)、清華大學(xué)及LMMs-Lab團隊聯(lián)合完成的研究，通過創(chuàng)新的兩階段訓(xùn)練策略，在保持模型高效性的同時實現(xiàn)了推理能力的顯著突破。

傳統(tǒng)AI模型訓(xùn)練常被比喻為"黑箱烹飪"，企業(yè)往往將核心數(shù)據(jù)與方法視為商業(yè)機密。研究團隊此次打破行業(yè)慣例，不僅公開最終模型，更將87.4萬條監(jiān)督學(xué)習(xí)數(shù)據(jù)、7.4萬條強化學(xué)習(xí)數(shù)據(jù)、完整訓(xùn)練流程及超參數(shù)設(shè)置全部開放。這種透明度在AI領(lǐng)域尚屬首次，為全球研究者提供了可復(fù)現(xiàn)的完整技術(shù)路徑。

模型性能提升得益于獨特的訓(xùn)練架構(gòu)設(shè)計。第一階段采用"教師模型蒸餾"技術(shù)，通過對比Qwen2.5-VL-72B與Qwen3-VL-235B兩個教師模型，發(fā)現(xiàn)后者使模型性能提升5.2個百分點。更關(guān)鍵的是，研究團隊發(fā)現(xiàn)對同一問題生成8個不同答案進行訓(xùn)練時，模型得分較單答案訓(xùn)練提升近10個百分點，這驗證了數(shù)據(jù)多樣性對推理能力的重要性。

在數(shù)據(jù)篩選策略上，研究團隊顛覆傳統(tǒng)認知。實驗表明，過度篩選反而降低模型性能，最終采用"無篩選"策略保留所有通過基礎(chǔ)驗證的數(shù)據(jù)。這種策略使模型在數(shù)學(xué)視覺推理測試MathVista中取得79.5%的準確率，較基準模型提升10.3個百分點。跨領(lǐng)域數(shù)據(jù)融合策略同樣成效顯著，同時添加圖像數(shù)學(xué)與文本數(shù)學(xué)數(shù)據(jù)使模型得分再提升1.1個百分點。

第二階段強化學(xué)習(xí)引入組合式獎勵機制，其中90%權(quán)重分配給答案準確性，10%關(guān)注輸出格式規(guī)范性。研究團隊通過對比GSPO、DAPO、GRPO三種算法，發(fā)現(xiàn)GSPO在穩(wěn)定性和收斂速度上表現(xiàn)最優(yōu)。長度懲罰機制的引入有效解決了"過度思考"問題，使模型輸出長度僅為同類模型的一半，同時保持推理深度。

訓(xùn)練過程中出現(xiàn)的意外發(fā)現(xiàn)為AI發(fā)展提供新視角。模型在強化學(xué)習(xí)階段不僅提升多模態(tài)推理能力，純文本推理能力也同步增強，在AIME24數(shù)學(xué)競賽中的得分從6.7%躍升至27.1%。輸出文本分析顯示，"反思性"詞匯使用頻率隨訓(xùn)練增加，表明模型逐漸形成深度思考模式。訓(xùn)練穩(wěn)定性實驗證實，生成溫度設(shè)為1.0、每次更新使用16個樣本的配置效果最佳。

在九項基準測試中，OpenMMReasoner展現(xiàn)全面優(yōu)勢。除數(shù)學(xué)視覺推理外，在涵蓋藝術(shù)歷史到自然科學(xué)的MMMU測試中取得50.0%準確率，MMMU-Pro測試達57.8%。效率對比顯示，某些競爭模型雖能達到相似準確率，但輸出長度是OpenMMReasoner的兩倍，這在實際應(yīng)用中將顯著增加計算成本。

該研究為資源有限的研究團隊提供新思路。OpenMMReasoner僅用87.4萬條監(jiān)督學(xué)習(xí)樣本就達到其他模型數(shù)千萬樣本的訓(xùn)練效果，證明科學(xué)的數(shù)據(jù)篩選與訓(xùn)練策略比單純增加數(shù)據(jù)量更有效。完全開源的87.4萬樣本數(shù)據(jù)集與7.4萬樣本強化學(xué)習(xí)數(shù)據(jù)，已成為全球AI研究社區(qū)的重要資源。

對于普通研究者而言，這項成果具有特殊價值。所有訓(xùn)練數(shù)據(jù)、代碼及模型參數(shù)均可免費獲取，研究者既能直接復(fù)現(xiàn)實驗結(jié)果，也可在此基礎(chǔ)上進行改進。研究團隊制作的對比表格顯示，在數(shù)據(jù)流程、監(jiān)督學(xué)習(xí)數(shù)據(jù)、強化學(xué)習(xí)數(shù)據(jù)、模型權(quán)重四個關(guān)鍵維度，OpenMMReasoner是首個實現(xiàn)完全公開的先進多模態(tài)推理模型。

更多>同類資訊

李子柒治好了我的AI焦慮癥

02-22

AI時代的認知裂谷與K型分化：你是那1%嗎？

02-22

6G核心技術(shù)突破：三星聯(lián)合KT完成7GHz頻段X-MIMO技術(shù)驗證

02-22

奧爾特曼駁斥ChatGPT耗水相關(guān)謠言：完全不符合事實

02-22

數(shù)據(jù)顯示ChatGPT消費版更多用于個人任務(wù)，較少用于工作

02-22

ChatGPT消費版用途轉(zhuǎn)向：個人任務(wù)占比攀升，工作應(yīng)用漸少

02-22

宇樹科技王興興談機器人發(fā)展：技術(shù)進步快，大規(guī)模應(yīng)用或需3至10年

對話中，對于“現(xiàn)在機器人發(fā)展的技術(shù)階段是否就如一個10歲的孩子甚至更小？”2月17日，宇樹科技創(chuàng)始人王興興發(fā)微博稱：“有朋友問春晚機器人進化速度有多快，我想說這取決于大家對AI的想象力。此前，春晚《武B…

02-22

OpenAI CEO奧爾特曼：ChatGPT耗水謠言不實，能效或已追平人類

02-22

AI浪潮中上海老人緊跟步伐：智能設(shè)備助力，生活便捷又多彩

02-22

哈薩克斯坦宇通工廠：新春堅守忙生產(chǎn) 新能源客車駛下線

02-22

李子柒：以經(jīng)歷為引，用非遺溫情治愈這個時代的AI焦慮

02-22

AI浪潮下的認知分野：站在進化岔路口，你選擇成為1%還是99%？

02-22

OpenAI CEO奧爾特曼回應(yīng)AI環(huán)境爭議：耗水謠言不實能源擔憂應(yīng)聚焦總量

他還表示，人們擔憂人工智能的能源消耗總量是合理的 —— 并非單次提問的能耗，而是全球如今大規(guī)模使用人工智能帶來的總能耗。因此在他看來，公平的對比應(yīng)當是：“在 ChatGPT 模型訓(xùn)練完成后，回答一個問題所…

02-22

OpenAI CEO奧爾特曼：ChatGPT耗水謠言不實，能源對比應(yīng)更公平

02-22

AI浪潮下的人類進化抉擇：99%退化與1%躍遷的認知分野

02-22

點擊查看更多 +

全站最新

春晚機器人引爆消費熱潮，中國智造加速邁進“人手一臺”新時代

廣汽集團戰(zhàn)略抉擇：聚焦埃安發(fā)展，能否開啟未來汽車市場新篇章？

磷酸鐵鋰與三元鋰：誰更適合家用？誰又能撐起高端電車市場？

穿越十萬公里的考驗：現(xiàn)代Staria舒適與實用并存，優(yōu)缺點一目了然

雪鐵龍C3 Aircross與達契亞Duster對比：誰才是省錢實用之選？

馬斯克確認特斯拉Cybertruck全輪驅(qū)動版十天后動態(tài)調(diào)價粉絲看法兩極分化

熱門內(nèi)容

本欄最新

中國芯片實力獲認可：豐田鈴木等外企選用，成本品質(zhì)雙重優(yōu)勢凸顯

黃仁勛預(yù)熱GTC 2026：將推“世界前所未見”芯片突破技術(shù)極限引期待

黃仁勛預(yù)熱GTC 2026：將推“世界未見”芯片突破技術(shù)極限引期待

黃仁勛預(yù)熱GTC 2026：將推“世界前所未見”芯片突破技術(shù)極限再領(lǐng)跑

黃仁勛預(yù)熱GTC 2026：全新芯片將至英偉達突破極限再領(lǐng)跑AI算力

從對話到實干：豆包大模型2.0化身全能助手，多領(lǐng)域展現(xiàn)驚人動手能力

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

國際團隊開源新突破：AI多模態(tài)推理訓(xùn)練全流程透明化公開