滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

多模態(tài)DeepResearch新突破：小參數(shù)模型也能打出SOTA，開啟研究新范式

時(shí)間：2026-02-24 14:57:02 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

在人工智能研究領(lǐng)域，多模態(tài)深度研究正成為突破傳統(tǒng)信息處理邊界的關(guān)鍵方向。傳統(tǒng)模型在處理視覺與文本融合任務(wù)時(shí)，往往面臨兩大核心挑戰(zhàn)：視覺檢索命中率不穩(wěn)定與推理深度不足。針對這些問題，最新研究提出將信息檢索從單次操作升級為動態(tài)交互過程，通過多輪試探、反饋與再檢索的循環(huán)機(jī)制，使模型在復(fù)雜環(huán)境中具備持續(xù)縮小搜索范圍、驗(yàn)證關(guān)鍵信息的能力。

現(xiàn)有技術(shù)路線存在顯著缺陷。單次全圖檢索易受背景噪聲干擾，同一實(shí)體在不同尺度下的檢索結(jié)果波動劇烈，導(dǎo)致關(guān)鍵信息遺漏。多數(shù)模型推理軌跡短、工具調(diào)用次數(shù)有限，難以完成多跳證據(jù)聚合與復(fù)雜問題的試錯(cuò)式驗(yàn)證。研究團(tuán)隊(duì)通過構(gòu)建多尺度視覺檢索系統(tǒng)，結(jié)合文本深度研究能力，成功將推理輪數(shù)提升至數(shù)十輪，搜索引擎交互次數(shù)突破百次量級，顯著增強(qiáng)了模型在噪聲環(huán)境中的穩(wěn)定性。

技術(shù)實(shí)現(xiàn)包含三大核心模塊。視覺檢索階段采用多實(shí)體定位與多尺度裁剪策略，模型自動生成多個(gè)邊界框并對不同區(qū)域并行檢索，有效提升關(guān)鍵信息捕獲率。證據(jù)處理階段構(gòu)建視覺-網(wǎng)頁-摘要-驗(yàn)證的閉環(huán)流程，通過輔助模型過濾噪聲數(shù)據(jù)并提煉核心證據(jù)。跨模態(tài)推理階段將成熟的文本深度研究能力遷移至視覺領(lǐng)域，實(shí)現(xiàn)圖文信息的深度融合。訓(xùn)練體系采用"長軌跡合成-冷啟動監(jiān)督微調(diào)-在線強(qiáng)化學(xué)習(xí)"的三階段方案，通過約3萬條高質(zhì)量軌跡數(shù)據(jù)完成初始訓(xùn)練，再利用真實(shí)搜索環(huán)境中的強(qiáng)化學(xué)習(xí)優(yōu)化策略。

實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了技術(shù)路線的有效性。在VDR、FVQA等六個(gè)主流基準(zhǔn)測試中，80億參數(shù)模型在相同設(shè)置下較前代產(chǎn)品平均提升10.4%，300億參數(shù)版本進(jìn)一步將優(yōu)勢擴(kuò)大至16%。特別值得注意的是，該模型在參數(shù)規(guī)模僅為GPT-5、Gemini-2.5-Pro等閉源系統(tǒng)十分之一的情況下，仍能取得相當(dāng)甚至更優(yōu)的性能表現(xiàn)。消融實(shí)驗(yàn)表明，多尺度裁剪策略使視覺命中率提升37%，結(jié)合文本搜索后整體準(zhǔn)確率再提高22%，強(qiáng)化學(xué)習(xí)階段則通過優(yōu)化決策路徑使步驟效率提升40%。

評測體系革新為技術(shù)發(fā)展提供新標(biāo)準(zhǔn)。傳統(tǒng)基準(zhǔn)存在兩大系統(tǒng)性漏洞：問題文本常泄露答案線索，導(dǎo)致模型依賴先驗(yàn)知識繞過視覺驗(yàn)證；全圖檢索場景過于理想化，未能反映真實(shí)環(huán)境中的定位、裁剪與試錯(cuò)需求。新提出的VDR-Bench基準(zhǔn)包含2000條強(qiáng)制視覺搜索的多跳問題，覆蓋產(chǎn)品細(xì)節(jié)、地圖標(biāo)識、報(bào)告表格等十大視覺領(lǐng)域。該基準(zhǔn)通過人工裁剪顯著區(qū)域、實(shí)體驗(yàn)證、知識圖譜擴(kuò)展等嚴(yán)格流程，確保問題必須依賴局部檢索與多跳推理才能解答，有效杜絕了文本捷徑與全圖檢索漏洞。

技術(shù)突破帶來應(yīng)用場景的質(zhì)變。在醫(yī)療診斷領(lǐng)域，模型可同時(shí)分析X光片與病歷文本，通過多輪交互驗(yàn)證異常特征；在金融分析場景中，系統(tǒng)能夠交叉比對財(cái)報(bào)截圖與新聞文本，精準(zhǔn)識別數(shù)據(jù)矛盾點(diǎn)；法律文書審查時(shí)，模型可自動定位合同條款與相關(guān)法條，構(gòu)建完整的證據(jù)鏈條。這些應(yīng)用場景的共同特點(diǎn)是信息高度分散、需要跨模態(tài)深度推理，傳統(tǒng)模型往往因推理深度不足或視覺檢索不穩(wěn)定而失效。

研究團(tuán)隊(duì)指出，多模態(tài)深度研究的核心挑戰(zhàn)在于構(gòu)建噪聲環(huán)境下的穩(wěn)定推理閉環(huán)。通過將檢索-推理過程分解為可量化的子任務(wù)，結(jié)合大規(guī)模合成數(shù)據(jù)與強(qiáng)化學(xué)習(xí)技術(shù)，模型能夠自主形成"定位關(guān)鍵區(qū)域-驗(yàn)證視覺證據(jù)-補(bǔ)充文本知識-再定位新區(qū)域"的迭代機(jī)制。這種內(nèi)生能力的形成，標(biāo)志著人工智能系統(tǒng)向更接近人類認(rèn)知模式的方向邁出重要一步，為解決復(fù)雜現(xiàn)實(shí)問題提供了新的技術(shù)范式。

02-24

MWC 2026榮耀將啟新篇：Magic V6領(lǐng)銜，人形機(jī)器人或成最大亮點(diǎn)

02-24

春晚機(jī)器人“各顯神通”：技術(shù)大秀背后，離實(shí)用落地還有多遠(yuǎn)？

02-24

1納米鐵電晶體管問世！中國科研突破為AI芯片算力能效提升添翼

02-24

傳音控股3月啟動香港上市NDR 擬2026年二季度登港交所曾受成本影響業(yè)績

02-24

宇樹科技王興興談機(jī)器人：技術(shù)似孩童成長，大規(guī)模應(yīng)用未來可期

02-24

榮耀Robot Phone真機(jī)揭曉 2026 MWC將攜首款消費(fèi)級人形機(jī)器人登場

02-24

宏碁CEO陳俊圣：內(nèi)存缺貨或延續(xù)至2026年中，AI PC滲透率將顯著提升

02-24

長安汽車固態(tài)電池進(jìn)展加速今年三季度前將開展搭載機(jī)器人及裝車驗(yàn)證

02-24

vivo高層變動：胡柏山晉升總裁主抓運(yùn)營，沈煒專注CEO戰(zhàn)略布局

02-24

299元驚喜價(jià)！哈趣Ace1耳機(jī)跨界來襲，AI功能加持成辦公學(xué)習(xí)好幫手

哈趣還為Ace1耳機(jī)準(zhǔn)備了專屬的Popvee Link APP，除了常見的耳機(jī)設(shè)置和音效模式選擇之外，還提供了一系列AI實(shí)用工具，像錄音轉(zhuǎn)寫、同聲傳譯以及面對面翻譯，不但可以記錄會議或課堂內(nèi)容，還可以在自動…

02-24

春晚“武”動未來：宇樹機(jī)器人以功夫秀開啟具身智能新紀(jì)元

」為了構(gòu)建靈活智能的機(jī)器人，宇樹在自研電機(jī)、四足機(jī)器人量產(chǎn)的基礎(chǔ)上，已經(jīng)為人形機(jī)器人構(gòu)建了堪稱絕無僅有的運(yùn)動算法能力，目前正在發(fā)力推進(jìn)機(jī)器人領(lǐng)域，也是AI 領(lǐng)域最前沿的方向 —— 具身智能。 2025 …

02-24

高通首批機(jī)架級AI全棧方案交付沙特，HUMAIN將大規(guī)模部署助力AI推理服務(wù)

IT之家 2 月 24 日消息，高通 CEO 安蒙昨日宣布，該企業(yè)的首批機(jī)架級 AI 軟硬件全棧解決方案已運(yùn)抵沙特阿拉伯，開始向合作伙伴HUMAIN 的數(shù)據(jù)中心交付。 IT之家注： HUMAIN 首席執(zhí)…

02-24

OpenAI或推ChatGPT Pro Lite新訂閱月費(fèi)100美元功能配額再升級

主流版本 ChatGPT Plus 月費(fèi)為 20 美元，無廣告干擾并提供更廣泛的功能權(quán)限與更高使用配額。針對專業(yè)用戶群體的 ChatGPTPro 訂閱費(fèi)用達(dá)每月 200 美元，提供當(dāng)前最高級別的功能權(quán)限與配…

02-24

宏碁陳俊圣：內(nèi)存缺貨或延續(xù)至2026年中，AI PC滲透率今年有望超五成

2 月 24 日，宏碁董事長兼 CEO 陳俊圣昨日接受采訪時(shí)表示，內(nèi)存缺貨至少將持續(xù)到 2026年中，下半年的供需行情將由幾大內(nèi)存原廠擴(kuò)產(chǎn)后的產(chǎn)能釋出狀況決定。圖源：Pexels 陳俊圣表…

02-24

點(diǎn)擊查看更多 +

全站最新

A股異動丨遭遇利空？中國中免跌停

澳股收跌0.04%

臺股收盤再創(chuàng)歷史新高，年內(nèi)累漲19.81%

智譜股價(jià)飆升24%，外國網(wǎng)友直呼“GLM-5是最好的開源模型”

雷軍揭曉新一代小米SU7赤霞紅新配色，智能升級續(xù)航強(qiáng)勁，明年4月上市

不讓江山出品方涉多起糾紛

熱門內(nèi)容

本欄最新

2026春晚人形機(jī)器人成焦點(diǎn) 參股52家A股公司誰將領(lǐng)漲？

宇樹科技王興興談機(jī)器人：技術(shù)尚處初期，大規(guī)模應(yīng)用未來可期3至10年

宇樹王興興談機(jī)器人：技術(shù)進(jìn)步可期，文化融合添彩未來應(yīng)用

華為引領(lǐng)新潮流：構(gòu)建人工智能算力網(wǎng)絡(luò)，賦能產(chǎn)業(yè)加速發(fā)展新篇章

宇樹CEO王興興：機(jī)器人技術(shù)如少年成長，大規(guī)模應(yīng)用未來可期

中國芯片實(shí)力獲認(rèn)可：豐田鈴木等外企選用，成本品質(zhì)雙重優(yōu)勢凸顯

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

多模態(tài)DeepResearch新突破：小參數(shù)模型也能打出SOTA，開啟研究新范式