岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

浙大等團隊攻克多模態(tài)模型“幻覺”難題:先感知校準(zhǔn),后推理算力巧分配

   時間:2026-03-22 19:09:35 來源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

當(dāng)圖像逐漸模糊直至難以辨認時,多模態(tài)大模型依然會給出高度自信的答案——這種“盲目自信”現(xiàn)象正成為視覺推理領(lǐng)域的關(guān)鍵挑戰(zhàn)。浙江大學(xué)、阿里巴巴集團、香港城市大學(xué)與密歇根大學(xué)聯(lián)合團隊通過實驗發(fā)現(xiàn),隨著圖像噪聲增強,模型準(zhǔn)確率急劇下降,但置信度卻幾乎保持不變。這一發(fā)現(xiàn)促使研究團隊提出CA-TTS(Confidence-Aware Test-Time Scaling)框架,通過重新校準(zhǔn)模型對視覺證據(jù)的敏感度,在四個主流視覺推理基準(zhǔn)測試中實現(xiàn)平均8.8%的性能提升。

研究團隊將這種現(xiàn)象定義為“感知鈍化”:模型無法感知視覺信息質(zhì)量的變化,導(dǎo)致視覺證據(jù)明顯退化時仍維持高置信度。這種特性與人類在看不清題目時強行作答的行為高度相似。為解決該問題,團隊創(chuàng)新性地采用響應(yīng)級置信度度量方式,將整個輸出序列的平均負對數(shù)概率作為置信度指標(biāo),構(gòu)建了包含訓(xùn)練階段校準(zhǔn)與推理階段擴展的雙階段解決方案。

在訓(xùn)練階段,核心模塊CDRL(Confidence-Driven Reinforcement Learning)通過雙重獎勵機制重塑模型認知。感知敏感性獎勵要求模型對原始圖像與加噪圖像產(chǎn)生合理置信度差異,校準(zhǔn)一致性獎勵則對正確高置信預(yù)測給予獎勵,對錯誤高置信預(yù)測施加懲罰。實驗數(shù)據(jù)顯示,經(jīng)過CDRL訓(xùn)練的模型在面對噪聲圖像時,置信度下降幅度是訓(xùn)練前的4.3倍;在遮擋條件下,這一比值達到4.7倍。特別值得注意的是,訓(xùn)練前模型在視角變換和馬賽克干擾下置信度會反向上升,而訓(xùn)練后所有視覺擾動條件下的置信度均顯著下降。

推理階段的CA-TTS框架將校準(zhǔn)后的置信度轉(zhuǎn)化為動態(tài)調(diào)度信號,包含三個協(xié)同模塊:Self-Consistency采用置信度加權(quán)投票替代簡單多數(shù)投票,并引入專家模型進行二次校準(zhǔn);Self-Reflection在初步結(jié)果置信度不足時,由專家模型生成批評意見引導(dǎo)重新推理;Self-Check通過對比原始圖像與噪聲圖像的輸出概率分布,驗證答案對視覺證據(jù)的依賴程度。這種多階段驗證閉環(huán)設(shè)計使模型具備自我糾錯能力,在“墻上缺磚數(shù)量”等復(fù)雜推理任務(wù)中,相比Tree-of-Thoughts方法展現(xiàn)出更強的容錯性。

實驗結(jié)果表明,以Qwen2.5-VL-7B為基座模型的CA-TTS在Math-Vision基準(zhǔn)上將準(zhǔn)確率從23.0%提升至42.4%,在MMMU基準(zhǔn)上達到66.3%的準(zhǔn)確率。消融實驗顯示,單獨使用CDRL可提升3.4個百分點,單獨使用CA-TTS提升15.0個百分點,二者結(jié)合產(chǎn)生19.4個百分點的協(xié)同效應(yīng)。進一步分析發(fā)現(xiàn),即使讓基座模型自身充當(dāng)專家,性能仍比多數(shù)投票方法高出近5個百分點,證明框架有效性不依賴外部強模型。

在資源擴展性測試中,CA-TTS展現(xiàn)出顯著優(yōu)勢。當(dāng)采樣數(shù)量從1增加到32時,其準(zhǔn)確率增長斜率達到3.65,分別是多數(shù)投票方法和DeepConf方法的2.2倍和3.1倍。這意味著CA-TTS能更有效地將計算資源分配給真正不確定的問題,在相同算力消耗下實現(xiàn)更高的性能提升。這種特性重新定義了測試時擴展的效率上限,使“多算一點”具有明確的方向性。

該研究突破傳統(tǒng)多模態(tài)推理“先推理后感知”的固有范式,提出“先感知后推理”的新思路。通過建立對視覺證據(jù)變化敏感且與準(zhǔn)確性一致的置信度體系,確保推理過程建立在可靠的感知基礎(chǔ)之上。盡管多次采樣與專家模型調(diào)用會帶來額外計算成本,且當(dāng)前驗證主要集中在數(shù)學(xué)推理和通用視覺問答任務(wù),但這種將感知質(zhì)量與推理資源動態(tài)綁定的設(shè)計理念,為提升模型在關(guān)鍵場景中的可靠性提供了全新路徑。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 黄色aaa视频 | 一级特黄a大片免费 | 福利片在线 | 啊v视频在线观看 | 人人色视频 | 精品国产中文字幕 | 麻豆一区二区三区在线观看 | 99re7| 偷拍久久久 | 欧美一区二区公司 | 中文字幕日产乱码中 | 超碰入口 | 免费一级全黄少妇性色生活片 | 亚洲阿v天堂 | 亚洲精品午夜 | 成年人免费小视频 | 特级淫片裸体免费看 | 成年人免费网站在线观看 | 色444| 岛国大片在线观看 | 成人免费毛片xxx | 麻豆国产在线视频 | 久久久综合色 | 免费久久精品 | 成人欧美一区二区三区在线观看 | 综合精品视频 | 黄色片在线看 | 黄色在线一区 | 户外少妇对白啪啪野战 | 国产精品毛片va一区二区三区 | 亚洲欧美乱综合图片区小说区 | 国产高清露脸 | 日韩成人黄色 | 人人爱人人射 | 欧洲av一区 | 91国内揄拍国内精品对白 | 美女福利在线 | 久久成人在线视频 | 久久精品7 | 四虎永久免费在线观看 | 欧美一级片免费 |