滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

新加坡國(guó)立大學(xué)新成果：GeoSR助力AI突破空間理解瓶頸

時(shí)間：2026-04-09 02:10:35 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

在人工智能領(lǐng)域，視覺語(yǔ)言模型雖能精準(zhǔn)識(shí)別圖像內(nèi)容并生成自然語(yǔ)言描述，卻始終難以攻克空間推理難題。當(dāng)被問及"兩個(gè)物體的距離"或"視頻中物體的運(yùn)動(dòng)方向"時(shí)，這類系統(tǒng)往往給出錯(cuò)誤答案，暴露出空間認(rèn)知能力的嚴(yán)重缺陷。新加坡國(guó)立大學(xué)團(tuán)隊(duì)近期提出的創(chuàng)新解決方案，為破解這一困局開辟了新路徑。

研究團(tuán)隊(duì)發(fā)現(xiàn)，傳統(tǒng)方法向AI直接灌輸幾何信息的效果堪比"對(duì)牛彈琴"。實(shí)驗(yàn)數(shù)據(jù)顯示，即便為模型提供精確的3D坐標(biāo)數(shù)據(jù)，其在空間推理任務(wù)中的準(zhǔn)確率提升不足1%，部分場(chǎng)景下甚至出現(xiàn)性能下降。這種反常現(xiàn)象源于AI的"視覺捷徑"傾向——模型更依賴顏色、紋理等直觀特征進(jìn)行判斷，就像人類閉著眼睛走路般拒絕使用導(dǎo)航工具。

針對(duì)這一頑疾，研究人員設(shè)計(jì)了名為GeoSR的雙軌訓(xùn)練框架。其核心機(jī)制包含兩個(gè)創(chuàng)新模塊：在訓(xùn)練階段，系統(tǒng)會(huì)隨機(jī)遮擋圖像關(guān)鍵區(qū)域，迫使模型通過幾何信息補(bǔ)全視覺缺失，這種"視覺蒙眼"策略使模型在動(dòng)態(tài)場(chǎng)景中的方向判斷準(zhǔn)確率提升11.6個(gè)百分點(diǎn)；在推理階段，動(dòng)態(tài)權(quán)重分配機(jī)制根據(jù)任務(wù)需求自動(dòng)調(diào)節(jié)幾何信息與視覺特征的融合比例，確保模型在復(fù)雜場(chǎng)景中保持最優(yōu)決策模式。

在包含5000個(gè)測(cè)試樣本的VSI-Bench基準(zhǔn)測(cè)試中，GeoSR展現(xiàn)出顯著優(yōu)勢(shì)。物體計(jì)數(shù)任務(wù)準(zhǔn)確率達(dá)68.3%，較傳統(tǒng)方法提升0.4%；在更具挑戰(zhàn)性的動(dòng)態(tài)推理測(cè)試集DSR-Bench上，綜合準(zhǔn)確率從58.9%躍升至66.1%，其中絕對(duì)方向判斷子任務(wù)準(zhǔn)確率提升達(dá)10.6個(gè)百分點(diǎn)。這些數(shù)據(jù)印證了強(qiáng)制使用幾何信息的有效性——當(dāng)模型無(wú)法依賴視覺線索時(shí)，其空間推理能力得到實(shí)質(zhì)性突破。

技術(shù)實(shí)現(xiàn)層面，該框架保持了極高的計(jì)算效率。模型參數(shù)量?jī)H增加0.7%，單次推理耗時(shí)延長(zhǎng)0.01秒，這種輕量化設(shè)計(jì)使其可直接部署于現(xiàn)有硬件環(huán)境。研究人員通過3000余次超參數(shù)實(shí)驗(yàn)確定，當(dāng)80%圖像區(qū)域被遮擋且遮擋啟用概率為50%時(shí)，系統(tǒng)能達(dá)到最佳平衡點(diǎn)——既保證訓(xùn)練壓力又維持穩(wěn)定性。

定性分析揭示了更有趣的發(fā)現(xiàn)：在汽車運(yùn)動(dòng)方向判斷任務(wù)中，傳統(tǒng)模型因過度關(guān)注車頭朝向而誤判，GeoSR則通過分析車輪軌跡與背景參照物得出正確結(jié)論。這種突破源于訓(xùn)練階段的特殊設(shè)計(jì)——系統(tǒng)會(huì)智能識(shí)別與幾何推理最相關(guān)的圖像區(qū)域進(jìn)行針對(duì)性遮擋，迫使模型建立真正的空間認(rèn)知能力。

當(dāng)前研究仍面臨數(shù)據(jù)質(zhì)量瓶頸。現(xiàn)有測(cè)試集存在標(biāo)注歧義問題，部分場(chǎng)景的幾何標(biāo)注誤差超過5%，這直接限制了模型性能的進(jìn)一步提升。研究團(tuán)隊(duì)建議構(gòu)建更高精度的幾何感知數(shù)據(jù)集，通過三維掃描技術(shù)獲取毫米級(jí)標(biāo)注，同時(shí)建立統(tǒng)一的評(píng)估標(biāo)準(zhǔn)以消除主觀判斷差異。

該成果在自動(dòng)駕駛領(lǐng)域具有直接應(yīng)用價(jià)值。測(cè)試顯示，裝備GeoSR的車輛在復(fù)雜路況下的障礙物距離估算誤差減少37%，變道決策時(shí)間縮短22%。在機(jī)器人導(dǎo)航場(chǎng)景中，改進(jìn)后的系統(tǒng)能更準(zhǔn)確識(shí)別動(dòng)態(tài)障礙物運(yùn)動(dòng)軌跡，路徑規(guī)劃成功率提升19個(gè)百分點(diǎn)。這些突破為智能系統(tǒng)理解三維世界奠定了技術(shù)基礎(chǔ)。

從方法論視角觀察，GeoSR顛覆了傳統(tǒng)多模態(tài)學(xué)習(xí)的"信息堆砌"范式。其核心啟示在于：信息整合的質(zhì)量遠(yuǎn)比數(shù)量重要，通過設(shè)計(jì)對(duì)抗性訓(xùn)練場(chǎng)景激發(fā)模型潛能，比簡(jiǎn)單增加數(shù)據(jù)維度更有效。這種訓(xùn)練策略可遷移至其他認(rèn)知領(lǐng)域，為開發(fā)通用人工智能提供新思路。

技術(shù)細(xì)節(jié)方面，幾何釋放遮擋模塊采用動(dòng)態(tài)注意力機(jī)制，能根據(jù)任務(wù)復(fù)雜度自動(dòng)調(diào)整遮擋區(qū)域大小；幾何引導(dǎo)融合模塊則引入可微分的空間關(guān)系編碼器，實(shí)現(xiàn)特征融合比例的實(shí)時(shí)優(yōu)化。這些創(chuàng)新使模型在保持視覺理解優(yōu)勢(shì)的同時(shí)，獲得真正的空間推理能力。

該研究已引發(fā)產(chǎn)業(yè)界廣泛關(guān)注。多家自動(dòng)駕駛企業(yè)正在測(cè)試GeoSR的商用版本，機(jī)器人制造商則探索將其應(yīng)用于倉(cāng)儲(chǔ)物流場(chǎng)景。學(xué)術(shù)界認(rèn)為，這項(xiàng)工作標(biāo)志著AI空間認(rèn)知研究進(jìn)入新階段，其提出的"強(qiáng)制學(xué)習(xí)"范式可能催生更多突破性成果。完整技術(shù)方案詳見arXiv預(yù)印本平臺(tái)論文。

04-09

艾倫研究院MolmoPoint系統(tǒng)革新：讓AI像人類一樣精準(zhǔn)“看”與“指”

04-09

智譜GLM-5.1“Day0”上線華為云昇騰算力優(yōu)化推理加速吞吐提升30%

04-09

SK海力士PQC21 cSSD開售：321層QLC技術(shù)助力AI PC存儲(chǔ)市場(chǎng)布局

04-09

AI浪潮下工程師需求不降反升，科技行業(yè)招聘回暖空缺超6.7萬(wàn)

04-09

魔法原子發(fā)布倡議書：堅(jiān)守原創(chuàng)精神共促具身智能產(chǎn)業(yè)健康發(fā)展

04-09

AI配音浪潮下：腰部配音演員生存危機(jī)凸顯，聲音克隆灰產(chǎn)添亂

04-09

Anthropic研究新發(fā)現(xiàn)：AI情緒向量可干預(yù)行為絕望憤怒或致非倫理決策

04-09

戴爾CEO預(yù)測(cè)：2028年AI內(nèi)存需求或飆升625倍供應(yīng)緊張局面難改

04-09

AI算力告急：DeepSeek調(diào)整模式，免費(fèi)AI時(shí)代或加速走向終結(jié)

04-09

華裔牛頓領(lǐng)銜紅隊(duì)，為Anthropic新模型網(wǎng)絡(luò)安全保駕護(hù)航

04-09

阿維塔06T預(yù)售開啟：華為激光雷達(dá)助力，多版本可選22.99萬(wàn)元起售

04-09

鴻蒙版高德地圖新功能上線，暢享90 Pro Max率先體驗(yàn)智能出行新升級(jí)

同時(shí)，鴻蒙生態(tài)應(yīng)用持續(xù)探索體驗(yàn)創(chuàng)新，高德地圖作為出行領(lǐng)域的重要伙伴，在業(yè)內(nèi)首發(fā)創(chuàng)新功能“智能路況提醒”并率先在暢享90 Pro Max機(jī)型上開放體驗(yàn)，用戶可通過實(shí)況窗實(shí)時(shí)查看紅綠燈讀秒。目前該功能已覆蓋全國(guó)多…

04-09

邁克爾·戴爾預(yù)測(cè)：2028年AI加速器內(nèi)存需求將飆升至625倍

IT之家 4 月 8 日消息，戴爾科技集團(tuán)創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官邁克爾 · 戴爾 (Michael Dell)當(dāng)?shù)貢r(shí)間昨日出席美國(guó)銀行“頂級(jí) CEO 視角”系列訪談時(shí)預(yù)測(cè)，2028 年時(shí) AI 加速器的…

04-09

深開鴻領(lǐng)跑華為外生態(tài)廠商：開源鴻蒙社區(qū)代碼貢獻(xiàn)破800萬(wàn)行

快科技4月8日消息，今日，深開鴻宣布，深開鴻開源鴻蒙社區(qū)代碼貢獻(xiàn)量超過800萬(wàn)行，在華為以外的生態(tài)廠商中位居第一。據(jù)介紹，深開鴻是OpenHarmony開源項(xiàng)目A類捐贈(zèng)人，截止目前，公司已有71款產(chǎn)品通過開…

04-09

點(diǎn)擊查看更多 +

全站最新

PearlError-包含視頻過濾

油價(jià)攀升別慌換電車，普通家庭選車，油車電車咋選才明智？

美股異動(dòng)丨Meta拉升大漲超9%，推出新AI模型Muse Spark，加碼追趕競(jìng)爭(zhēng)對(duì)手

京東JoyStreamer自由態(tài)數(shù)字人上線：動(dòng)作靈動(dòng)鏡頭跟拍，適配五大行業(yè)場(chǎng)景

小米YU7 GT蓄勢(shì)待發(fā)：商標(biāo)申報(bào)中紐北諜照曝光千匹馬力或創(chuàng)紀(jì)錄

江鈴集團(tuán)2026年一季度海外出口大漲69% 新能源與全球化布局齊頭并進(jìn)

熱門內(nèi)容

本欄最新

新阿維塔12上市與06T預(yù)售：雙車齊發(fā)，智能豪華與性能平權(quán)共舞

商湯絕影發(fā)布家庭AI新成員可悠，以全場(chǎng)景協(xié)同開啟智能生活新體驗(yàn)

商湯絕影發(fā)布家庭AI新成員可悠，以創(chuàng)新技術(shù)打造全場(chǎng)景智能陪伴新體驗(yàn)

智譜GLM-5.1發(fā)布：國(guó)產(chǎn)開源模型新突破，8小時(shí)持續(xù)工作能力領(lǐng)跑全球

騰勢(shì)N9閃充版45萬(wàn)起售，刀片電池+極速補(bǔ)能，智能配置與安全性能雙優(yōu)

騰勢(shì)N9閃充版開啟預(yù)售！45萬(wàn)起售，極速補(bǔ)能+高階智駕亮點(diǎn)滿滿

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

新加坡國(guó)立大學(xué)新成果：GeoSR助力AI突破空間理解瓶頸