人工智能領(lǐng)域迎來一項(xiàng)突破性進(jìn)展,清華大學(xué)與字節(jié)跳動(dòng)Seed聯(lián)合研究團(tuán)隊(duì)提出讓AI通過生成圖像進(jìn)行推理的創(chuàng)新方法。這項(xiàng)研究顛覆了傳統(tǒng)AI依賴文字符號的思維模式,使機(jī)器能夠像人類一樣在"腦海"中構(gòu)建視覺畫面來理解空間關(guān)系、預(yù)測物理變化,為智能系統(tǒng)處理現(xiàn)實(shí)世界問題開辟了全新路徑。
當(dāng)前主流AI系統(tǒng)在數(shù)學(xué)運(yùn)算、代碼編寫等抽象任務(wù)中表現(xiàn)優(yōu)異,但面對需要空間想象的場景時(shí)卻頻頻受挫。研究團(tuán)隊(duì)發(fā)現(xiàn),即使是最先進(jìn)的語言模型,在處理紙張折疊后的孔洞分布、預(yù)測彈球反彈軌跡等基礎(chǔ)物理問題時(shí),準(zhǔn)確率甚至低于學(xué)齡前兒童。這種"紙上談兵"的缺陷,源于現(xiàn)有技術(shù)缺乏人類與生俱來的視覺認(rèn)知能力。
研究核心創(chuàng)新在于構(gòu)建"視覺世界模型",使AI在虛擬空間中模擬現(xiàn)實(shí)世界的物理規(guī)律。當(dāng)面對復(fù)雜問題時(shí),系統(tǒng)會同步生成三維場景圖像,通過觀察不同視角的畫面驗(yàn)證推理過程。這種"視覺鏈?zhǔn)剿季S"模式,相當(dāng)于為機(jī)器安裝了能進(jìn)行空間想象的"大腦",使其在處理幾何變換、物體堆疊等任務(wù)時(shí),推理準(zhǔn)確率提升最高達(dá)66%。
為系統(tǒng)評估AI的視覺推理能力,研究團(tuán)隊(duì)設(shè)計(jì)了包含七類任務(wù)的評測體系。其中紙張折疊任務(wù)要求AI根據(jù)折疊過程和最終孔洞,逆向推演原始紙張的打孔位置;立方體三視圖任務(wù)則需通過正、側(cè)、俯三個(gè)視角的投影,還原三維物體的完整結(jié)構(gòu)。這些測試覆蓋了幾何變換、狀態(tài)跟蹤、物理模擬等認(rèn)知維度,全面檢驗(yàn)機(jī)器的空間理解水平。
實(shí)驗(yàn)對比顯示,三種推理模式呈現(xiàn)顯著差異。純語言推理如同"閉目解題",僅依靠文字描述進(jìn)行邏輯推導(dǎo);顯式語言建模會詳細(xì)記錄每步推理的文字說明;而視覺推理則通過生成中間圖像輔助思考。在多步操作任務(wù)中,引入視覺輔助的AI準(zhǔn)確率從40%躍升至66.6%,證明圖像信息能有效彌補(bǔ)文字描述的不足。
技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)基于多模態(tài)模型BAGEL開發(fā)了專門訓(xùn)練框架。系統(tǒng)通過監(jiān)督微調(diào)學(xué)習(xí)人類專家的推理策略,掌握何時(shí)生成圖像、如何解讀畫面信息等技能;再通過強(qiáng)化學(xué)習(xí)優(yōu)化決策過程,使視覺生成與邏輯推理形成有機(jī)聯(lián)動(dòng)。特別設(shè)計(jì)的損失函數(shù)能同時(shí)優(yōu)化語言和圖像生成質(zhì)量,確保兩種模態(tài)的信息協(xié)同工作。
深入分析發(fā)現(xiàn),視覺推理的效能取決于任務(wù)特性與先驗(yàn)知識。對于需要跟蹤復(fù)雜狀態(tài)變化的任務(wù),圖像能編碼更多空間細(xì)節(jié)信息;而當(dāng)處理簡單迷宮路徑時(shí),坐標(biāo)描述反而更高效。研究還揭示,AI通過預(yù)訓(xùn)練積累的視覺經(jīng)驗(yàn)可遷移至新任務(wù),使其在紙張折疊等場景中僅需四分之一訓(xùn)練數(shù)據(jù)就能達(dá)到同等性能。
這項(xiàng)突破為智能技術(shù)落地應(yīng)用帶來新可能。在機(jī)器人領(lǐng)域,具備空間想象能力的AI可精準(zhǔn)規(guī)劃物體抓取路徑;自動(dòng)駕駛系統(tǒng)能通過生成虛擬場景預(yù)測復(fù)雜路況;工業(yè)設(shè)計(jì)軟件可實(shí)時(shí)模擬產(chǎn)品組裝過程。盡管當(dāng)前圖像生成質(zhì)量在精細(xì)結(jié)構(gòu)處理上仍有提升空間,但研究已證明多模態(tài)推理比單一語言模式更具適應(yīng)性。
研究團(tuán)隊(duì)指出,未來AI將發(fā)展出更靈活的認(rèn)知方式,根據(jù)任務(wù)需求自動(dòng)切換推理模態(tài)。當(dāng)機(jī)器能像人類一樣交替使用語言邏輯與視覺想象進(jìn)行思考時(shí),其處理現(xiàn)實(shí)世界復(fù)雜問題的能力將產(chǎn)生質(zhì)的飛躍。這項(xiàng)探索不僅拓展了人工智能的邊界,更為構(gòu)建真正理解物理世界的智能系統(tǒng)奠定了技術(shù)基礎(chǔ)。








