當人們試圖向朋友解釋如何走出迷宮時,通常會選擇用語言描述路徑,比如“先右轉,再直走,接著左轉”。但若換成繪制路線圖或拍攝演示視頻,信息傳達的清晰度與準確性或許會大幅提升。這一日常經驗背后,隱藏著人工智能領域的關鍵挑戰——如何讓機器像人類一樣高效處理視覺信息。近日,劍橋大學與哥本哈根大學人工智能中心聯合團隊在預印本平臺發布研究,通過實驗證明視頻生成模型在復雜視覺推理任務中表現優于傳統文字模型,為人工智能認知方式提供了新思路。
研究團隊首先聚焦大型語言模型的局限性。盡管這類模型在文本處理領域表現卓越,但面對需要精確空間判斷的任務時,常出現模糊甚至錯誤輸出。例如,當要求描述幾何圖形的旋轉角度與擺放位置時,模型可能給出“將三角形順時針轉一定角度”這類含糊指令,而非精確參數。這種缺陷類似于僅用語言指導他人完成精細手工操作——缺乏直觀參照時,誤差難以避免。
為驗證猜想,團隊設計了兩個對比實驗。在“迷宮導航”任務中,虛擬角色需在3×3至8×8規格的迷宮中尋找最短路徑,同時避開障礙物。實驗特別引入訓練時未出現的角色圖標與迷宮結構,以測試模型適應性。結果顯示,視頻生成模型不僅能快速規劃路徑,面對陌生環境時仍能保持高準確率,如同人類憑借導航邏輯而非記憶完成陌生區域探索。
“七巧板拼圖”實驗則進一步考驗空間推理能力。任務分為三個難度等級:初級“漸現模式”逐步顯示圖形位置;中級“旋轉模式”要求先調整角度再移動;高級“平移模式”需在固定方向下精確計算位置。實驗表明,文字模型在描述“將紅色梯形逆時針轉30度后右移1.5單位”時易產生歧義,而視頻模型通過動態演示完整拼裝過程,確保圖形幾何特征始終完整。
研究還發現兩個關鍵現象。其一,視覺參照顯著提升模型表現。當模型能觀察迷宮角色外觀或七巧板顏色形狀時,推理錯誤率降低40%,這類似于人類對照圖樣完成手工制作。其二,延長“思考時間”可增強復雜問題解決能力。通過生成更多視頻幀,模型能逐步優化路徑選擇,甚至在初始錯誤時自我修正——這種試錯行為與人類解題過程高度相似。
盡管成績斐然,視頻模型仍面臨技術瓶頸。在處理大幅圖形變換時,模型偶爾會扭曲幾何形狀,例如將正方形拉伸為菱形。當從規則網格迷宮遷移至不規則環境時,模型雖能掌握對角線移動等新技能,但訓練成本與計算耗時較文字模型高出3倍,限制了其即時應用潛力。
該研究對人機交互模式產生深遠影響。在機器人領域,視覺推理能力可幫助設備更精準操作物理對象;教育軟件中,動態演示能替代冗長文字說明,提升復雜概念理解效率;游戲行業則可利用此技術設計更智能的非玩家角色行為。研究團隊指出,當前技術仍需突破視覺穩定性與計算效率難題,但其驗證的“視覺優先”認知路徑,為開發更接近人類思維的AI系統提供了重要范式。
A:通過生成連續圖像幀構建推理鏈條。每幀代表一個決策步驟,完整視頻序列即解決方案的動態呈現。例如在迷宮任務中,幀間變化直接展示角色移動軌跡,避免文字描述的模糊性。
A:文字在表達空間關系時存在天然缺陷。如描述“物體A在物體B左上方”,不同讀者可能產生不同空間想象;而視頻通過絕對坐標與動態軌跡消除歧義,其信息密度與準確性更接近人類視覺認知。
A:未來AI助手可能采用“視覺解釋”模式。當用戶詢問設備維修步驟時,系統將播放3D動畫分解操作流程;學習數學幾何時,動態圖形演示輔助理解定理應用場景,顯著降低認知門檻。











