在人工智能視頻生成領域,物理規律的一致性始終是制約技術發展的關鍵瓶頸。由北卡羅來納大學與FieldAI公司聯合研發的SketchVerify框架,通過引入電影拍攝中的"預演-驗證"機制,成功破解了這一難題。該系統在生成視頻前會先用簡化的動態草圖模擬物體運動,再由多模態模型評估其物理合理性,最終僅保留符合現實規律的運動方案進行完整視頻生成。這項突破性成果已發表于arXiv平臺,論文編號arXiv:2511.17450v1。
傳統AI視頻生成技術常因忽視物理規律導致"穿模"、懸浮等低級錯誤。例如機械臂抓取物品時可能穿透桌面,拋出的球體在空中突然靜止,這些違背常識的畫面嚴重削弱了視頻的真實感。研究團隊通過對比實驗發現,現有主流模型在涉及復雜物理交互的場景中,錯誤率普遍超過30%,尤其在物體形變和碰撞反應等維度表現欠佳。
SketchVerify框架構建了三級處理機制:首先利用GPT-4.1將用戶指令拆解為可執行的子動作序列,如將"機械臂放置胡蘿卜"分解為"移動-抓取-放置"三個階段;隨后通過GroundedSAM技術精準識別場景中的可動對象,并創建無動態元素的純凈背景;最核心的草圖生成階段,系統會為每個子動作生成5種不同運動軌跡的簡化動畫,這些僅包含物體輪廓和運動路徑的草圖,渲染速度比完整視頻快近10倍。
物理驗證環節由Gemini 2.5多模態模型擔任"裁判",其評估標準涵蓋四個維度:牛頓運動定律符合度、物體穿透檢測、重力影響一致性及形變穩定性。例如在評估拋物線運動時,系統會檢查物體加速度是否符合慣性定律;處理碰撞場景時,則重點監測反作用力是否合理。每個候選方案都會獲得0-1分的綜合評分,只有得分超過0.7的方案才能進入最終生成階段。
在WorldModelBench基準測試中,該框架在物理一致性指標上取得突破性進展:物體形變錯誤率降低17%,重力連貫性和穿透檢測均獲滿分。另一權威平臺PhyWorldBench的評估顯示,其在物理準確性維度領先第二名18個百分點。更值得關注的是效率提升——完整視頻生成時間從傳統方法的30分鐘壓縮至5分鐘,計算資源消耗減少90%。
技術實現層面,系統采用ATI-14B擴散模型進行最終視頻生成,該模型經過軌跡條件優化,能精準還原預演階段驗證通過的運動路徑。在機械臂操作場景測試中,生成視頻中物體接觸點的空間誤差控制在2像素以內,運動平滑度指標提升42%。對于包含多個動態元素的復雜場景,系統仍能保持92%的物理規律遵循率。
該技術已展現出跨領域應用潛力。在自動駕駛仿真測試中,系統可快速生成包含異常天氣的駕駛場景視頻,幫助算法訓練極端條件下的應對能力;教育領域則利用其生成物理實驗演示動畫,使抽象概念可視化;游戲開發者正探索將其用于自動生成符合物理規則的動畫素材庫。
當前系統仍存在三維空間處理能力不足、微小物體交互建模精度有限等局限。研究團隊透露,下一代版本將引入六自由度運動表示法,并開發基于神經輻射場的3D場景重建模塊,以提升對復雜空間關系的處理能力。同時,正在構建更全面的物理規則知識庫,通過融合流體力學、材料科學等專項模型,擴展系統對特殊物理現象的認知范圍。











