生數科技與清華大學聯合研發的統一世界模型Motus近日正式開源,這一成果在具身智能領域引發廣泛關注。該模型以視頻大模型為基礎架構,在多項核心任務中展現出顯著優勢,較國際主流VLA模型Pi0.5成功率提升約40%,為具身智能的規模化擴展提供了可行路徑。
研究團隊指出,視頻數據天然包含物理世界的時空結構、因果關系與動態變化,是連接感知與行動的關鍵多模態載體。Motus突破傳統具身智能系統"感知-推理-行動"的模塊化設計,通過統一框架整合了VLA、世界模型、視頻生成模型等五類基礎范式,構建了從感知到執行的端到端建模路徑。這種一體化設計使其區別于側重仿真渲染的同類模型,可直接應用于物理機器人執行。
針對具身智能領域長期存在的真機數據稀缺問題,Motus創新性地統一了跨本體機器人數據、仿真數據、人類操作視頻等多元數據源的動作空間。通過大規模預訓練,模型學習到通用運動先驗知識,在跨任務和跨平臺場景中展現出強大的泛化能力。實驗數據顯示,在50個任務的數據規模擴展測試中,Motus平均成功率較Pi0.5提升35.1個百分點,數據效率達到對比模型的13.55倍。
在任務復雜度測試中,Motus的優勢更為突出。隨著任務數量增加,其成功率持續上升,而對比模型出現明顯下降,最終成功率差距達37個百分點。在RoboTwin 2.0仿真環境的50個任務評測中,模型取得約88%的平均成功率,部分高難度操作任務的成功率顯著優于現有基線模型。真實機器人平臺部署測試進一步驗證了其跨本體遷移能力。
該成果的開源包含完整代碼、研究論文和模型權重,已在GitHub、Hugging Face等平臺公開。生數科技表示,Motus的發布旨在為具身智能領域提供統一的基礎模型方案,推動行業從模塊化系統向統一智能體架構演進。值得注意的是,這項研究早于行業同類成果約兩個月完成論文發布與開源,其技術路線選擇與實施效率均體現出領先性。
此前,合作團隊已于2025年7月提出Vidar具身視頻模型,圍繞"視頻模型作為統一表征底座"的技術方向展開探索。Motus的研發延續了這一技術脈絡,通過整合視頻生成、逆動力學建模等能力,形成了更完整的具身智能解決方案。這種技術演進路徑為解決機器人學習中的數據瓶頸問題提供了新思路。












