宇樹科技近日宣布,正式開源其最新研發的通用人形機器人操作大模型UnifoLM-VLA-0。該模型基于視覺-語言-動作(VLA)架構,通過整合多模態數據與動力學預測技術,實現了從傳統圖文理解向具身智能的跨越式發展,為機器人物理交互能力帶來突破性提升。
針對機器人操作任務中指令理解與空間感知的核心挑戰,研發團隊構建了覆蓋2D/3D空間細節的多任務數據集。該數據集包含2D檢測分割、3D目標定位、空間軌跡預測等12類任務數據,總規模達340小時真機操作記錄。通過持續預訓練技術,模型實現了文本指令與空間信息的深度融合,其空間推理能力較基礎模型Qwen2.5-VL-7B提升47%,在"無思考"模式下達到Gemini-Robotics-ER 1.5的同等水平。
技術架構方面,UnifoLM-VLA-0創新性地集成動作分塊預測與雙向動力學約束模塊。通過離散動作序列建模,模型可同時理解機器人運動規律與物體交互特性,支持長達60秒的復雜動作規劃。在LIBERO仿真基準測試中,該模型展現出接近理論最優的多任務處理能力,單策略網絡即可穩定完成開門、抓取、搬運等12類操作任務。
真機驗證環節,基于宇樹G1人形機器人平臺構建的測試系統顯示,模型在單一策略checkpoint下實現100%任務完成率。面對外部擾動時,其執行魯棒性較傳統方法提升3.2倍,抗干擾能力達到工業級應用標準。研發團隊透露,該模型已成功應用于智能制造場景,可自主完成零件分揀、設備調試等精細化操作。
目前,項目代碼與數據集已通過GitHub平臺完全開源,包含預訓練模型權重、數據構建工具鏈及真機部署指南。開發者可訪問項目主頁獲取詳細技術文檔,或通過在線演示系統體驗模型實時推理能力。此次開源標志著具身智能技術進入實用化階段,為機器人領域的研究者與開發者提供了重要基礎設施。











