鳳凰網(wǎng)科技訊 1月29日,機器人公司宇樹科技宣布開源其視覺-語言-動作(VLA)大模型 UnifoLM-VLA-0。該模型旨在解決傳統(tǒng)視覺語言大模型(VLM)在物理交互中的局限,通過針對性的預訓練,使之從圖文理解能力進化成具備物理常識的“具身大腦”。
據(jù)官方介紹,UnifoLM-VLA-0 是 UnifoLM 系列下專門面向通用人形機器人操作的模型。其基于開源的 Qwen2.5-VL-7B 模型構建,使用了覆蓋通用與機器人場景的多任務數(shù)據(jù)集進行持續(xù)預訓練,以提升模型對幾何空間與語義邏輯的對齊能力。
模型的核心突破在于針對操作任務的高要求,深度融合了文本指令與2D/3D空間細節(jié),并構建了全鏈路動力學預測數(shù)據(jù)以增強任務泛化性。特別地,宇樹在模型架構上集成了動作預測頭,并對開源數(shù)據(jù)集進行了系統(tǒng)化清洗,最終僅利用約340小時的真機數(shù)據(jù),結合動作分塊預測與動力學約束,實現(xiàn)了對復雜動作序列的統(tǒng)一建模與長時序規(guī)劃。
評估結果顯示,該模型在多個空間理解基準上的能力較基礎模型有顯著提升,并在“no thinking”模式下可比肩 Gemini-Robotics-ER 1.5。在 LIBERO 仿真基準測試中,其多任務模型也取得了接近最優(yōu)的性能。
在真機驗證環(huán)節(jié),UnifoLM-VLA-0 在宇樹 G1 人形機器人平臺上,僅憑單一策略網(wǎng)絡即可高質(zhì)量完成開閉抽屜、插拔插頭、抓取放置等12類復雜的操作任務。官方稱,即使在外部擾動條件下,模型也表現(xiàn)出良好的執(zhí)行魯棒性與抗干擾能力。
目前,該模型的項目主頁與開源代碼已在 GitHub 平臺公布,供開發(fā)者與研究人員獲取。











