宇樹科技近日宣布,其自主研發(fā)的通用人形機器人操作大模型UnifoLM-VLA-0正式開源。該模型通過單一策略網絡實現多項復雜操作任務,在空間感知、任務推理和抗干擾能力方面取得突破性進展,標志著人形機器人向通用化能力構建邁出關鍵一步。
基于開源視覺語言模型Qwen2.5-VL-7B演化而來的UnifoLM-VLA-0,通過構建覆蓋機器人操作與通用場景的多任務數據集進行持續(xù)預訓練。該數據集整合2D檢測分割、3D目標定位、空間位置推理等12類維度數據,僅使用340小時真機操作數據即完成離散動作預測訓練。模型采用動作分塊預測與雙向動力學約束技術,使機器人能夠理解"物體-機械臂"交互規(guī)律,支持更長時序的動作規(guī)劃。
在空間理解能力測試中,該模型展現顯著優(yōu)勢。在ERQA、RoboSpatial、Where2Place三項基準測試中,其"無思考模式"表現與谷歌Gemini Robotics ER 1.5持平。在LIBERO仿真基準測試中,模型以98.7分的平均成績領先同類產品,其中"物體"子項獲得滿分,在長序列任務中仍保持96.2分的高水準。這種內化的空間理解能力使機器人具備低延遲實時操作潛力,特別適合動態(tài)環(huán)境下的快速響應需求。
真機實驗驗證了模型的泛化能力。在宇樹G1機器人平臺上,單一策略網絡成功駕馭12類復雜任務,涵蓋整理收納、多機協(xié)作、帶阻力操作等場景。實驗顯示,機器人能協(xié)作完成餐盤收納、藥品分裝等任務,當遇到人為干擾時,仍可自主調整策略完成積木堆疊、水果分類等操作。特別在抗干擾測試中,被移走已堆疊積木的機器人能即時重新規(guī)劃動作序列,展現強魯棒性。
技術突破的背后是算法架構的創(chuàng)新。模型通過集成多模態(tài)感知與空間推理模塊,將幾何空間理解與語義邏輯對齊能力提升至新高度。在零樣本場景下,機器人可自主完成目標檢測、運動軌跡生成、可抓取點判斷等全流程操作。這種"感知-決策-執(zhí)行"的閉環(huán)設計,有效解決了傳統(tǒng)機器人需要針對每個任務單獨訓練的碎片化問題。
作為全球人形機器人銷量領先企業(yè),宇樹科技正加速構建軟硬件協(xié)同壁壘。UnifoLM-VLA-0的推出不僅完善了其技術生態(tài)鏈,更通過開源策略推動行業(yè)共同發(fā)展。該模型展現的少樣本訓練效率與強泛化能力,為機器人從工業(yè)場景向服務領域滲透提供了關鍵技術支撐,有望重新定義人機協(xié)作的邊界。











