機器人憑單一策略,可完成多項復雜操作任務。
機器人前瞻1月30日報道,剛剛,宇樹科技正式開源其通用人形機器人操作大模型UnifoLM-VLA-0。
這款模型通過在機器人操作數據上開展持續預訓練,讓機器人僅憑單一策略,就能完成多項復雜的長程操作任務,比如機器人協作整理桌面、擰開有一定阻力的瓶蓋、折疊毛巾,以及在人為干擾的情況下堆疊積木、給水果分類等,泛化能力更強了。
并且,模型在空間感知能力上有了明顯提升,在零樣本的場景下,就可以精準推理目標所處位置、生成運動軌跡、判斷物體可抓取點、完成目標物品的檢測、分割與定位等。
01.
從VLM到VLA,
僅用340小時真機數據進行訓練
宇樹介紹,該模型基于開源視覺語言模型Qwen2.5-VL-7B演化而來。
宇樹先是構建了覆蓋機器人與通用場景的多任務數據集并開展持續預訓練,該數據集涵蓋2D檢測與分割、任務層級分解、3D目標檢測、空間位置推理及軌跡預測等多維數據,有效提升了模型對幾何空間與語義邏輯的對齊能力。
在操作任務上,宇樹對開源數據集進行了系統化清洗,最終僅使用約340小時真機數據進行離散動作預測訓練。
在動作建模上,模型進一步集成了動作分塊預測,并加入前向與逆向動力學約束,把動作序列統一建模,從而讓VLM具備對“機器人—物體”物理交互規律的更深理解,并支持更長時序的動作規劃與決策。
完成上述持續預訓練后,UnifoLM-VLM-0在多類任務場景下展現出更強的空間推理能力與更可靠的多模態感知表現,相關零樣本測試示例如下:
▲任務推理:根據文本推理目標物體和位置并生成移動軌跡
▲空間推理:理解空間的位置關系
▲圖像定位:檢測圖像中物體的3D框
02.
可實現低延時實時操作,
LIBERO基準獲98.7分
UnifoLM-VLM-0在“no thinking”模式下,在ERQA、RoboSpatial、Where2Place三個空間理解基準上的表現,比肩谷歌的Gemini Robotics ER 1.5。
“no thinking”模式,指的是模型不進行額外的推理過程,直接給出結果的一種運行方式。這意味著模型的空間理解能力已經被充分內化,更適合機器人在真實環境中進行低延遲實時操作。
在LIBERO仿真基準測試中,UnifoLM-VLA-0在“空間”子項獲得99.0分,在“物體”子項獲得100分,在“目標”子項獲得99.4分,在“長序列”任務獲得96.2分,平均分為98.7分。
相較于OpenVLA-OFT的平均分為97.1分、GR00T-N1.6的平均分為97.0分,UnifoLM-VLA-0較為領先。
03.
單一策略下,
穩定完成12項復雜長程任務
在宇樹G1上,團隊構建了覆蓋12類復雜操作任務的高質量真機數據集,并基于此對UnifoLM-VLA-0進行單一策略網絡的端到端統一訓練。
宇樹稱,真機實驗表明:模型能在同一策略checkpoint下穩定完成全部12項任務,并在外部擾動下保持較好的魯棒性與抗干擾能力。
這些任務,涉及了整理收納、多機協作、帶阻力的開合旋轉、多步驟長鏈條執行、規則推理與抗干擾糾錯等不同維度,貼近機器人要真正落地的可用能力。
比如,兩臺G1協同收納桌子上餐盤與垃圾,其中一臺還將散落的筆遞給另一臺,再一起放入盒中。
G1拿起筆袋放入背包并拉上拉鏈;打開藥瓶,將藥丸倒入盒中;鋪平毛巾后,折疊成正方形并放置到位。
按“紅色-綠色-黃色”順序堆疊積木,即使人為移走已堆好的積木,G1也能及時調整并重新完成堆疊。
把水果按照顏色放入對應顏色的盤子,面對人為干擾,機器人依舊可以較順利完成。
04.
結語:從硬件生產到軟件算法,
宇樹加快構造全鏈路壁壘
2025年,宇樹以5500臺出貨量登頂全球人形機器人銷量榜首,在硬件量產端構筑起堅實壁壘的同時,正持續在軟件算法領域深耕布局、打造核心優勢,UnifoLM-VLA-0的落地正是其算法端的一大突破。
UnifoLM-VLA-0所展現的少數據高效訓練、強空間理解及復雜場景抗干擾操作等核心能力,有望推動人形機器人領域從碎片化任務訓練,向開放場景的通用化能力構建穩步邁進。








