近日,宇樹科技宣布開源其最新研發(fā)的通用人形機(jī)器人操作大模型UnifoLM-VLA-0,標(biāo)志著視覺-語言-動作(VLA)領(lǐng)域的技術(shù)突破。該模型基于Qwen2.5-VL-7B開源框架構(gòu)建,通過整合機(jī)器人操作數(shù)據(jù)與通用場景的多任務(wù)數(shù)據(jù)集,實(shí)現(xiàn)了從傳統(tǒng)圖文理解向具備物理常識的"具身智能"的跨越式發(fā)展。
針對機(jī)器人操作任務(wù)中指令理解與空間感知的核心需求,研發(fā)團(tuán)隊(duì)創(chuàng)新性地構(gòu)建了包含2D檢測分割、3D目標(biāo)定位、空間推理及軌跡預(yù)測的多維數(shù)據(jù)集。通過約340小時的真機(jī)操作數(shù)據(jù)預(yù)訓(xùn)練,模型實(shí)現(xiàn)了文本指令與空間信息的深度融合,在單一策略網(wǎng)絡(luò)下即可完成12類復(fù)雜操作任務(wù)。實(shí)驗(yàn)數(shù)據(jù)顯示,該模型在真機(jī)環(huán)境中展現(xiàn)出卓越的抗干擾能力,即使面對外部擾動仍能保持穩(wěn)定執(zhí)行。
技術(shù)實(shí)現(xiàn)層面,模型采用動作分塊預(yù)測與雙向動力學(xué)約束機(jī)制,構(gòu)建了全鏈路動力學(xué)預(yù)測模型。這種設(shè)計使系統(tǒng)能夠統(tǒng)一建模動作序列,深入理解機(jī)器人與物體的物理交互規(guī)律,從而支持長時序動作規(guī)劃。在LIBERO仿真基準(zhǔn)測試中,多任務(wù)模型性能接近理論最優(yōu)值,驗(yàn)證了其單模型處理多任務(wù)的能力。
評估結(jié)果顯示,UnifoLM-VLA-0在空間感知與理解能力上較基礎(chǔ)模型提升顯著,在"no thinking"模式下可與Gemini-Robotics-ER 1.5等國際先進(jìn)模型媲美。基于該模型的動作預(yù)測頭(ActionHead)集成方案,為機(jī)器人提供了更精準(zhǔn)的決策支持,在仿真與真實(shí)環(huán)境中均驗(yàn)證了其通用性優(yōu)勢。
目前,宇樹科技已開放模型代碼與數(shù)據(jù)集下載,項(xiàng)目主頁提供詳細(xì)技術(shù)文檔與演示案例。這一開源舉措有望推動具身智能領(lǐng)域的技術(shù)發(fā)展,為通用人形機(jī)器人的商業(yè)化應(yīng)用奠定基礎(chǔ)。相關(guān)資源可通過GitHub平臺獲取,開發(fā)者可基于現(xiàn)有框架進(jìn)行二次開發(fā)與創(chuàng)新應(yīng)用。











