小米今日正式發(fā)布開源視覺語言動作(VLA)模型Xiaomi-Robotics-0,該模型以47億參數(shù)規(guī)模實現(xiàn)視覺語言理解與實時動作執(zhí)行的雙重突破,在仿真測試與真實機(jī)器人任務(wù)中均刷新多項最優(yōu)成績。其核心創(chuàng)新在于構(gòu)建了"感知-決策-執(zhí)行"的完整閉環(huán)系統(tǒng),能夠在消費級顯卡上完成每秒30幀以上的實時推理,為機(jī)器人物理智能的泛化應(yīng)用開辟新路徑。
模型架構(gòu)采用創(chuàng)新的Mixture-of-Transformers(MoT)設(shè)計,通過雙模塊協(xié)同工作實現(xiàn)復(fù)雜任務(wù)處理。視覺語言大腦(VLM)模塊基于多模態(tài)大模型構(gòu)建,可解析"整理桌面"等模糊指令,并從4K分辨率的視覺輸入中識別物體空間關(guān)系。動作執(zhí)行小腦(Action Expert)則引入多層Diffusion Transformer(DiT)結(jié)構(gòu),通過生成包含16個連續(xù)動作的"動作塊",配合流匹配技術(shù)確保毫米級操作精度。這種設(shè)計使機(jī)器人在疊毛巾任務(wù)中展現(xiàn)出類似人類的柔性操作能力,能自適應(yīng)調(diào)整力度防止織物撕裂。
針對傳統(tǒng)VLA模型訓(xùn)練中常見的"理解退化"問題,研發(fā)團(tuán)隊提出混合訓(xùn)練范式。在預(yù)訓(xùn)練階段,模型同時接觸1200萬幀機(jī)器人操作數(shù)據(jù)與2.3億張多模態(tài)圖像,通過動作提議機(jī)制強(qiáng)制VLM特征空間與動作空間對齊。專項訓(xùn)練階段則凍結(jié)VLM參數(shù),僅優(yōu)化DiT模塊的條件生成能力,最終實現(xiàn)98.7%的物體檢測準(zhǔn)確率與92.3%的視覺問答正確率。這種訓(xùn)練方式使模型在保持認(rèn)知能力的同時,動作生成頻率提升3倍。
為解決推理延遲導(dǎo)致的動作卡頓,團(tuán)隊開發(fā)了異步推理框架與Clean Action Prefix技術(shù)。通過解除模型推理與機(jī)械臂運動的同步約束,配合將前序動作作為輸入的軌跡平滑算法,使雙臂機(jī)器人在積木拆解任務(wù)中實現(xiàn)0.2秒內(nèi)的突發(fā)響應(yīng)。特殊設(shè)計的Λ形注意力掩碼進(jìn)一步強(qiáng)化模型對實時視覺反饋的關(guān)注度,在環(huán)境光線突變測試中,機(jī)器人動作偏差率較傳統(tǒng)模型降低67%。
在性能驗證環(huán)節(jié),Xiaomi-Robotics-0在LIBERO仿真環(huán)境中取得91.4%的任務(wù)完成率,較第二名模型提升14.2個百分點。真實場景測試中,雙臂機(jī)器人成功完成包含47個步驟的毛巾折疊任務(wù),操作精度達(dá)到0.5毫米級。多模態(tài)能力評估顯示,該模型在具身交互基準(zhǔn)測試中得分較基線模型提高31%,特別是在工具使用和空間推理等復(fù)雜場景中表現(xiàn)突出。
目前,小米已開放模型技術(shù)文檔、訓(xùn)練代碼及預(yù)訓(xùn)練權(quán)重。開發(fā)者可通過GitHub獲取基礎(chǔ)框架,在Hugging Face平臺下載完整模型包。該開源項目特別提供跨本體適配接口,支持機(jī)械臂、移動機(jī)器人等不同形態(tài)設(shè)備的快速部署,為工業(yè)自動化、家庭服務(wù)等場景提供可擴(kuò)展的智能解決方案。
















