小米公司近日宣布,正式推出并開源其首款機器人視覺語言動作(VLA)大模型Xiaomi-Robotics-0,標志著具身智能領域迎來重要技術突破。該模型以47億參數規模實現視覺語言理解與實時動作執行的深度融合,突破了傳統VLA模型因推理延遲導致的物理世界交互瓶頸,在消費級硬件上即可完成高效推理,多項性能指標刷新行業紀錄。
傳統VLA模型雖具備強大的泛化能力,但高延遲問題嚴重制約了機器人在動態環境中的響應速度。小米研發團隊通過架構創新破解這一難題,采用"大腦+小腦"雙核心設計:以多模態視覺語言模型(VLM)構建認知中樞,可解析人類模糊指令并識別復雜空間關系;通過多層擴散變換器(DiT)搭建動作執行模塊,利用"動作塊"生成技術與流匹配算法,確保機器人動作的精準性與高頻性。這種混合架構使模型在保持認知能力的同時,將物理交互延遲降低至行業領先水平。
在訓練體系方面,小米獨創跨模態兩階段訓練法。預訓練階段通過動作提議機制實現視覺特征與動作空間的深度對齊,在凍結VLM參數的前提下專項優化DiT模塊,使模型同時掌握物體識別、邏輯推理與操作技能。后訓練階段引入異步推理框架,結合清潔動作前綴與Λ型注意力掩碼技術,有效解決真實機器人執行中的動作斷層問題,既保證運動軌跡的連續性,又強化了對實時視覺反饋的響應能力。
為推動技術生態建設,小米已全面開源Xiaomi-Robotics-0的技術文檔、訓練代碼及模型權重,提供完整的開發工具鏈支持。與此同時,小米機器人團隊正式啟動全球人才招募計劃,面向計算機視覺、強化學習、機器人控制等領域專家,共同探索物理智能的前沿邊界。此次開源不僅為學術界提供重要研究基準,更為工業界落地具身智能應用開辟了新路徑。
















