在機器人技術領域,如何彌合語義理解與運動執行之間的鴻溝,一直是制約行業發展的核心難題。近日,智元推出的新一代VLA基座模型Genie Operator-2(GO-2)通過創新架構設計,為這一難題提供了新的技術路徑。該模型引入"動作思維鏈"與"異步雙系統"兩大核心架構,試圖讓機器人從"邊想邊做"轉向"先想后做"的穩定執行模式。
傳統機器人系統采用分層架構:高層模型負責語義推理,中間模塊拆解任務,底層系統生成控制信號。這種設計在簡單任務中表現尚可,但在多步驟、長時序場景下暴露出明顯缺陷——語言符號到控制信號的轉換過程中,語義信息被離散化處理,導致動作執行缺乏全局連貫性。智元研究團隊發現,當機器人執行"取水杯"這類任務時,雖然能規劃出理論最優路徑,但實際動作常因微小誤差累積而偏離目標,最終導致任務失敗。
GO-2的創新之處在于重構了決策鏈路。其"動作思維鏈"架構直接在動作空間進行推理,模型接收任務后首先生成高層動作序列,將任務拆解為包含時序關系、階段劃分的結構化方案。這種設計使執行系統接收到的不是臨時生成的控制指令,而是具備全局連貫性的行動框架。實驗數據顯示,該架構使機器人動作偏差修正效率提升40%,在復雜任務中的目標漂移率降低65%。
為應對動態環境挑戰,GO-2采用"異步雙系統"架構將規劃與執行解耦。慢系統負責生成穩定動作方向,通過逐步展開的方式保持整體行為結構;快系統則以高頻響應實時調整控制信號,處理位置誤差、接觸變化等突發狀況。這種設計突破了傳統一次性規劃的局限,使機器人能在執行過程中持續對齊規劃目標。研究團隊特別開發的帶噪聲強制教學機制,通過在訓練中模擬規劃不完美場景,使系統具備更強的環境適應能力。
在具身智能基準測試中,GO-2展現出顯著優勢。在LIBERO Benchmark的Spatial、Object、Goal與Long四類任務中,該模型平均成功率達到98.5%,特別是在需要多步驟協調的長時序任務中,其表現優于現有主流模型23個百分點。更值得關注的是,GO-2通過將部署過程納入能力訓練體系,使模型在真實環境中持續優化——系統運行時間越長,積累的反饋數據越多,模型性能隨之提升,形成"部署-反饋-優化"的良性循環。
這項突破標志著機器人技術從實驗室走向實際應用邁出關鍵一步。智元團隊指出,未來模型能力的評估將不再局限于測試集表現,實際部署深度和持續學習能力將成為重要指標。隨著GO-2架構在工業搬運、服務機器人等場景的落地驗證,機器人技術有望突破"知行不一"的瓶頸,真正實現復雜環境下的穩定自主作業。












