在計算機視覺與機器人技術領域,一項突破性成果引發全球關注。由智元機器人攜手北京航空航天大學共同研發的ACoT-VLA(Action Chain-of-Thought)架構,憑借其創新性思維鏈范式,成功入選計算機視覺領域頂級學術會議CVPR 2026。該架構首次將推理過程從傳統語義空間延伸至動作空間,有效解決了現有視覺語言動作(VLA)模型中普遍存在的"語義理解強、動作執行弱"的技術瓶頸。
研究團隊通過構建動作層級的因果推理機制,使機器人能夠像人類一樣在執行任務前進行"動作預演"。與傳統模型依賴文本指令驅動的方式不同,ACoT-VLA架構通過分解復雜操作序列,在動作維度建立邏輯鏈條,顯著提升了機器人在非結構化環境中的操作精度與適應性。實驗數據顯示,該架構在AGIBOT自研的機器人操控基準測試中,任務完成率較現有模型提升37%,尤其在需要多步驟協同的精密操作場景中表現突出。
為推動技術普惠與產業應用,智元機器人已將ACoT-VLA架構作為AGIBOT WORLD CHALLENGE機器人挑戰賽的官方基線模型全面開源。該模型支持多模態輸入與開放詞匯指令,開發者可基于其構建面向工業制造、物流倉儲、家庭服務等場景的智能操控系統。目前,全球已有超過200個研究團隊下載使用該模型,在機械臂抓取、雙臂協作等任務中取得顯著進展。
此次技術突破標志著機器人智能操控進入"動作理解"新階段。通過將高階認知能力注入底層動作控制,ACoT-VLA架構為解決復雜環境下的機器人決策問題提供了全新范式。隨著開源社區的持續優化,該技術有望加速推動服務機器人從實驗室走向真實應用場景,重塑人機協作的生產生活方式。










