在計算機視覺與機器人技術交叉領域,一項突破性研究成果引發全球關注。智元機器人(AGIBOT)與北京航空航天大學聯合研發的ACoT-VLA架構,憑借其創新性思維范式成功入選計算機視覺頂會CVPR 2026。該架構突破傳統視覺語言動作模型(VLA)的局限,首次將推理過程從語義空間延伸至動作空間,為機器人復雜操作任務提供了全新解決方案。
傳統VLA模型長期面臨"語義理解強、動作執行弱"的矛盾,尤其在需要多步驟協同的操控場景中表現欠佳。研究團隊提出的動作鏈思維(Action Chain-of-Thought)范式,通過構建動作序列的顯性推理機制,使機器人能夠像人類一樣分解任務步驟、評估動作效果并動態調整策略。實驗數據顯示,該架構在工具使用、物體操作等復雜任務中的成功率較傳統模型提升42%,推理效率提高3倍。
作為AGIBOT WORLD CHALLENGE機器人挑戰賽的官方基線模型,ACoT-VLA已實現完整開源。開發者可基于該架構快速構建機器人操控系統,其模塊化設計支持從仿真環境到真實場景的無縫遷移。目前,全球已有超過300個研究團隊下載使用該模型,在工業裝配、醫療輔助等領域開展應用探索。
這項成果標志著機器人智能體從"被動執行"向"主動規劃"的關鍵跨越。研究團隊透露,下一代架構將整合觸覺感知與物理推理能力,進一步縮小虛擬仿真與真實世界的性能差距。隨著開源社區的持續完善,ACoT-VLA有望成為機器人復雜操作任務的基礎性技術平臺。











