在人工智能領域,大語言模型憑借海量數據和龐大參數規模取得顯著進展,但當聚焦于機器人領域,試圖讓機器人完成疊衣服、洗碗等日常任務時,這種依賴數據堆砌的方式卻遭遇瓶頸。這便是機器人學界長期面臨的“莫拉維克悖論”:計算機在智力測試中達到成人水平相對容易,可要擁有像一歲小孩那樣的感知和行動能力卻困難重重。不過,中國科研團隊的一項新成果,為破解這一難題帶來了新曙光。
此前,人形機器人的訓練主要依賴“模仿學習”。像斯坦福大學的Mobile ALOHA、特斯拉的Optimus等,都是通過遙操作收集大量人類示教數據,再利用“擴散策略”讓機器人復刻動作。這種方法在特定場景下表現尚可,但存在明顯缺陷。一旦環境發生變化,如光線改變、物體位置偏移或出現新形狀物體,機器人就會不知所措,出現“過擬合”現象,更像是機械執行指令的演員,而非具備理解能力的智能體。
武漢大學研究團隊提出的“循環幾何先驗多模態策略”(RGMP)架構,為機器人訓練開辟了新路徑。該架構并非單純追求更大模型參數或更多數據,而是賦予機器人基于幾何學的“物理常識”。研究顯示,搭載RGMP架構的人形機器人在面對全新任務時,成功率高達87%,數據訓練效率是當前主流技術的5倍,這一成果為具身智能走出實驗室指明了新方向,也彰顯了中國在機器人核心算法領域的領先實力。
RGMP架構由“幾何先驗技能選擇器”(GSS)和“自適應循環高斯網絡”(ARGN)兩大核心組件構成,分別解決機器人操作中的“該做什么”和“該怎么做”問題。其中,幾何先驗技能選擇器(GSS)如同“戰術指揮官”,將幾何歸納偏置注入機器人視覺認知。傳統視覺語言模型雖能識別物體,但缺乏對空間屬性的理解,而GSS能讓機器人在觀察環境時實時解析物體三維幾何特征,賦予其“空間直覺”。面對陌生物體,GSS無需匹配數據庫樣本,通過分析幾何結構就能判斷最佳操作策略,實現“零樣本”或“少樣本”適應。
自適應循環高斯網絡(ARGN)則像是機器人的“運動小腦”,攻克了執行層面的難題。物理世界充滿不確定性,傳統深度學習策略難以應對。ARGN引入“高斯網絡”對動作不確定性建模,結合循環神經網絡特性,賦予機器人“短時記憶”能力。機器人在執行任務時,能記住過去動作趨勢和接觸反饋,動態調整后續動作,像人類一樣根據觸感微調力度和姿態,保持動作連貫性和穩定性。
在具身智能領域,數據效率是衡量算法商業落地潛力的重要指標。研究團隊測試表明,與基于擴散策略的先進模型相比,RGMP達到同等性能所需訓練數據量減少約5倍。在機器人研發中,高質量人類示教數據采集成本高昂,需專業人員佩戴昂貴設備進行長時間操作。RGMP的效率提升,大幅降低了機器人學習新技能的門檻。未來工廠機器人或許只需幾次簡單演示,甚至“看”一眼新產品3D模型,就能通過幾何直覺生成操作程序。
RGMP展現出的87%全新任務成功率,證明其初步具備“舉一反三”的通用能力。家庭環境復雜多變,傳統機器人難以應對,而RGMP讓“機器人保姆”從科幻走向現實成為可能。若機器人能依靠幾何常識處理家務,在整理房間、清潔烹飪等任務中的表現將大幅提升。
目前,RGMP雖已展現強大適應性,但仍處于單步任務層面。研究團隊計劃賦予其更高級的自主規劃能力,使其能推斷復雜長程任務的動作軌跡。未來,機器人或許只需聽到簡單指令,就能自主規劃一整套動作序列。該技術在工業制造、倉儲物流和危險環境作業等領域也有廣闊應用前景。在柔性制造車間,適應不同形狀零件的機器人可提升生產線靈活性;在災難救援現場,具備幾何直覺的機器人能提高生存率和任務成功率。隨著技術不斷完善,機器人靈活操作萬物的未來正加速到來。











