在具身智能領域,一場具有里程碑意義的變革正悄然發生。長久以來,具身智能的發展受困于評測瓶頸,傳統依賴仿真環境的評測方式,雖能加速模型迭代,卻難以跨越“仿真到現實”的鴻溝,導致模型在虛擬環境中表現優異,卻在真實物理世界中“水土不服”。如今,一個全新的“真機演武場”在行業內嶄露頭角,為具身智能的發展開辟了新路徑。
近期落幕的EAIDC 2026大會上,一場別開生面的開發者大賽吸引了眾多目光。從表面看,這似乎是一場普通的開發者競賽,但深入探究其賽制設計,會發現它是一場從“模型視角”精心策劃的能力測試。這場比賽在多個關鍵層面展現出獨特之處。
在模型路徑選擇上,比賽給予參賽者充分自由。參賽者能夠自由挑選不同的開源具身模型,涵蓋各類國內外VLA。這一設定并非單純降低參賽門檻,而是旨在激發開發者的創新潛力,提升其分辨能力。數據范式的處理也是一大亮點。比賽提供真機數據,且無本體數據參與訓練,讓開發者依據自身思考和研究方向,自主選擇數據配比。如此一來,真正接受檢驗的不再是數據路線的正確性,而是數據能否在真實環境中支撐模型實現閉環。
任務設計方面,比賽聚焦于具身智能的核心能力,圍繞抓取、語言理解、精細操作與長時序決策等展開。不同任務設置不同權重,最終成績不僅考量步驟得分,還綜合成功率和泛化表現。這種結構使比賽不再局限于考察模型“能否完成任務”,而是直接指向模型能力的上限,即“能否落地應用,如何與產業結合”。例如,選手在面對“將環套在柱子上”任務時,初期成功率僅20 - 30%,隨著不斷嘗試和優化,逐漸提升至60 - 70%;“拼寫單詞”任務的成功率也從極低水平提升至40 - 50%。在高難度任務的“磨礪”下,模型能力邊界不斷拓展。
泛化機制的引入是比賽的又一創新點。通過類似AB卷、隨機環境切換等設計,考驗模型的泛化能力。比賽的B卷在制度上限制“刷題式優化”,迫使模型面對未知條件。這一機制將“泛化能力”從附加項轉變為核心指標,使比賽更接近測試模型的“未知邊界”,而非僅僅驗證“已知能力”。
為了確保比賽順利進行,讓選手專注于算法優化與任務實現,主辦方提供了全方位的支持。比賽使用的機械臂是自變量機器人自主研發的高性能六軸機械臂,專為AI設計,具備高精度、高響應的硬件性能,能更好地復現模型能力。在三天的高強度運行中,無論是大規模數據采集,還是模型推理部署,這套機械臂硬件系統都展現出穩定的承壓能力,為參賽團隊提供了可靠、一致的硬件保障。主辦方還提供算力支持,解決了選手的后顧之憂。
這場比賽的核心變革在于,所有能力測試均在真機上完成。在EAIDC現場,上百條機械臂同時運行,從數據采集、模型訓練到部署與評測,形成一個完整閉環,并在短時間內完成高頻迭代。這種真實物理環境下的測試,迅速放大了長期被仿真掩蓋的問題。在抓取任務中,細微的位置偏差和接觸不確定性會直接影響成功率;在語言理解與操作結合的任務中,指令歧義與視覺誤差的疊加會迅速放大系統不穩定性;在長時序任務中,誤差的累積效應往往成為決定成敗的關鍵。
國內外頂級模型廠商都意識到,模型評測正成為具身智能發展的重要瓶頸。Physical Intelligence創始人兼CEO Karol Hausman在采訪中強調,機器人的所有行為都需在現實世界中完成,無法像大語言模型那樣通過數百萬次快速試錯完成模型更新,這一過程耗時過長,因此必須攻克機器人的評估難題。自變量聯合創始人兼CTO王昊也指出,具身智能的核心是交互學習,只有通過持續測試、觀察與反饋,讓機器在真實物理世界中解決復雜性問題,才能推動其發展。真機評測讓模型直接面對真實世界的挑戰,推動具身智能從Demo級“炫酷”向生產力級可靠性轉變,這是評價體系的重要轉向,也是具身智能從“技術展示”走向“工程能力”的分水嶺。
除了比賽本身,兩場圓桌討論也為行業發展提供了重要視角。在第一場圓桌中,嘉賓圍繞數據、模型與商業化路徑展開討論。大家認識到,與大模型不同,具身智能的數據獲取成本高、閉環難度大,“數據規模”不再是唯一指標。未來的數據路徑將是分層的,低成本數據用于預訓練,高質量真機數據用于微調,如何在效率與效果之間取得平衡將成為核心競爭力。自變量王昊表示,將堅持真實世界的數據采集,同時注重不同類型數據的合理配比,2026年將更依賴人的穿戴式或Ego - Centric方式采集數據,但要與真實機器人數據形成良好配比,這一數據策略將決定模型的上限。
對于模型路徑,盡管VLA仍是主流,但其局限性逐漸顯現,行業開始探索多模態融合、世界模型等路徑,但模型結構尚未收斂。自變量強調,所有模型路徑最終都需通過真實評測決定方向,這也是推動真機比賽的重要原因,評測將成為模型演進的“指揮棒”。
在第二場產學研圓桌中,“割裂”成為關鍵詞。學術界具備模型與算法創新能力,但缺乏真機系統與數據閉環;產業界掌握場景與工程能力,卻因效率壓力難以進行長期探索;開發者與開源社區處在兩者之間,缺少完整工具鏈,難以復現真實系統。這種錯位導致重復造輪子和創新效率下降,學術成果難以落地,工程經驗難以沉淀為通用方法,開源也往往停留在“可見但不可用”的狀態。具身智能已從單點技術問題演變為系統工程問題,需要深度協同。
自變量通過比賽提供統一的真機環境與評測體系,開放數據、模型與工具鏈,嘗試解決這一問題,讓學術、產業與開發者在同一個真實環境中協作,使能力相互放大。EAIDC所提供的,是一套讓開發者快速進入、在真實約束中驗證并持續迭代的基礎設施,為具身智能走向規模化奠定了重要基礎。











