岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

清華陳建宇×斯坦福團隊世界模型具身能力登頂全球

   時間:2026-02-27 00:11:49 來源:機器之心編輯:快訊 IP:北京 發表評論無障礙通道
 

在全球具身智能領域的頂級權威評測 WorldArena 榜單中,清華陳建宇(星動紀元創始人)團隊聯合斯坦福 Chelsea Finn(PI 創始人) 團隊研發的 Ctrl-World 世界模型交出優異答卷:

具身任務能力斬獲全球第一,更在主體一致性、軌跡精度、深度準確性、策略評估一致性四大核心維度登頂;

視頻生成能力排名全球第二,僅次于阿里 Wan 2.6,強勢超越谷歌 Veo 3.1、英偉達 Cosmos-Predict 2.5 等世界頂尖模型;

Ctrl-World 成為在「視頻生成質量」(看起來真實) 與「具身任務」(真正可用) 兩大維度均躋身頂級梯隊的世界模型。

14 個世界模型在 WorldArena 融合多維度表現的 EWMScore 綜合指標評分

(a) Ctrl-World 在具身策略評估一致性上高達 0.986,遠超英偉達等同類模型;(b) Ctrl-World 以 59.70 在視頻生成質量上排名全球第二,超越谷歌 Veo 3.1(58.87),僅次于阿里 Wan 2.6(61.86)

WorldArena:

全球具身世界模型的「終極試煉場」

WorldArena 之所以能成為行業公認的權威榜單,核心在于其「全面、硬核、具引領性」的定位,徹底區別于泛化的 AI 評測體系,其專業權威源于三大核心特質:

1. 硬核基準:頂尖學術共建,全方位綜合評測

WorldArena 由清華大學牽頭,聯合普林斯頓大學、新加坡國立大學、北京大學、香港大學、中科院、上海交通大學、中國科學技術大學等 8 所全球頂尖學術機構共同研發,團隊成員均為具身智能、計算機視覺、機器人學領域的權威學者,共同制定了兼具科學性與實用性的硬核評測標準。

該體系聚焦具身世界模型這一核心領域,打造了涵蓋 16 大核心指標、3 大真實應用任務的全方位綜合測試場景,全面考核模型的感知精度、物理理解、空間認知、動作預測及實際落地適配能力,實現對具身智能核心技術的全方位、深層次檢驗,而非單一維度的能力比拼。

2. 參賽陣容鼎盛:全球巨頭與頂尖機構同臺競技

得益于其權威的評測標準與行業影響力,全球頂尖具身世界模型研發團隊均主動參與評測,首批參評陣容涵蓋國際科技巨頭、頂尖學術機構,包括:谷歌、英偉達、阿里、字節、智譜、智元、極佳視界、清華大學、斯坦福大學、北京大學、香港大學、普林斯頓大學等。

此次共有全球頂尖 14 款參賽模型同臺競技,覆蓋通用視頻生成衍生模型、機器人專用模型等所有主流技術路線,真正形成「全球頂級玩家齊聚」的格局,榜單結果不僅是各模型能力的直觀排名,更成為行業技術研發、方向布局的重要「風向標」,引領具身智能領域的創新發展。

3. 評測硬核:16 項指標 + 3 大任務,直擊「真干活」的核心需求

WorldArena 的評測體系圍繞「具身實用」設計,聚焦「真能干活」:

視頻質量 6 大評估維度示意圖:視覺質量、運動質量、內容一致性、物理貼合度、3D 精度、可控性,每個維度都有明確的優劣判斷標準

6 大核心維度涵蓋視覺質量、運動質量、內容一致性、物理貼合度(Physics Adherence)、3D 準確性(3D Accuracy)、可控性,細分為 16 項量化指標,每一項都對應機器人實際應用的痛點;

具身任務評估體系概覽:通過數據引擎、策略評估、動作規劃三大任務,全面測試模型的實戰能力

3 大具身任務(數據引擎、策略評估、動作規劃)模擬模型的真實使用場景,直接考核「生成的內容能不能訓練機器人」、「模擬的環境能不能測試策略」、「規劃的動作能不能完成任務」;

70 位專業標注者對 3500 個視頻進行主觀評估,確保結果既符合技術標準,又貼近人類對「實用」的直覺判斷。

現有世界模型基準與 WorldArena 的評測維度對比:

該表從視頻質量 6 個子維度、具身任務 3 大核心角色及人類評估維度,全面對比了主流評測基準與 WorldArena 的覆蓋情況,直觀體現了 WorldArena 在具身任務評測上的獨家優勢,是其成為具身世界模型專屬評測金標準的核心依據。

這種「技術指標 + 實用任務 + 人類校驗」的三重考核,讓 WorldArena 的排名不只是「分數高低」,更是模型實際應用價值的直接體現。

Ctrl-World 四大具身維度登頂

斬獲具身任務能力全球第一

14 款世界模型在視頻質量三大維度(視覺質量、運動質量、內容一致性)的各項指標評分表:

Ctrl-World 在主體一致性全球第一 (0.8411)

14 款世界模型物理貼合度、3D 準確性及可控性評分:

Ctrl-World 在軌跡準確性(0.4766)、深度準確性(0.9300)等核心指標上的領先地位,其中軌跡準確性(0.4766)位列全球第一

1. 主體一致性全球第一(0.8411):筑牢具身任務落地的基礎

Ctrl-World 以 0.8411 的得分拿下該指標全球第一。這一指標用于衡量視頻中生成物體的身份、外觀與形態在時序維度的穩定程度,Ctrl-World 的領先表現,使其生成的機器人操作視頻能最大程度規避物體位置漂移、形態形變或身份混淆等問題,為機器人作業提供了高保真的「數字孿生」交互對象。

圖中展示了 WorldArena 基準中主體一致性(Subject Consistency)的高低分案例對比,直觀說明 Ctrl-World 以 0.8411 位列全球第一的技術優勢:

高分案例(90.07):在「adjust bottle」任務中,瓶子在機械臂交互全過程中保持形狀、顏色、標識及位置的時序穩定,無漂移或形變,體現高保真「數字孿生」特性;

低分案例(1.242):同場景下瓶子出現嚴重幾何變形與身份特征丟失,產生視覺噪聲,直接影響機器人策略訓練的可靠性。

2. 軌跡精度全球第一(0.4766 ):動作精準度媲美真實物理軌跡

軌跡準確性(Trajectory Accuracy)衡量機械臂運動軌跡與真實物理軌跡的對齊度,是機器人動作規劃的核心基礎。Ctrl-World 以 0.4766 的絕對優勢位列全球第一,意味著其生成的機械臂運動軌跡與真實世界物理運動幾乎完全吻合,為機器人提供了可信賴的「數字孿生」動作模板。

圖中展示了 WorldArena 基準中軌跡準確性(Trajectory Accuracy)的高低分案例對比,直觀說明 Ctrl-World 以 0.4766 位列全球第一的技術優勢:

高分案例(92.95):在 「move can pot」任務中,機械臂運動軌跡(紅色路徑線)與真實物理軌跡(GT)高度吻合,動作精準連貫,符合物理運動規律;

低分案例(8.64):同場景下軌跡出現顯著偏離,伴隨異常跳躍和不連貫動作,無法復現真實物理運動。

3. 深度準確性全球第一梯隊(0.9300 ):3D 空間認知遙遙領先

在 3D 準確性維度的深度準確性(Depth Accuracy)指標上,Ctrl-World 以 0.9300(與第一位差距僅 0.0012)屬全球第一梯隊,展現了對三維空間結構的精準把握。這一能力直接決定機器人在抓取、堆疊、插入等精密操作中的成功率,避免因「空間感知偏差」導致的抓空、碰撞等失誤。

該圖展示了 WorldArena 基準中深度準確性(Depth Accuracy)高低分案例對比,直觀說明 Ctrl-World 以 0.9300 全球第一梯隊技術優勢:

高分案例(深度準確性 91.58 ):在「stack blocks three」與 「stack bowls two」任務中,生成深度圖與真實場景(GT)高度一致,物體空間位置穩定、透視關系合理,機械臂與物體保持正確的空間分離與物理接觸,體現精準的三維空間結構認知;

低分案例(深度準確性 59.07):同場景下出現機械臂與物體異常融合(穿透)、嚴重幾何失真、鬼影模糊及陰影缺失,空間完整性崩塌。

4. 策略評估一致性全球第一(Pearson r=0.986):虛擬測試 = 真實測試

在最具實用價值的策略評估(Policy evaluator)任務中,Ctrl-World 與真實物理模擬器(RoboTwin 2.0)的評估結果相關性高達 0.986,近乎完美復刻真實環境動態。這意味著開發者可直接用 Ctrl-World 測試機器人策略,無需搭建昂貴的真實物理環境,大幅降低研發成本。

世界模型與物理模擬器的策略評估結果相關性:

Ctrl-World 的 Pearson r=0.986,近乎完美復刻真實環境評估結果,遠高于英偉達 Cosmos-Predict 2.5 的 0.483,印證了其作為虛擬仿真環境的可靠性。

從指標高分到任務成功:

解碼 Ctrl-World 的「實力轉化」

Ctrl-World 在物理貼合度、3D 準確性及可控性等維度的全面領先,并非僅僅是實驗室里的數字游戲,而是直接決定了其作為「機器人大腦」的實用價值。WorldArena 的評測數據清晰揭示了這種轉化關系:

1. 高保真策略評估:虛擬測試即真實測試

在 Policy evaluator 任務中,Ctrl-World 與 RoboTwin 物理模擬器的評估相關性高達 0.986,這意味著在 Ctrl-World 中測試的機器人策略性能,與在真實物理環境中測試的結果幾乎無差異。相比之下,Cosmos-Predict 2.5 的相關性僅為 0.483。這一差距的背后的技術邏輯在于:Ctrl-World 通過顯式動作建模(Action-Conditioned)架構,將機械臂關節角度、末端執行器位姿等低層物理參數直接作為生成條件,強制模型學習「執行動作 A→產生狀態 B」的因果物理鏈,而非僅僅根據文字描述「猜測」動作。

2. 動作規劃成功率:物理準確性直接決定任務成敗

在 Action Planner 任務中,雖然當前所有世界模型的絕對成功率仍有提升空間,但 Ctrl-World 的物理準確性優勢為其奠定了最可靠的基礎。在閉環動作執行任務中,物理貼合度和軌跡精度的高低直接決定了機械臂能否完成「調整瓶子」、「點擊鈴鐺」等操作。Ctrl-World 的軌跡精度(0.4766)和深度準確性(0.9300)確保了生成的動作序列在真實機器人上執行時,能夠精準到達目標位置并維持物理穩定的交互,避免了因「空間感知偏差」導致的抓空、碰撞等操作失誤。

3. 合成數據的有效性:從「能生成」到「能訓練」

在 Data Engine 任務中,Ctrl-World 生成數據的物理合理性確保了其可用于訓練真實策略。原論文指出,許多模型生成的合成數據雖然視覺上清晰,但因缺乏物理一致性,訓練出的策略在真實環境中完全失效(「virtual data training, real world failure」)。而 Ctrl-World 通過嵌入物理引擎約束的訓練方式,確保生成的視頻不僅「看起來對」,更「物理上對」,使其合成的視頻 - 動作序列真正具備訓練價值。

Ctrl-World 的「制勝密碼」

1. 動作條件化(Action-Conditioned)架構

與 Genie Envisioner、GigaWorld 等文本條件化模型不同,Ctrl-World 采用顯式動作建模,直接將機器人動作參數(關節扭矩、夾爪開合度)注入生成過程。原論文明確指出:「explicit action modeling plays a critical role in producing physically plausible interactions」(顯式動作建模對產生物理合理交互至關重要)。這使其能夠精確模擬接觸力反饋、慣性傳遞等物理現象,從根本上避免了文本模型常見的「物體穿透機械臂」、「隔空吸附」等錯誤。

2. 物理引擎約束嵌入

Ctrl-World 在訓練過程中嵌入物理引擎約束,將牛頓力學定律「內化」為生成過程的硬約束。不同于單純依賴像素統計規律的通用視頻模型,Ctrl-World 通過物理引擎監督,強制生成內容遵守質量、摩擦、碰撞守恒律。這正是其策略評估相關性達到 0.986 的核心原因 —— 生成過程受物理規律約束,模擬的環境動態與真實物理模擬器的誤差極小。

3. 多視圖聯合與視頻預測模型

針對 Depth Accuracy 第一梯隊成績,Ctrl-World 融合多視圖聯合預測與視頻預測模型,不僅預測 RGB 像素,更隱式建模深度圖與點云結構,利用多視角數據訓練空間認知能力,使其在處理「堆疊積木」等需要精確深度準確性的任務時,成功率超僅使用單目視頻訓練的模型。

從「生成好看」到「真能干活」

世界模型進入新階段

清華陳建宇團隊聯合斯坦福 Chelsea Finn 團隊研發的 Ctrl-World 在 WorldArena 拿下「具身任務第一、視頻生成綜合第二」的佳績,核心在于其精準把握了具身世界模型的本質 ——「以物理規律為根,以空間認知為骨,以功能 utility 為魂」。隨著更多模型加入評測、更多場景被納入體系,WorldArena 將持續推動具身世界模型向「更懂物理、更有空間感、更能干活」的方向發展,加速機器人自主智能的落地進程。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 成人免费毛片xxx | 国产精品超碰 | 香蕉网av| 我要看免费的毛片 | 成年人视频免费 | 日本成人精品 | 99久久婷婷国产精品综合 | 亚洲黄在线观看 | www四虎影院 | 免费日韩视频 | 国产性―交―乱―色―情人 | 91av视频在线播放 | 99免费精品视频 | 婷婷综合色 | 麻豆一区二区 | 精品久久国产 | 日本特黄一级片 | 综合天堂av久久久久久久 | 日韩午夜在线观看 | 久久精品大片 | 高清国产一区 | 国产情侣一区二区三区 | 狠狠操狠狠插 | 正在播放木下凛凛88av | 国产婷婷色一区二区三区在线 | av资源在线看 | 国产又猛又黄又爽 | 亚洲图片另类 | 国产情侣网站 | 婷婷五月在线视频 | 色婷婷激情 | 久久系列 | 成人短视频在线免费观看 | 你操综合 | 少妇av在线播放 | 日韩中文字幕亚洲 | 精品国产毛片 | 亚洲高清视频在线观看 | 国产精品久久久久久久久动漫 | 51.cc网站入口永久入口 | 欧美精品久久久久久久久46p |