滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

一場機器人黑客松，讓具身智能的差距與機會同時顯形

時間：2026-04-05 14:26:12 來源：36氪編輯：快訊 IP：北京 發表評論無障礙通道

上周一，我在深圳參加了一場機器人黑客松。

前一晚九點抵達時，我原本以為自己會是少數還在工作的那一批人。走進場地才發現，燈還亮著，地上已經支起一排排帳篷。機械臂沒有停，選手們圍在工位前采數據、訓模型、盯評測結果。有人困得不行，就在場邊睡一會兒，醒來繼續干。

現場流傳著一句話：“我可以歇著，卡不能歇?！?/p>

這是迄今為止全球最大規模的線下具身智能開發者大賽之一。

自變量為所有參賽隊伍免費開放高質量數據集和相關數采設備，并提供訓練環境和高性能雙臂操作平臺以及算力資源。

參賽隊伍可以在 3 天內，完成從數據采集、模型訓練到真機部署的整個閉環。而通常情況下，專業研究實驗室完成類似搭建至少需要 6 個月。

主辦方從大量候選任務中篩出了四類核心能力：抓取放置、語言理解、精細操作和長時序決策。對應到比賽里，選手可以選擇套環、按指令分類水果、插電源線、拼寫單詞等任務持續攻關。最終成績不只看有沒有完成步驟，也看成功率、穩定性和泛化表現。

這個被極致壓縮到 3 天的比賽，讓具身智能行業的差距與機會同時顯形。

3 天，兩個大學生，就能做出一個學術論文里的視頻 demo

3 天是什么概念？

按學術研究的節奏，一篇論文從實驗到發表，往往要以年為單位計算。

但如果只看某個具體任務的完成效果——許多由 00 后大學生組成的團隊，借助自變量提供的算力、數據和基礎模型，只用兩天時間，就能讓機器人完成 pick-and-place 這類常見于論文和演示視頻中的任務，做出一個“看起來很像那么回事”的 demo。

這正是這場黑客松最值得注意的地方：3 天既是一個令人興奮的數字，也是一個容易制造錯覺的數字。

先看它令人興奮的一面。

自變量此次黑客松的賽制分為 A 榜和 B 榜兩個階段。A 榜任務公開，選手可以圍繞明確目標進行訓練和優化；B 榜則不會提前公布具體任務和數據分布，更側重考察模型在真實環境中的泛化能力。

比賽前兩天，選手們主要攻堅 A 榜任務，包括套環、按指令分類水果、插電源線、拼寫單詞等。這些任務的操作要求和 KPI 都非常明確。以“按指令分類水果”為例，水果種類固定，抓取點和放置點也基本固定，模型可以圍繞一組相對穩定的條件反復訓練，因此短時間內就能迅速提分。

自變量算法合伙人甘如飴提到，比賽第一天，大家的成績普遍不高，套環任務的成功率大多只有 20% 到 70%；但到了第二天，很多團隊已經迅速摸清了自己擅長的方向，開始集中優化，一些團隊甚至在單一任務上出現明顯過擬合，成功率逼近 100%。

這意味著什么？

它意味著，在今天的具身智能行業里，把一個模型快速調到“能完成某個具體任務”，已經不再像很多人想象中那么遙遠。對解決方案提供商和落地工廠來說，這當然是一個足以提振信心的信號。過去，工業機器人切換一個任務，往往意味著漫長的預編程、仿真、工程調試和現場磨合；而現在，如果某些任務的適配周期真的可以被壓縮到幾天，即便這還遠遠不能說明“通用”，也足以改變很多人對機器人進入工廠、承擔具體工作的預期。

但問題也恰恰出在這里。

一個任務能在幾天內被迅速做出來，并不意味著模型的泛化性得到提高。

也正是在 A 榜成績快速拉高、一些團隊開始接近滿分的時候，自變量放出了隱藏的 B 榜。

當任務不再已知，原本圍繞單一目標優化出來的模型，很快暴露出局限。

此次比賽獲得三等獎、來自南京郵電大學的參賽者袁浩寬對 InfoQ 表示，他們選擇的是“按指令分類水果”任務。到了 B 榜階段，比賽不僅新增了水果種類，還加入了干擾項，并改變了抓取與放置的空間結構?！爸搬槍?A 榜做的微調基本用不上了，只能回到 base model，重新采集更有多樣性的真機數據?！?/p>

他們在現場補采了約 30 條隨機擺放的數據，微調了約 1 小時、總計約 1 萬步，但效果依然不理想，主要問題在于數據量和多樣性都不夠。

這也不是個別隊伍的偶發問題，而是許多隊伍在 B 榜階段的共同反饋。針對單一任務做出高分并不算太難，但一旦任務開始引入泛化要求，比如增加水果種類、改變擺放方式，模型就很難穩定跟上。

在這場黑客松里我看到兩件事。

一方面，任務適配的速度確實在變快，機器人進入真實場景的門檻正在被拉低；另一方面，哪些團隊是在認真做 base model，哪些團隊只是借助現成基座和任務微調做出表面成績，也會以更快的方式被區分出來。

一個開源基座模型，加上一些現場采集的數據，再配幾張算力卡，圍繞特定任務做短周期微調，就有機會復現論文或宣傳視頻里的效果。

這樣的結果當然不是毫無價值，它說明現有基座模型和工具鏈已經足以支撐某些任務的快速實現；但它也不應被誤讀為“模型已經具備通用能力”。因為這類 demo 的前提，往往是明確任務、固定環境和有限變量，而不是開放世界中的持續適應。

真正把具身公司拉開差距的，是誰擁有更強的 base model，誰能在任務變化、環境變化和連續執行中保持穩定。

也就是說，認真做基座模型的團隊，與套殼做過擬合的團隊，未來的差距只會越來越大。

如果說這場黑客松帶來了什么最直接的教訓，那就是：今天衡量一個模型，已經不能再滿足于它有沒有一段漂亮的真機 demo，而要看它能否在真機環境中承受多任務、陌生任務和連續任務的壓力。

也正因為如此，國內越來越多廠商開始推出自己的真機評測體系和挑戰賽。原力靈機有 RoboChallenge，智元有 AgiBot World Challenge，自變量則推出了 ManipArena。它們背后的共識其實很簡單：如果不把模型從 demo 里拖出來，放到真機、多任務、帶約束的環境里反復測，行業就很容易被演示效果牽著走。

當然，今天的許多榜單仍然很難做到絕對透明。為了降低參評方對泄密的擔憂，不少測評體系不會強制公開模型歸屬，也會通過接口隔離的方式，讓模型參數和代碼本身不被直接暴露。

這種安排有現實合理性，但它也意味著，行業仍然需要一套更成熟的標準，去區分“針對任務打榜的能力”與“真正可泛化的能力”。

從這個意義上說，黑客松上那些兩天就能做出來的過擬合結果，并不只是一個比賽現象，它更像一次提醒：行業應該對模型表現變得更警覺，也應該倒逼模型團隊拿出更經得住真機和多任務壓力的結果。

自變量的選擇：不為垂直場景的快速落地，堆積針對性模型系統和工程補丁

賽場上的教訓，也在某種程度上印證了自變量自己的思路。

對很多參賽隊伍來說，比賽很快暴露出一個問題：后訓練和參數微調可以補足一部分能力，但到了某個階段，決定模型上限的仍然是基礎模型本身。

基于這一判斷，自變量在場景選擇上沒有選擇更容易通過工程手段優化效果的場景，而是將家庭等更復雜的環境放在相對靠前的位置，希望在真實交互中積累數據，并據此持續迭代基礎模型。

自變量 CTO 王昊在與包括 InfoQ 在內的媒體交流時表示，公司的核心方向是“保持基模不停往前迭代”。在他看來，團隊當然可以去場景里做探索，驗證基模能力，看看它是否能在某些場景里實現規?；瘧茫坏幸稽c必須克制，即不要為了讓機器人在垂直場景里更快落地，而堆太多針對性的模型系統和工程補丁。比如發現視覺上有盲區，就再加一個視覺小模型去做檢測和彌補，這類方法“短期來看可以幫助你加快落地，但是長期來看，對基模的提升是有害的”。

這句話不止技術判斷，也是商業判斷。

從外部合作輪廓看，自變量并非沒有工業客戶，但它投入更多精力的場景，明顯偏向家庭、養老院、酒店等服務環境。

與此同時，自變量認為家庭是最復雜、最開放的環境之一，朝著這樣的復雜場景推進能力，再回頭覆蓋更垂直的場景，本質上是一個先做通用、再做“降維”的過程：當基模足夠強時，垂類場景對模型提出的額外要求反而會下降。

而通用能力，最終還是要落回基礎模型能力。

這也是為什么，具身廠商開始把目標指向“具身原生”的模型。

從工程實踐看，當前具身大腦的主流方案已經形成某種共識：視覺、語言，最多再加觸覺等模態輸入，經由大語言模型處理，輸出動作；世界模型更多用于生成仿真數據或構建環境。

但問題在于，這種架構，是否真的適合物理世界？

在王昊看來，過去訓練路徑里有一個典型誤區：不同模態的數據各自訓練，最后再把它們對齊起來；或者先把語言做到足夠泛化，再讓視覺去對齊語言。這種方式在很多時候會犧牲視覺能力，因為它默認了視覺只是為語言服務的。但具身場景并不是這樣。語言更擅長表達宏觀意圖，卻很難精確描述一個動作在厘米級空間、秒級時間里的連續變化；而視頻模型雖然關注像素級細節，卻未必天然理解哪些接觸、運動和碰撞在物理上更關鍵。

自變量給出的新方向，是在端到端框架下，把世界模型和 VLA 融合得更深，通過聯合建模，讓視覺與動作在更早階段對齊，從而讓預測更符合物理規律。

這并不意味著放棄大語言模型。

王昊對 InfoQ 表示，大語言模型仍然是訓練的基礎，但關鍵變化在于表達空間的重構：“大語言模型這個訓練基礎還是要用，只是我們要把語言、動作拉到一個空間當中，而不是像以前，所有視覺都是服務語言?！?/p>

在他看來，語言、視覺與動作之間的差異，首先體現在信息尺度上。語言更偏向宏觀表達——“語言描述的信息很宏觀”，很難精確刻畫一個物體在厘米級空間、秒級時間里的連續變化；而視頻模型則恰恰相反，聚焦像素層面的細節——“每個像素的顏色、明暗都能預測得很準”。這兩種尺度的信息，要在同一個模型中自然融合，本身就具有難度。

在這一框架下，動作不再只是輸出結果，而成為關鍵模態之一。

按照王昊的說法，動作的價值在于它同時具備宏觀和微觀兩層表達能力：“動作是非常好的模態，它在宏觀上可以表達這段行為意味著什么、會導致什么結果，在微觀上又可以幫助視覺更好地觀察運動中的關鍵變化?！?這也意味著，模型不再只是“看見靜態世界”，而是要理解運動本身，將視覺從靜態感知推進到對動態過程的建模。

“把這幾個模態放在一起，”王昊總結說，“就可以構建一個真正屬于物理世界的模型?！?/p>

圍繞這一目標，動作在模型中的編碼方式也隨之發生變化。它不再被視為單一模態的輸出，而是可以與語言、視覺進行聯合編碼或條件編碼，并在更細粒度的時間尺度上表達。

模型結構的選擇，也直接影響數據路線。

今天幾乎所有具身公司都在講自己的“數據金字塔”，但不同公司對金字塔底部到底該放什么，理解并不相同。

以星海圖和自變量為例，兩家公司都強調 Egocentric data 的重要性，但對這個概念的理解其實并不一樣。星海圖的 Egocentric 核心數據基座，更多是指人類第一視角視頻。自變量的 Egocentric 數據則包括人的可穿戴設備。王昊表示：“從自由度視角來看，Egocentric 的數據完全和人的自由度一致，所有的手持式、穿戴各種設備是介于人的自由度和機器的自由度之間的形態。”

看起來這只是數據分類方法的不同，實際上對應的卻是對“通用能力從哪里來”的不同判斷。有人認為，先讓模型擁有大量人類視角經驗最重要；有人認為，要盡快獲得更貼近機器人控制結構的數據；也有人更看重真機接管、遙操作和真實任務反饋?？瓷先ニ腥硕荚谡剶祿嬲姆制纾∏〔卦趯祿畹讓佣x的不同里。

三天時間，足夠做出一個像模像樣的結果。這意味著，demo 不再稀缺，甚至不再可信。

真實世界需要的是基模能力的持續提升，需要真正“hands dirty”的過程——去理解模型、理解硬件、理解數據，也理解那些不會出現在視頻里的失敗與邊界。

在這樣的標準下，很多差距才剛剛開始顯現。

更多>同類資訊

杭州這家小米門店火了：三層樓擺滿小米汽車像巨型模型柜

04-05

硅谷AI黑馬掀翻游戲圈，世界模型造游戲殺瘋了

04-05

路由器買貴等于浪費錢超8成中國家庭都不到300元

04-05

還得等到下個月，馬斯克宣布 SpaceX 星艦 V3 預計 4 至 6 周內首飛

04-05

網傳王寧發內部信談泡泡瑪特股價波動，知情人士辟謠

04-05

首批千歲人或已出生：未來750歲退休只是起步

04-05

特斯拉D3芯片亮相，專為太空算力設計

04-05

供應鏈攻擊暴露訓練機密，Meta暫停AI數據合作

04-05

特斯拉D3芯片登場：突破地面局限，太空算力新篇助力AI與星際探索

然而，隨著特斯拉工程團隊依托即將推出的 AI5 與 AI6 處理器，逐步統一 FSD 與擎天柱機器人的架構，同時 xAI 采用商用 GPU搭建吉瓦級大規模算力集群，不少行業分析師曾推測 Dojo 項目已名…

04-05

SpaceX 星艦 V3 首飛延至 5 月前兩周，研發升級保障深空探索任務

04-05

特斯拉D3芯片登場：打破地面局限，為太空算力與人類深空探索賦能

04-05

AI時代創業新邏輯：摒棄強執行舊思維，探尋創業者生存新法則

04-05

2025國產GPU“四小龍”崛起：營收增長虧損收窄黃金時代啟幕

04-05

“十五五”開局：智慧農機“大顯身手” 助力農業開啟現代化新篇

農業農村部智慧農業技術裝備質量檢驗測試中心負責人李文龍：貨架上這些就是送檢到我們這的產品，來自全國10個省份，25家企業，主要包括農機輔助駕駛系統、農機定位監測終端等。農業農村部南京農業機械化研究所副所…

04-05

商業航天步入規模化新階段太空光伏引領未來能源新賽道崛起

在衛星互聯網星座加速部署和太空算力需求興起的背景下，衛星呈現出“數量”與“單星功率”雙重提升的趨勢，直接帶動太空光伏應用空間快速擴大。這些企業的技術突破與產業鏈延伸，不僅為國內商業航天發展提供了核心部件支撐…

04-05

點擊查看更多 +

全站最新

土耳其發布首款攔截型無人機"HUNTER"

特朗普：美軍完成歷史上最大膽搜救行動，失蹤飛行員均已獲救，我們絕不會拋下任何一名美國作戰人員

中小企業破局之道：借自媒體東風，實現低成本獲客與品牌突圍

車輛托運如何選？從平臺比價到匹配需求，這份攻略教你科學決策

熱門內容

本欄最新

中小企業破局之道：借自媒體東風，實現低成本獲客與品牌突圍

優推信息：融合搜索優化與內容運營，助力企業構建數字營銷良性循環

從月薪500到身家67億：童文紅23年堅守，馬云承諾的“大餅”成真了

小米SU7 Pro拆車直播：工藝細節全公開，防彈涂層與電池防護共筑安全防線

科大訊飛智能辦公本全解析：從性能到型號，助您找到高效辦公好幫手

小霸王VS科大訊飛學習機：從品牌到功能，全面解析哪款更適合孩子成長？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

一場機器人黑客松，讓具身智能的差距與機會同時顯形