滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

上海交大發(fā)布GM-100評(píng)測(cè)體系，具身智能有了“統(tǒng)一考題”新探索

時(shí)間：2026-01-27 17:10:56 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

在具身智能技術(shù)快速發(fā)展的當(dāng)下，行業(yè)正面臨一個(gè)關(guān)鍵挑戰(zhàn)：如何建立一套科學(xué)、統(tǒng)一且可驗(yàn)證的評(píng)測(cè)體系。當(dāng)前，各家企業(yè)與研究機(jī)構(gòu)在展示技術(shù)成果時(shí)，往往采用不同的任務(wù)場(chǎng)景和評(píng)測(cè)標(biāo)準(zhǔn)，導(dǎo)致不同系統(tǒng)之間的能力難以橫向比較，技術(shù)落地效果也缺乏客觀參照。這種“各說各話”的現(xiàn)狀，正阻礙著具身智能從實(shí)驗(yàn)室走向真實(shí)應(yīng)用場(chǎng)景的進(jìn)程。

具身智能的特殊性在于，其技術(shù)表現(xiàn)高度依賴具體環(huán)境。同一系統(tǒng)在不同光照條件、物體材質(zhì)或任務(wù)順序下，性能可能產(chǎn)生顯著差異。然而，現(xiàn)有評(píng)測(cè)體系大多聚焦于高頻、簡(jiǎn)單的標(biāo)準(zhǔn)化任務(wù)，如抓取成功率或路徑規(guī)劃效率。這類基準(zhǔn)測(cè)試雖能推動(dòng)行業(yè)早期發(fā)展，但隨著模型能力提升，其區(qū)分度逐漸下降，難以反映系統(tǒng)在復(fù)雜環(huán)境中的真實(shí)表現(xiàn)。當(dāng)模型能夠穩(wěn)定完成基礎(chǔ)任務(wù)后，繼續(xù)在同類場(chǎng)景中“刷分”，更多體現(xiàn)的是工程優(yōu)化能力，而非技術(shù)本質(zhì)突破。

針對(duì)這一痛點(diǎn)，上海交通大學(xué)等機(jī)構(gòu)聯(lián)合推出的GM-100評(píng)測(cè)體系，試圖通過任務(wù)多樣性和評(píng)估系統(tǒng)性構(gòu)建新的評(píng)測(cè)范式。該體系包含100個(gè)任務(wù)，每個(gè)任務(wù)配備約100條訓(xùn)練軌跡和30條測(cè)試軌跡，總計(jì)1.3萬(wàn)條操作軌跡。其核心設(shè)計(jì)理念是突破傳統(tǒng)評(píng)測(cè)的“舒適區(qū)”，重點(diǎn)覆蓋長(zhǎng)尾任務(wù)和精細(xì)操作場(chǎng)景。例如，穿糖葫蘆、開抽屜、整理小物體等任務(wù)，既包含人類認(rèn)為復(fù)雜的操作，也包含看似簡(jiǎn)單但實(shí)際對(duì)機(jī)器人極具挑戰(zhàn)的場(chǎng)景。這種設(shè)計(jì)迫使模型必須具備更通用的環(huán)境適應(yīng)能力，而非僅針對(duì)特定任務(wù)優(yōu)化。

GM-100的任務(wù)生成過程融合了人類交互原語(yǔ)分析與大語(yǔ)言模型輔助設(shè)計(jì)。研究團(tuán)隊(duì)首先系統(tǒng)梳理了人類與物體交互的基礎(chǔ)動(dòng)作模式，再通過大語(yǔ)言模型生成候選任務(wù)，最終經(jīng)專家篩選形成任務(wù)庫(kù)。這種“人類經(jīng)驗(yàn)+AI生成+專家驗(yàn)證”的流程，確保了任務(wù)既貼近真實(shí)需求，又具備科學(xué)嚴(yán)謹(jǐn)性。例如，某些任務(wù)中，機(jī)器人需在物體被部分遮擋或位置偏移的情況下完成操作，這類場(chǎng)景在傳統(tǒng)評(píng)測(cè)中極少出現(xiàn)，卻能更真實(shí)地反映系統(tǒng)在動(dòng)態(tài)環(huán)境中的魯棒性。

在評(píng)估指標(biāo)上，GM-100突破了單一任務(wù)成功率的局限，引入部分成功率（PSR）和動(dòng)作預(yù)測(cè)誤差等多維度指標(biāo)。PSR通過量化多步驟任務(wù)的細(xì)節(jié)完成情況，揭示模型在復(fù)雜任務(wù)中的局部能力短板；動(dòng)作預(yù)測(cè)誤差則衡量模型在新軌跡上的模仿精度，防止模型通過“走捷徑”完成部分動(dòng)作。這種設(shè)計(jì)有效遏制了“刷榜”行為，鼓勵(lì)研究者關(guān)注模型的真實(shí)泛化能力。例如，在測(cè)試主流具身學(xué)習(xí)模型時(shí)，不同模型在GM-100上的表現(xiàn)差異顯著，證明其任務(wù)設(shè)計(jì)能夠拉開技術(shù)差距，為模型能力提供可靠參考。

為推動(dòng)評(píng)測(cè)體系的開放與可信，GM-100團(tuán)隊(duì)采用了“社區(qū)共建”模式。他們開源了全部任務(wù)的詳細(xì)說明、物料清單（甚至包含淘寶采購(gòu)鏈接）以及真實(shí)機(jī)器人操作數(shù)據(jù)，大幅降低了復(fù)現(xiàn)門檻。同時(shí)，平臺(tái)允許研究者自主上傳測(cè)試結(jié)果與證據(jù)視頻，并通過模型權(quán)重審核機(jī)制確保數(shù)據(jù)真實(shí)性。未來，平臺(tái)還計(jì)劃增加用戶點(diǎn)評(píng)、收藏等功能，形成“悠悠眾口”的監(jiān)督機(jī)制。這種去權(quán)威化的設(shè)計(jì)，既避免了單一機(jī)構(gòu)主導(dǎo)帶來的偏見，也通過群眾監(jiān)督讓“作弊”模型無處遁形。

GM-100的探索與LMArena等國(guó)際評(píng)測(cè)平臺(tái)形成呼應(yīng)。后者通過匿名雙盲對(duì)比和用戶投票構(gòu)建去中心化評(píng)估機(jī)制，而GM-100則通過跨平臺(tái)數(shù)據(jù)、詳盡交互說明和多維度指標(biāo)實(shí)現(xiàn)評(píng)估透明化。兩者的共同點(diǎn)在于，均試圖打破傳統(tǒng)評(píng)測(cè)對(duì)“權(quán)威”的依賴，轉(zhuǎn)而通過機(jī)制設(shè)計(jì)確保結(jié)果可信。這種范式轉(zhuǎn)變，或許預(yù)示著具身智能評(píng)測(cè)正從“實(shí)驗(yàn)室標(biāo)準(zhǔn)”向“社區(qū)共識(shí)”演進(jìn)。

目前，GM-100的任務(wù)庫(kù)已覆蓋從簡(jiǎn)單到復(fù)雜、從常見到罕見的全場(chǎng)景，但研究團(tuán)隊(duì)并未止步于此。他們計(jì)劃將任務(wù)數(shù)量擴(kuò)展至300甚至1000項(xiàng)，并推進(jìn)跨機(jī)器人平臺(tái)評(píng)測(cè)，以進(jìn)一步提升評(píng)測(cè)的覆蓋面。同時(shí)，未來評(píng)測(cè)維度可能納入進(jìn)度評(píng)分、安全性、社會(huì)價(jià)值等指標(biāo)，推動(dòng)具身智能向更工程化、更貼近真實(shí)需求的方向發(fā)展。盡管數(shù)據(jù)集構(gòu)建需要大量“擰螺絲”般的基礎(chǔ)工作，但研究者相信，這種“臟活累活”終將為行業(yè)技術(shù)演進(jìn)提供關(guān)鍵坐標(biāo)。

01-27

特斯拉奧斯汀開放無安全員Robotaxi服務(wù)，乘客38次叫車未果運(yùn)營(yíng)規(guī)模待擴(kuò)大

01-27

AI熱潮致內(nèi)存短缺三星SK海力士與蘋果談判 iPhone內(nèi)存價(jià)格或大幅上調(diào)

01-27

進(jìn)迭時(shí)空1月29日將推全球首款RVA23規(guī)范高性能RISC-V AI CPU芯片K3

01-27

跨境電商新引擎：Hilight一鍵生成商用視頻，AI驅(qū)動(dòng)營(yíng)銷變革新篇章

從技術(shù)層面來看，Hilight這種突破性的“慢思考”邏輯、采用Multi-Agent的協(xié)作方式無疑是最核心的創(chuàng)新之處，這也是全球首個(gè)AI原生電商視頻Multi-Agent，相比市面上的“快餐型”AI視頻生成…

01-27

禮來攜手英偉達(dá)：AI制藥新紀(jì)元，開啟醫(yī)藥行業(yè)“次世代”變革

01-27

長(zhǎng)安汽車加速科技轉(zhuǎn)型：人形機(jī)器人2028年量產(chǎn) 飛行汽車2030年商用

01-27

Zoom股價(jià)漲超10%！2023年5100萬(wàn)美元投資Anthropic成新增長(zhǎng)亮點(diǎn)

01-27

國(guó)產(chǎn)“通矩模型”實(shí)現(xiàn)新突破：自主出題解題，AI題首入高規(guī)格數(shù)學(xué)競(jìng)賽

01-27

從生成到編輯：Hyper3D率先破局，3D生成可編輯時(shí)代開啟新篇章

01-27

螞蟻集團(tuán)靈波科技開源LingBot-Depth模型，破解透明物體深度感知難題

01-27

DeepSeek-OCR 2模型發(fā)布：創(chuàng)新DeepEncoder V2方法，AI視覺編碼更近人類邏輯

01-27

平樂千年柿業(yè)煥新顏：數(shù)智助力“黃金果”出山達(dá)海興鄉(xiāng)村

與此同時(shí)，桂林移動(dòng)融合人工智能與區(qū)塊鏈技術(shù)為桂林平樂柿子打造專屬溯源平臺(tái)，為每份柿子產(chǎn)品賦予了“數(shù)字身份證”。從保障品牌盛會(huì)的高清直播，到賦能交通動(dòng)脈的智慧運(yùn)營(yíng)，再到深入產(chǎn)業(yè)鏈的各個(gè)環(huán)節(jié)，數(shù)字技術(shù)正全方位融…

01-27

螞蟻靈波科技開源LingBot-Depth模型攻克透明反光物空間感知難題

01-27

英偉達(dá)20億美元加碼CoreWeave，AI算力賽道合作再掀熱潮

01-27

點(diǎn)擊查看更多 +

全站最新

奧迪堅(jiān)持F1廠隊(duì)模式，以挑戰(zhàn)者之姿向2030總冠軍目標(biāo)進(jìn)發(fā)

快手電商“豐收中國(guó)”啟航，首站內(nèi)蒙古牽手達(dá)人，共促特色商品熱銷

跨境電商新引擎：Hilight一鍵生成商用視頻，AI驅(qū)動(dòng)營(yíng)銷變革新篇章

卡車也會(huì)"智慧運(yùn)算"？中國(guó)重汽智能輔助駕駛，給出干線物流增效最優(yōu)解

A股異動(dòng)丨亞士創(chuàng)能跌逾4% 控股股東的一致行動(dòng)人擬被動(dòng)減持3%公司股份

港股異動(dòng)丨南華期貨股份創(chuàng)上市新高，已被納入港股通

熱門內(nèi)容

本欄最新

特斯拉奧斯汀開放無安全員Robotaxi服務(wù)，乘客38次叫車未果運(yùn)營(yíng)規(guī)模待擴(kuò)大

跨境電商新引擎：Hilight一鍵生成商用視頻，AI驅(qū)動(dòng)營(yíng)銷變革新篇章

從“人找樁”到“樁找車”，嵐圖汽車智慧超充站破百引領(lǐng)補(bǔ)能新變革

精智實(shí)業(yè)赴港上市：2025年前9月營(yíng)收4.18億多元業(yè)務(wù)布局顯成效

李想展望理想汽車未來：2028年前L4自動(dòng)駕駛落地爭(zhēng)做全棧技術(shù)頭部企業(yè)

2026深圳互聯(lián)網(wǎng)人才結(jié)構(gòu)大變革：復(fù)合型人才崛起與獵頭服務(wù)新機(jī)遇

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

上海交大發(fā)布GM-100評(píng)測(cè)體系，具身智能有了“統(tǒng)一考題”新探索

上海交大發(fā)布GM-100評(píng)測(cè)體系，具身智能有了“統(tǒng)一考題”新探索