岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

上海交大發(fā)布GM-100評(píng)測(cè)體系,具身智能有了“統(tǒng)一考題”新探索

   時(shí)間:2026-01-27 17:10:56 來源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評(píng)論無障礙通道
 

在具身智能技術(shù)快速發(fā)展的當(dāng)下,行業(yè)正面臨一個(gè)關(guān)鍵挑戰(zhàn):如何建立一套科學(xué)、統(tǒng)一且可驗(yàn)證的評(píng)測(cè)體系。當(dāng)前,各家企業(yè)與研究機(jī)構(gòu)在展示技術(shù)成果時(shí),往往采用不同的任務(wù)場(chǎng)景和評(píng)測(cè)標(biāo)準(zhǔn),導(dǎo)致不同系統(tǒng)之間的能力難以橫向比較,技術(shù)落地效果也缺乏客觀參照。這種“各說各話”的現(xiàn)狀,正阻礙著具身智能從實(shí)驗(yàn)室走向真實(shí)應(yīng)用場(chǎng)景的進(jìn)程。

具身智能的特殊性在于,其技術(shù)表現(xiàn)高度依賴具體環(huán)境。同一系統(tǒng)在不同光照條件、物體材質(zhì)或任務(wù)順序下,性能可能產(chǎn)生顯著差異。然而,現(xiàn)有評(píng)測(cè)體系大多聚焦于高頻、簡(jiǎn)單的標(biāo)準(zhǔn)化任務(wù),如抓取成功率或路徑規(guī)劃效率。這類基準(zhǔn)測(cè)試雖能推動(dòng)行業(yè)早期發(fā)展,但隨著模型能力提升,其區(qū)分度逐漸下降,難以反映系統(tǒng)在復(fù)雜環(huán)境中的真實(shí)表現(xiàn)。當(dāng)模型能夠穩(wěn)定完成基礎(chǔ)任務(wù)后,繼續(xù)在同類場(chǎng)景中“刷分”,更多體現(xiàn)的是工程優(yōu)化能力,而非技術(shù)本質(zhì)突破。

針對(duì)這一痛點(diǎn),上海交通大學(xué)等機(jī)構(gòu)聯(lián)合推出的GM-100評(píng)測(cè)體系,試圖通過任務(wù)多樣性和評(píng)估系統(tǒng)性構(gòu)建新的評(píng)測(cè)范式。該體系包含100個(gè)任務(wù),每個(gè)任務(wù)配備約100條訓(xùn)練軌跡和30條測(cè)試軌跡,總計(jì)1.3萬(wàn)條操作軌跡。其核心設(shè)計(jì)理念是突破傳統(tǒng)評(píng)測(cè)的“舒適區(qū)”,重點(diǎn)覆蓋長(zhǎng)尾任務(wù)和精細(xì)操作場(chǎng)景。例如,穿糖葫蘆、開抽屜、整理小物體等任務(wù),既包含人類認(rèn)為復(fù)雜的操作,也包含看似簡(jiǎn)單但實(shí)際對(duì)機(jī)器人極具挑戰(zhàn)的場(chǎng)景。這種設(shè)計(jì)迫使模型必須具備更通用的環(huán)境適應(yīng)能力,而非僅針對(duì)特定任務(wù)優(yōu)化。

GM-100的任務(wù)生成過程融合了人類交互原語(yǔ)分析與大語(yǔ)言模型輔助設(shè)計(jì)。研究團(tuán)隊(duì)首先系統(tǒng)梳理了人類與物體交互的基礎(chǔ)動(dòng)作模式,再通過大語(yǔ)言模型生成候選任務(wù),最終經(jīng)專家篩選形成任務(wù)庫(kù)。這種“人類經(jīng)驗(yàn)+AI生成+專家驗(yàn)證”的流程,確保了任務(wù)既貼近真實(shí)需求,又具備科學(xué)嚴(yán)謹(jǐn)性。例如,某些任務(wù)中,機(jī)器人需在物體被部分遮擋或位置偏移的情況下完成操作,這類場(chǎng)景在傳統(tǒng)評(píng)測(cè)中極少出現(xiàn),卻能更真實(shí)地反映系統(tǒng)在動(dòng)態(tài)環(huán)境中的魯棒性。

在評(píng)估指標(biāo)上,GM-100突破了單一任務(wù)成功率的局限,引入部分成功率(PSR)和動(dòng)作預(yù)測(cè)誤差等多維度指標(biāo)。PSR通過量化多步驟任務(wù)的細(xì)節(jié)完成情況,揭示模型在復(fù)雜任務(wù)中的局部能力短板;動(dòng)作預(yù)測(cè)誤差則衡量模型在新軌跡上的模仿精度,防止模型通過“走捷徑”完成部分動(dòng)作。這種設(shè)計(jì)有效遏制了“刷榜”行為,鼓勵(lì)研究者關(guān)注模型的真實(shí)泛化能力。例如,在測(cè)試主流具身學(xué)習(xí)模型時(shí),不同模型在GM-100上的表現(xiàn)差異顯著,證明其任務(wù)設(shè)計(jì)能夠拉開技術(shù)差距,為模型能力提供可靠參考。

為推動(dòng)評(píng)測(cè)體系的開放與可信,GM-100團(tuán)隊(duì)采用了“社區(qū)共建”模式。他們開源了全部任務(wù)的詳細(xì)說明、物料清單(甚至包含淘寶采購(gòu)鏈接)以及真實(shí)機(jī)器人操作數(shù)據(jù),大幅降低了復(fù)現(xiàn)門檻。同時(shí),平臺(tái)允許研究者自主上傳測(cè)試結(jié)果與證據(jù)視頻,并通過模型權(quán)重審核機(jī)制確保數(shù)據(jù)真實(shí)性。未來,平臺(tái)還計(jì)劃增加用戶點(diǎn)評(píng)、收藏等功能,形成“悠悠眾口”的監(jiān)督機(jī)制。這種去權(quán)威化的設(shè)計(jì),既避免了單一機(jī)構(gòu)主導(dǎo)帶來的偏見,也通過群眾監(jiān)督讓“作弊”模型無處遁形。

GM-100的探索與LMArena等國(guó)際評(píng)測(cè)平臺(tái)形成呼應(yīng)。后者通過匿名雙盲對(duì)比和用戶投票構(gòu)建去中心化評(píng)估機(jī)制,而GM-100則通過跨平臺(tái)數(shù)據(jù)、詳盡交互說明和多維度指標(biāo)實(shí)現(xiàn)評(píng)估透明化。兩者的共同點(diǎn)在于,均試圖打破傳統(tǒng)評(píng)測(cè)對(duì)“權(quán)威”的依賴,轉(zhuǎn)而通過機(jī)制設(shè)計(jì)確保結(jié)果可信。這種范式轉(zhuǎn)變,或許預(yù)示著具身智能評(píng)測(cè)正從“實(shí)驗(yàn)室標(biāo)準(zhǔn)”向“社區(qū)共識(shí)”演進(jìn)。

目前,GM-100的任務(wù)庫(kù)已覆蓋從簡(jiǎn)單到復(fù)雜、從常見到罕見的全場(chǎng)景,但研究團(tuán)隊(duì)并未止步于此。他們計(jì)劃將任務(wù)數(shù)量擴(kuò)展至300甚至1000項(xiàng),并推進(jìn)跨機(jī)器人平臺(tái)評(píng)測(cè),以進(jìn)一步提升評(píng)測(cè)的覆蓋面。同時(shí),未來評(píng)測(cè)維度可能納入進(jìn)度評(píng)分、安全性、社會(huì)價(jià)值等指標(biāo),推動(dòng)具身智能向更工程化、更貼近真實(shí)需求的方向發(fā)展。盡管數(shù)據(jù)集構(gòu)建需要大量“擰螺絲”般的基礎(chǔ)工作,但研究者相信,這種“臟活累活”終將為行業(yè)技術(shù)演進(jìn)提供關(guān)鍵坐標(biāo)。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭(zhēng)議稿件處理  |  English Version
 
主站蜘蛛池模板: 在线成人黄色 | 麻豆av网站 | 毛茸茸av| 一区在线看 | 欧美激情免费视频 | 亚洲精品播放 | 欧美午夜片 | 亚洲欧美日韩精品 | 精品福利一区二区 | 日本专区 | 色插综合| www黄色com | 日韩中文久久 | 亚欧在线观看 | 天天爱天天操 | 国产乱真实合集 | 激情小说qvod | 国产成人自拍视频在线 | 蜜桃在线一区二区 | 久久精品国产亚洲7777 | 国产精品久久婷婷六月丁香 | 亚洲狠狠| 欧美极品一区 | 93看片淫黄大片一级 | 成人午夜视频在线播放 | 国产在线一区二区三区四区 | 自拍偷拍一区 | 亚洲精品久久久久国产 | 全部免费毛片在线播放 | 国产v在线观看 | 精品国产一区二区在线观看 | 久久白浆 | 欧美一级二级三级视频 | 国产精品三级视频 | 91成人久久 | 天天色天天色天天色 | 全部免费毛片在线播放一个 | 亚天堂| aaaaaa毛片| 日韩av资源 | 秋霞欧美一区二区三区视频免费 |