岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

透明反光場景不掉鏈子:螞蟻靈波開源高精度空間感知模型

   時(shí)間:2026-01-28 11:40:59 來源:智東西編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

拿捏機(jī)器人找準(zhǔn)位置不迷路難題,代碼、檢查點(diǎn)已開源。

作者 | 程茜

編輯 | 漠影

機(jī)器人前瞻1月27日報(bào)道,今日,螞蟻集團(tuán)旗下具身智能公司靈波科技正式開源高精度空間感知模型LingBot-Depth,搭載LingBot-Depth模型的奧比中光Gemini 330系列相機(jī)在深度精度和像素覆蓋率方面,均優(yōu)于頂級深度相機(jī)。

螞蟻靈波公布的一系列下游任務(wù)實(shí)驗(yàn)結(jié)果進(jìn)一步表明,LingBot-Depth可在RGB與深度模態(tài)間,輸出精準(zhǔn)對齊的潛在特征表示,讓靈巧手在抓取高度透明和反光物體時(shí)的成功率大大提升。

當(dāng)下關(guān)于機(jī)器人落地應(yīng)用的美好構(gòu)想層出不窮,但要讓這些設(shè)想照進(jìn)現(xiàn)實(shí),有一個核心前提繞不開:機(jī)器人必須能與物理世界順暢交互。小到抬手從桌上取一杯水,大到完成各類復(fù)雜的實(shí)景作業(yè),所有操作的第一步,都得讓機(jī)器人先明確一個關(guān)鍵問題:“我在哪?”

但當(dāng)下常見的空間定位感知方式,會因鏡面反射、無紋理表面等情況產(chǎn)生深度誤差,就意味著機(jī)器人獲取的環(huán)境幾何信息是模糊、失真的。機(jī)器人連基礎(chǔ)的“我在哪”都無法明確,更無從談起后續(xù)的精準(zhǔn)操作與交互,這正是LingBot-Depth模型要解決的痛點(diǎn)。

從行業(yè)價(jià)值來看,該模型的核心突破在于用算法創(chuàng)新彌補(bǔ)了硬件短板,無需更換高端傳感器,就能讓消費(fèi)級RGB-D相機(jī)實(shí)現(xiàn)超高性能,這恰好契合了當(dāng)前工業(yè)、服務(wù)機(jī)器人領(lǐng)域?qū)Ω呔取⒌统杀靖兄桨傅钠惹行枨螅矠榫呱碇悄苋S空間感知能力從基礎(chǔ)層避障導(dǎo)航,向更高級別的復(fù)雜場景建模、人類級空間理解邁進(jìn)提供了關(guān)鍵技術(shù)支撐。

在NYUv2、ETH3D等主流3D視覺基準(zhǔn)評測中,相較于PromptDA、PriorDA等業(yè)界主流深度補(bǔ)全模型,LingBot-Depth在室內(nèi)場景下相對誤差(REL)降幅超70%,在高挑戰(zhàn)性的稀疏SfM任務(wù)中,均方根誤差(RMSE)也降低約47%。

目前,螞蟻靈波已經(jīng)開源了代碼、檢查點(diǎn),并計(jì)劃于近期開源300萬個RGB深度對,包括200萬個真實(shí)數(shù)據(jù)和100萬個合成數(shù)據(jù)。該公司此次將模型代碼與數(shù)據(jù)全鏈路開源,或倒逼RGB-D相機(jī)硬件的優(yōu)化升級,進(jìn)一步提升模型在真實(shí)長尾場景中的魯棒性,讓機(jī)器人、自動駕駛汽車等產(chǎn)品加速走進(jìn)現(xiàn)實(shí)場景。

▲GitHub開源主頁

01.

解鎖機(jī)器人高精度空間感知

實(shí)測性能超越主流模型

一句話總結(jié),LingBot-Depth模型解決的是讓機(jī)器人具有精確的空間視覺感知能力,也就是看清楚、知道自己在哪里。

先來看下這一模型的性能表現(xiàn)。根據(jù)螞蟻靈波公開的技術(shù)報(bào)告,其實(shí)驗(yàn)結(jié)果表明,LingBot-Depth模型在深度精度與像素覆蓋率兩項(xiàng)核心指標(biāo)上均超越業(yè)界頂級深度相機(jī)。

對于機(jī)器人而言,其在抓取透明、反光物體時(shí)時(shí)常會出現(xiàn)判斷失誤的情況。測試結(jié)果顯示,LingBot-Depth模型透明收納箱抓取成功率從0%提升至50%,同時(shí)在多種反光和透明物體上提升了30%~78%的抓取成功率。

具體來看,在深度補(bǔ)全任務(wù)上,該模型與主流的深度補(bǔ)全模型OMNI-DC、PromptDA、PriorDA相比,基于分塊深度掩碼法和稀疏攝影測量(SfM)深度輸入法進(jìn)行了效果對比。LingBot-Depth模型在室內(nèi)、室外場景下的預(yù)測深度與真實(shí)深度的偏差都相對更小,顯著優(yōu)于當(dāng)前主流的基線方法。

▲LingBot-Depth模型與主流模型相比的效果

在分塊深度掩碼法的評測設(shè)置下,LingBot-Depth模型在不同難度等級中性能均持續(xù)優(yōu)于其他模型,證明了該模型面對重度掩碼和噪聲干擾時(shí)具備較優(yōu)抗干擾能力。

在稀疏攝影測量(SfM)深度輸入法設(shè)置下,LingBot-Depth模型生成的深度圖具備更清晰的深度邊界和更連貫的結(jié)構(gòu)特征,并且在遮擋嚴(yán)重或觀測信息稀疏的區(qū)域優(yōu)勢更為明顯。

▲兩種協(xié)議下的模型對比效果

如下圖所示,LingBot-Depth模型生成的圖像包含更清晰的邊界和更完整的結(jié)構(gòu)。

單目深度估計(jì)能力上,LingBot-Depth模型在10項(xiàng)基準(zhǔn)上的表現(xiàn)均優(yōu)于視覺模型DINOv2,其測試結(jié)果顯示,LingBot-Depth模型的預(yù)訓(xùn)練范式可以有效地將3D幾何知識提煉到編碼器中,提高其從單目圖像推斷深度結(jié)構(gòu)的能力。

研究人員還將LingBot-Depth模型,作為強(qiáng)單目深度先驗(yàn)融入FoundationStereo模型中,結(jié)果顯示加速雙目匹配模型訓(xùn)練后,F(xiàn)oundationStereo收斂更快。

從性能表現(xiàn)來看,LingBot-Depth 模型不僅驗(yàn)證了其技術(shù)路徑的有效性,更凸顯了其背后深刻的行業(yè)價(jià)值。

最直觀的就是,LingBot-Depth模型有效攻克了機(jī)器人空間感知的核心痛點(diǎn),即便是傳統(tǒng)相機(jī)難以捕捉的低紋理、遮擋或弱光區(qū)域,機(jī)器人也能通過該模型實(shí)現(xiàn)清晰感知。同時(shí),它顯著縮小了普通消費(fèi)級RGB-D相機(jī)與高端深度相機(jī)之間的性能差距,讓低成本設(shè)備也能輸出接近專業(yè)級的深度數(shù)據(jù),為機(jī)器人等各類智能設(shè)備的空間感知能力筑牢了技術(shù)根基。

02.

LingBot-Depth要讓機(jī)器人看清路、定準(zhǔn)位

就像人類出行需要通過視覺清晰感知路況、判斷距離、定位自身位置一樣,機(jī)器人執(zhí)行任務(wù)時(shí)也依賴精準(zhǔn)的空間視覺感知能力,既需要看懂周圍的三維布局,還要準(zhǔn)確定位自己的坐標(biāo)。

這種能力是機(jī)器人實(shí)現(xiàn)自主導(dǎo)航、避障和復(fù)雜操作的底層基礎(chǔ),而追求精確的三維感知已成為基于物理的AI研究的核心支柱,其重要性不言而喻。

從行業(yè)落地視角來看,讓機(jī)器人實(shí)現(xiàn)穩(wěn)定、有效的空間感知,需滿足三大核心標(biāo)準(zhǔn):具備絕對度量尺度、能輸出像素級對齊的稠密幾何信息、支持無需高算力后處理的實(shí)時(shí)采集。而目前業(yè)內(nèi)唯一能同時(shí)滿足這些實(shí)時(shí)性要求的成像方案,唯有RGB-D相機(jī)。

然而,RGB-D相機(jī)的硬件短板卻成為技術(shù)規(guī)模化應(yīng)用的關(guān)鍵掣肘之一。受固有的硬件局限影響,基于雙目的深度相機(jī)方式,會通過兩個鏡頭從略有差異的視角同時(shí)拍攝場景,系統(tǒng)通過匹配兩幅圖像中的對應(yīng)點(diǎn)來計(jì)算深度。

但該相機(jī)在面對光滑、鏡面反射、反光等復(fù)雜光照條件,其依靠像素級局部紋理進(jìn)行推理、猜測補(bǔ)全缺失圖像的策略就會失效,而這些復(fù)雜場景在真實(shí)的工廠、家庭等環(huán)境很常見。

LingBot-Depth模型的出現(xiàn),正是為破解這一行業(yè)核心痛點(diǎn)提供了切實(shí)可行的技術(shù)路徑,其背后的殺手锏就是MDM(掩碼深度建模)。

MDM相對應(yīng)的就是此前主流MAE(掩碼自編碼器)方法的局限性,MAE在訓(xùn)練過程中無法學(xué)習(xí)和理解真實(shí)物理世界的空間幾何規(guī)律。

而MDM在訓(xùn)練時(shí)將RGB-D傳感器的天然深度缺失作為“原生掩碼”,將傳感器失效區(qū)域視為可學(xué)習(xí)的結(jié)構(gòu)線索而非簡單噪聲,通過掩碼深度建模(Masked Depth Modeling, MDM)機(jī)制充分利用 RGB 圖像中的視覺上下文信息,對缺失深度區(qū)域進(jìn)行智能推斷與補(bǔ)全。模型在補(bǔ)全真實(shí)深度缺失的過程中,可以學(xué)出貼合物理世界的度量級、高精度完整深度表示。

簡單說,MDM就是將傳感器的缺陷變成了訓(xùn)練AI的素材,讓AI學(xué)習(xí)真實(shí)世界的物理規(guī)則,而不是人工編的假規(guī)則,這使得最后練出的AI能精準(zhǔn)測出真實(shí)的3D距離。

如此一來,模型便能逐步習(xí)得這類空間感知規(guī)律:當(dāng)識別到玻璃類的視覺外觀與反射特征時(shí),就能精準(zhǔn)推斷出其對應(yīng)的深度范圍。

在此之上,基于統(tǒng)一單目深度估計(jì)和深度補(bǔ)全的目標(biāo),MDM框架可以作為通用的多功能模型,從任意RGB-D輸入生成度量尺度、像素對齊的密集深度圖。

機(jī)器人行業(yè)正邁向規(guī)模化應(yīng)用落地的關(guān)鍵階段,螞蟻靈波在MDM機(jī)制上的探索在攻克精準(zhǔn)空間感知這一核心難題上提出了新解法,或加速機(jī)器人真正邁入自主感知、自主決策、自主執(zhí)行的智能新階段。

03.

千萬級樣本煉就機(jī)器人“火眼金睛”

讓機(jī)器人靈巧操作落地可期

找對可行路徑,下一步要做的就是落地實(shí)現(xiàn)。

為支持大規(guī)模MDM訓(xùn)練,研究人員首先搭建了一套可擴(kuò)展的數(shù)據(jù)整理流程,實(shí)現(xiàn)原始傳感器數(shù)據(jù)與可靠監(jiān)督信息的高效對接。該流程設(shè)計(jì)兩大并行數(shù)據(jù)分支,分別是基于自托管的3D資產(chǎn)生成合成數(shù)據(jù),以及通過模塊化3D打印采集裝置完成實(shí)景數(shù)據(jù)采集,這一裝置兼容主動立體相機(jī)(Intel RealSense、奧比中光Gemini)和被動立體相機(jī)(ZED)等多款消費(fèi)級RGB-D相機(jī)。

基于這一套設(shè)計(jì),其累計(jì)獲取了100萬個合成樣本、200萬個真實(shí)世界樣本,所有樣本均包含同步的RGB圖像、原始傳感器深度數(shù)據(jù)及立體圖像對。

其中立體圖像對的偽深度監(jiān)督,由基于FoundationStereo、經(jīng)合成數(shù)據(jù)訓(xùn)練的自定義立體匹配網(wǎng)絡(luò)實(shí)現(xiàn)。研究人員還融合多個公開RGB-D數(shù)據(jù)集豐富了數(shù)據(jù)語料庫,最終構(gòu)建出包含1000萬條樣本的多樣化高質(zhì)量訓(xùn)練集。

結(jié)合該RGB-D語料庫,研究人員采用掩碼深度建模方式對ViT-Large模型進(jìn)行預(yù)訓(xùn)練,通過注意力機(jī)制將度量幾何信息融入語義標(biāo)記,可有效提升RGB-D相機(jī)的空間感知質(zhì)量。

在可擴(kuò)展雙支數(shù)據(jù)整理流程、超大規(guī)模高質(zhì)量訓(xùn)練集、針對性預(yù)訓(xùn)練優(yōu)化感知這樣的全棧技術(shù)創(chuàng)新下,LingBot-Depth模型已經(jīng)有了落地到實(shí)際應(yīng)用的潛力。

因此,研究人員基于LingBot-Depth模型開展了多組實(shí)驗(yàn)驗(yàn)證,選用Orbbec Gemini-335相機(jī)作為RGB-D輸入設(shè)備,完成了3D點(diǎn)跟蹤、靈巧手抓取等典型任務(wù)的實(shí)測驗(yàn)證。

可以看到在3D點(diǎn)跟蹤案例中,當(dāng)場景包含大面積的玻璃時(shí),原始深度傳感器會嚴(yán)重失效,經(jīng)LingBot-Depth模型優(yōu)化后的深度數(shù)據(jù),能夠生成更加平滑和精確的相機(jī)軌跡。

▲原始相機(jī)和基于LingBot-Depth模型優(yōu)化的3D跟蹤效果對比

還有真實(shí)世界的靈巧手抓取,其采用了配備X Hand-1靈巧手的Rokae XMate-SR5機(jī)械臂、用于感知的Orbbec Gemini 335 RGB-D相機(jī)。LingBot-Depth模型在抓取高度透明物體時(shí)的成功率達(dá)到50%,但原始方法完全無法抓取。

▲靈巧手抓取成功率對比

雖然這些只是在實(shí)驗(yàn)室的測試,但這些測試場景均對標(biāo)了機(jī)器人落地應(yīng)用中的高頻實(shí)際場景,已充分展現(xiàn)出該技術(shù)方案的高實(shí)用性與落地潛力。

04.

結(jié)語:讓機(jī)器人看懂物理世界的關(guān)鍵一步

整體而言,LingBot-Depth模型在解決機(jī)器人空間感知能力核心痛點(diǎn)上更進(jìn)一步,既實(shí)現(xiàn)了感知性能的提升,又大幅降低了技術(shù)落地成本,為各類智能應(yīng)用的開發(fā)筑牢了技術(shù)基礎(chǔ),是推動機(jī)器人真正“看懂”物理世界的關(guān)鍵突破。

對于開發(fā)者而言,其無需再從零開展空間感知的基礎(chǔ)研究,可直接基于該模型快速搭建各類應(yīng)用,這將大幅加速一眾智能設(shè)備的研發(fā)與落地進(jìn)程,讓機(jī)器人、自動駕駛汽車等產(chǎn)品更快從技術(shù)概念走進(jìn)現(xiàn)實(shí)場景。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 超碰高清 | 国产视频网站在线观看 | а√天堂8资源中文在线 | 日韩在线视频网址 | 丁香花五月激情 | 大地资源第二页在线观看高清版 | 欧美视频在线观看一区 | 久久伊人中文字幕 | 国产福利专区 | 一区二区三区视频在线 | 日日夜夜网站 | 自拍色图 | 国产三区视频 | 色欧美日韩 | 一区三区视频在线观看 | 国产999视频| 久久国产精品亚洲 | 欧美亚洲精品天堂 | 视频一区中文字幕 | av在线收看| 成人性生活毛片 | 日韩网站在线观看 | 人人射人人射 | 国产欧美精品区一区二区三区 | 久久狠狠高潮亚洲精品 | 视频一区在线播放 | 玖草视频在线观看 | 日本精品久久久久 | 日韩美女一区二区三区 | 五月天黄色片 | 一区二区欧美视频 | 欧美日韩在线精品 | 黄色片在线免费看 | a级在线 | 久久狠狠高潮亚洲精品 | 黄色三级av | 久久香蕉国产 | 成人午夜精品福利免费 | 国产精品天天狠天天看 | 成人在线观 | 国产精品999999 |