拿捏機(jī)器人找準(zhǔn)位置不迷路難題,代碼、檢查點(diǎn)已開源。
作者 | 程茜
編輯 | 漠影
機(jī)器人前瞻1月27日報(bào)道,今日,螞蟻集團(tuán)旗下具身智能公司靈波科技正式開源高精度空間感知模型LingBot-Depth,搭載LingBot-Depth模型的奧比中光Gemini 330系列相機(jī)在深度精度和像素覆蓋率方面,均優(yōu)于頂級深度相機(jī)。
螞蟻靈波公布的一系列下游任務(wù)實(shí)驗(yàn)結(jié)果進(jìn)一步表明,LingBot-Depth可在RGB與深度模態(tài)間,輸出精準(zhǔn)對齊的潛在特征表示,讓靈巧手在抓取高度透明和反光物體時(shí)的成功率大大提升。
當(dāng)下關(guān)于機(jī)器人落地應(yīng)用的美好構(gòu)想層出不窮,但要讓這些設(shè)想照進(jìn)現(xiàn)實(shí),有一個核心前提繞不開:機(jī)器人必須能與物理世界順暢交互。小到抬手從桌上取一杯水,大到完成各類復(fù)雜的實(shí)景作業(yè),所有操作的第一步,都得讓機(jī)器人先明確一個關(guān)鍵問題:“我在哪?”
但當(dāng)下常見的空間定位感知方式,會因鏡面反射、無紋理表面等情況產(chǎn)生深度誤差,就意味著機(jī)器人獲取的環(huán)境幾何信息是模糊、失真的。機(jī)器人連基礎(chǔ)的“我在哪”都無法明確,更無從談起后續(xù)的精準(zhǔn)操作與交互,這正是LingBot-Depth模型要解決的痛點(diǎn)。
從行業(yè)價(jià)值來看,該模型的核心突破在于用算法創(chuàng)新彌補(bǔ)了硬件短板,無需更換高端傳感器,就能讓消費(fèi)級RGB-D相機(jī)實(shí)現(xiàn)超高性能,這恰好契合了當(dāng)前工業(yè)、服務(wù)機(jī)器人領(lǐng)域?qū)Ω呔取⒌统杀靖兄桨傅钠惹行枨螅矠榫呱碇悄苋S空間感知能力從基礎(chǔ)層避障導(dǎo)航,向更高級別的復(fù)雜場景建模、人類級空間理解邁進(jìn)提供了關(guān)鍵技術(shù)支撐。
在NYUv2、ETH3D等主流3D視覺基準(zhǔn)評測中,相較于PromptDA、PriorDA等業(yè)界主流深度補(bǔ)全模型,LingBot-Depth在室內(nèi)場景下相對誤差(REL)降幅超70%,在高挑戰(zhàn)性的稀疏SfM任務(wù)中,均方根誤差(RMSE)也降低約47%。
目前,螞蟻靈波已經(jīng)開源了代碼、檢查點(diǎn),并計(jì)劃于近期開源300萬個RGB深度對,包括200萬個真實(shí)數(shù)據(jù)和100萬個合成數(shù)據(jù)。該公司此次將模型代碼與數(shù)據(jù)全鏈路開源,或倒逼RGB-D相機(jī)硬件的優(yōu)化升級,進(jìn)一步提升模型在真實(shí)長尾場景中的魯棒性,讓機(jī)器人、自動駕駛汽車等產(chǎn)品加速走進(jìn)現(xiàn)實(shí)場景。
▲GitHub開源主頁
01.
解鎖機(jī)器人高精度空間感知
實(shí)測性能超越主流模型
一句話總結(jié),LingBot-Depth模型解決的是讓機(jī)器人具有精確的空間視覺感知能力,也就是看清楚、知道自己在哪里。
先來看下這一模型的性能表現(xiàn)。根據(jù)螞蟻靈波公開的技術(shù)報(bào)告,其實(shí)驗(yàn)結(jié)果表明,LingBot-Depth模型在深度精度與像素覆蓋率兩項(xiàng)核心指標(biāo)上均超越業(yè)界頂級深度相機(jī)。
對于機(jī)器人而言,其在抓取透明、反光物體時(shí)時(shí)常會出現(xiàn)判斷失誤的情況。測試結(jié)果顯示,LingBot-Depth模型透明收納箱抓取成功率從0%提升至50%,同時(shí)在多種反光和透明物體上提升了30%~78%的抓取成功率。
具體來看,在深度補(bǔ)全任務(wù)上,該模型與主流的深度補(bǔ)全模型OMNI-DC、PromptDA、PriorDA相比,基于分塊深度掩碼法和稀疏攝影測量(SfM)深度輸入法進(jìn)行了效果對比。LingBot-Depth模型在室內(nèi)、室外場景下的預(yù)測深度與真實(shí)深度的偏差都相對更小,顯著優(yōu)于當(dāng)前主流的基線方法。
▲LingBot-Depth模型與主流模型相比的效果
在分塊深度掩碼法的評測設(shè)置下,LingBot-Depth模型在不同難度等級中性能均持續(xù)優(yōu)于其他模型,證明了該模型面對重度掩碼和噪聲干擾時(shí)具備較優(yōu)抗干擾能力。
在稀疏攝影測量(SfM)深度輸入法設(shè)置下,LingBot-Depth模型生成的深度圖具備更清晰的深度邊界和更連貫的結(jié)構(gòu)特征,并且在遮擋嚴(yán)重或觀測信息稀疏的區(qū)域優(yōu)勢更為明顯。
▲兩種協(xié)議下的模型對比效果
如下圖所示,LingBot-Depth模型生成的圖像包含更清晰的邊界和更完整的結(jié)構(gòu)。
單目深度估計(jì)能力上,LingBot-Depth模型在10項(xiàng)基準(zhǔn)上的表現(xiàn)均優(yōu)于視覺模型DINOv2,其測試結(jié)果顯示,LingBot-Depth模型的預(yù)訓(xùn)練范式可以有效地將3D幾何知識提煉到編碼器中,提高其從單目圖像推斷深度結(jié)構(gòu)的能力。
研究人員還將LingBot-Depth模型,作為強(qiáng)單目深度先驗(yàn)融入FoundationStereo模型中,結(jié)果顯示加速雙目匹配模型訓(xùn)練后,F(xiàn)oundationStereo收斂更快。
從性能表現(xiàn)來看,LingBot-Depth 模型不僅驗(yàn)證了其技術(shù)路徑的有效性,更凸顯了其背后深刻的行業(yè)價(jià)值。
最直觀的就是,LingBot-Depth模型有效攻克了機(jī)器人空間感知的核心痛點(diǎn),即便是傳統(tǒng)相機(jī)難以捕捉的低紋理、遮擋或弱光區(qū)域,機(jī)器人也能通過該模型實(shí)現(xiàn)清晰感知。同時(shí),它顯著縮小了普通消費(fèi)級RGB-D相機(jī)與高端深度相機(jī)之間的性能差距,讓低成本設(shè)備也能輸出接近專業(yè)級的深度數(shù)據(jù),為機(jī)器人等各類智能設(shè)備的空間感知能力筑牢了技術(shù)根基。
02.
LingBot-Depth要讓機(jī)器人看清路、定準(zhǔn)位
就像人類出行需要通過視覺清晰感知路況、判斷距離、定位自身位置一樣,機(jī)器人執(zhí)行任務(wù)時(shí)也依賴精準(zhǔn)的空間視覺感知能力,既需要看懂周圍的三維布局,還要準(zhǔn)確定位自己的坐標(biāo)。
這種能力是機(jī)器人實(shí)現(xiàn)自主導(dǎo)航、避障和復(fù)雜操作的底層基礎(chǔ),而追求精確的三維感知已成為基于物理的AI研究的核心支柱,其重要性不言而喻。
從行業(yè)落地視角來看,讓機(jī)器人實(shí)現(xiàn)穩(wěn)定、有效的空間感知,需滿足三大核心標(biāo)準(zhǔn):具備絕對度量尺度、能輸出像素級對齊的稠密幾何信息、支持無需高算力后處理的實(shí)時(shí)采集。而目前業(yè)內(nèi)唯一能同時(shí)滿足這些實(shí)時(shí)性要求的成像方案,唯有RGB-D相機(jī)。
然而,RGB-D相機(jī)的硬件短板卻成為技術(shù)規(guī)模化應(yīng)用的關(guān)鍵掣肘之一。受固有的硬件局限影響,基于雙目的深度相機(jī)方式,會通過兩個鏡頭從略有差異的視角同時(shí)拍攝場景,系統(tǒng)通過匹配兩幅圖像中的對應(yīng)點(diǎn)來計(jì)算深度。
但該相機(jī)在面對光滑、鏡面反射、反光等復(fù)雜光照條件,其依靠像素級局部紋理進(jìn)行推理、猜測補(bǔ)全缺失圖像的策略就會失效,而這些復(fù)雜場景在真實(shí)的工廠、家庭等環(huán)境很常見。
LingBot-Depth模型的出現(xiàn),正是為破解這一行業(yè)核心痛點(diǎn)提供了切實(shí)可行的技術(shù)路徑,其背后的殺手锏就是MDM(掩碼深度建模)。
MDM相對應(yīng)的就是此前主流MAE(掩碼自編碼器)方法的局限性,MAE在訓(xùn)練過程中無法學(xué)習(xí)和理解真實(shí)物理世界的空間幾何規(guī)律。
而MDM在訓(xùn)練時(shí)將RGB-D傳感器的天然深度缺失作為“原生掩碼”,將傳感器失效區(qū)域視為可學(xué)習(xí)的結(jié)構(gòu)線索而非簡單噪聲,通過掩碼深度建模(Masked Depth Modeling, MDM)機(jī)制充分利用 RGB 圖像中的視覺上下文信息,對缺失深度區(qū)域進(jìn)行智能推斷與補(bǔ)全。模型在補(bǔ)全真實(shí)深度缺失的過程中,可以學(xué)出貼合物理世界的度量級、高精度完整深度表示。
簡單說,MDM就是將傳感器的缺陷變成了訓(xùn)練AI的素材,讓AI學(xué)習(xí)真實(shí)世界的物理規(guī)則,而不是人工編的假規(guī)則,這使得最后練出的AI能精準(zhǔn)測出真實(shí)的3D距離。
如此一來,模型便能逐步習(xí)得這類空間感知規(guī)律:當(dāng)識別到玻璃類的視覺外觀與反射特征時(shí),就能精準(zhǔn)推斷出其對應(yīng)的深度范圍。
在此之上,基于統(tǒng)一單目深度估計(jì)和深度補(bǔ)全的目標(biāo),MDM框架可以作為通用的多功能模型,從任意RGB-D輸入生成度量尺度、像素對齊的密集深度圖。
機(jī)器人行業(yè)正邁向規(guī)模化應(yīng)用落地的關(guān)鍵階段,螞蟻靈波在MDM機(jī)制上的探索在攻克精準(zhǔn)空間感知這一核心難題上提出了新解法,或加速機(jī)器人真正邁入自主感知、自主決策、自主執(zhí)行的智能新階段。
03.
千萬級樣本煉就機(jī)器人“火眼金睛”
讓機(jī)器人靈巧操作落地可期
找對可行路徑,下一步要做的就是落地實(shí)現(xiàn)。
為支持大規(guī)模MDM訓(xùn)練,研究人員首先搭建了一套可擴(kuò)展的數(shù)據(jù)整理流程,實(shí)現(xiàn)原始傳感器數(shù)據(jù)與可靠監(jiān)督信息的高效對接。該流程設(shè)計(jì)兩大并行數(shù)據(jù)分支,分別是基于自托管的3D資產(chǎn)生成合成數(shù)據(jù),以及通過模塊化3D打印采集裝置完成實(shí)景數(shù)據(jù)采集,這一裝置兼容主動立體相機(jī)(Intel RealSense、奧比中光Gemini)和被動立體相機(jī)(ZED)等多款消費(fèi)級RGB-D相機(jī)。
基于這一套設(shè)計(jì),其累計(jì)獲取了100萬個合成樣本、200萬個真實(shí)世界樣本,所有樣本均包含同步的RGB圖像、原始傳感器深度數(shù)據(jù)及立體圖像對。
其中立體圖像對的偽深度監(jiān)督,由基于FoundationStereo、經(jīng)合成數(shù)據(jù)訓(xùn)練的自定義立體匹配網(wǎng)絡(luò)實(shí)現(xiàn)。研究人員還融合多個公開RGB-D數(shù)據(jù)集豐富了數(shù)據(jù)語料庫,最終構(gòu)建出包含1000萬條樣本的多樣化高質(zhì)量訓(xùn)練集。
結(jié)合該RGB-D語料庫,研究人員采用掩碼深度建模方式對ViT-Large模型進(jìn)行預(yù)訓(xùn)練,通過注意力機(jī)制將度量幾何信息融入語義標(biāo)記,可有效提升RGB-D相機(jī)的空間感知質(zhì)量。
在可擴(kuò)展雙支數(shù)據(jù)整理流程、超大規(guī)模高質(zhì)量訓(xùn)練集、針對性預(yù)訓(xùn)練優(yōu)化感知這樣的全棧技術(shù)創(chuàng)新下,LingBot-Depth模型已經(jīng)有了落地到實(shí)際應(yīng)用的潛力。
因此,研究人員基于LingBot-Depth模型開展了多組實(shí)驗(yàn)驗(yàn)證,選用Orbbec Gemini-335相機(jī)作為RGB-D輸入設(shè)備,完成了3D點(diǎn)跟蹤、靈巧手抓取等典型任務(wù)的實(shí)測驗(yàn)證。
可以看到在3D點(diǎn)跟蹤案例中,當(dāng)場景包含大面積的玻璃時(shí),原始深度傳感器會嚴(yán)重失效,經(jīng)LingBot-Depth模型優(yōu)化后的深度數(shù)據(jù),能夠生成更加平滑和精確的相機(jī)軌跡。
▲原始相機(jī)和基于LingBot-Depth模型優(yōu)化的3D跟蹤效果對比
還有真實(shí)世界的靈巧手抓取,其采用了配備X Hand-1靈巧手的Rokae XMate-SR5機(jī)械臂、用于感知的Orbbec Gemini 335 RGB-D相機(jī)。LingBot-Depth模型在抓取高度透明物體時(shí)的成功率達(dá)到50%,但原始方法完全無法抓取。
▲靈巧手抓取成功率對比
雖然這些只是在實(shí)驗(yàn)室的測試,但這些測試場景均對標(biāo)了機(jī)器人落地應(yīng)用中的高頻實(shí)際場景,已充分展現(xiàn)出該技術(shù)方案的高實(shí)用性與落地潛力。
04.
結(jié)語:讓機(jī)器人看懂物理世界的關(guān)鍵一步
整體而言,LingBot-Depth模型在解決機(jī)器人空間感知能力核心痛點(diǎn)上更進(jìn)一步,既實(shí)現(xiàn)了感知性能的提升,又大幅降低了技術(shù)落地成本,為各類智能應(yīng)用的開發(fā)筑牢了技術(shù)基礎(chǔ),是推動機(jī)器人真正“看懂”物理世界的關(guān)鍵突破。
對于開發(fā)者而言,其無需再從零開展空間感知的基礎(chǔ)研究,可直接基于該模型快速搭建各類應(yīng)用,這將大幅加速一眾智能設(shè)備的研發(fā)與落地進(jìn)程,讓機(jī)器人、自動駕駛汽車等產(chǎn)品更快從技術(shù)概念走進(jìn)現(xiàn)實(shí)場景。











