滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

透明反光場景不掉鏈子：螞蟻靈波開源高精度空間感知模型

時(shí)間：2026-01-28 11:40:59 來源：智東西編輯：快訊 IP：北京 發(fā)表評論無障礙通道

拿捏機(jī)器人找準(zhǔn)位置不迷路難題，代碼、檢查點(diǎn)已開源。

作者 | 程茜

編輯 | 漠影

機(jī)器人前瞻1月27日報(bào)道，今日，螞蟻集團(tuán)旗下具身智能公司靈波科技正式開源高精度空間感知模型LingBot-Depth，搭載LingBot-Depth模型的奧比中光Gemini 330系列相機(jī)在深度精度和像素覆蓋率方面，均優(yōu)于頂級深度相機(jī)。

螞蟻靈波公布的一系列下游任務(wù)實(shí)驗(yàn)結(jié)果進(jìn)一步表明，LingBot-Depth可在RGB與深度模態(tài)間，輸出精準(zhǔn)對齊的潛在特征表示，讓靈巧手在抓取高度透明和反光物體時(shí)的成功率大大提升。

當(dāng)下關(guān)于機(jī)器人落地應(yīng)用的美好構(gòu)想層出不窮，但要讓這些設(shè)想照進(jìn)現(xiàn)實(shí)，有一個核心前提繞不開：機(jī)器人必須能與物理世界順暢交互。小到抬手從桌上取一杯水，大到完成各類復(fù)雜的實(shí)景作業(yè)，所有操作的第一步，都得讓機(jī)器人先明確一個關(guān)鍵問題：“我在哪？”

但當(dāng)下常見的空間定位感知方式，會因鏡面反射、無紋理表面等情況產(chǎn)生深度誤差，就意味著機(jī)器人獲取的環(huán)境幾何信息是模糊、失真的。機(jī)器人連基礎(chǔ)的“我在哪”都無法明確，更無從談起后續(xù)的精準(zhǔn)操作與交互，這正是LingBot-Depth模型要解決的痛點(diǎn)。

從行業(yè)價(jià)值來看，該模型的核心突破在于用算法創(chuàng)新彌補(bǔ)了硬件短板，無需更換高端傳感器，就能讓消費(fèi)級RGB-D相機(jī)實(shí)現(xiàn)超高性能，這恰好契合了當(dāng)前工業(yè)、服務(wù)機(jī)器人領(lǐng)域?qū)Ω呔取⒌统杀靖兄桨傅钠惹行枨螅矠榫呱碇悄苋S空間感知能力從基礎(chǔ)層避障導(dǎo)航，向更高級別的復(fù)雜場景建模、人類級空間理解邁進(jìn)提供了關(guān)鍵技術(shù)支撐。

在NYUv2、ETH3D等主流3D視覺基準(zhǔn)評測中，相較于PromptDA、PriorDA等業(yè)界主流深度補(bǔ)全模型，LingBot-Depth在室內(nèi)場景下相對誤差（REL）降幅超70%，在高挑戰(zhàn)性的稀疏SfM任務(wù)中，均方根誤差（RMSE）也降低約47%。

目前，螞蟻靈波已經(jīng)開源了代碼、檢查點(diǎn)，并計(jì)劃于近期開源300萬個RGB深度對，包括200萬個真實(shí)數(shù)據(jù)和100萬個合成數(shù)據(jù)。該公司此次將模型代碼與數(shù)據(jù)全鏈路開源，或倒逼RGB-D相機(jī)硬件的優(yōu)化升級，進(jìn)一步提升模型在真實(shí)長尾場景中的魯棒性，讓機(jī)器人、自動駕駛汽車等產(chǎn)品加速走進(jìn)現(xiàn)實(shí)場景。

▲GitHub開源主頁

01.

解鎖機(jī)器人高精度空間感知

實(shí)測性能超越主流模型

一句話總結(jié)，LingBot-Depth模型解決的是讓機(jī)器人具有精確的空間視覺感知能力，也就是看清楚、知道自己在哪里。

先來看下這一模型的性能表現(xiàn)。根據(jù)螞蟻靈波公開的技術(shù)報(bào)告，其實(shí)驗(yàn)結(jié)果表明，LingBot-Depth模型在深度精度與像素覆蓋率兩項(xiàng)核心指標(biāo)上均超越業(yè)界頂級深度相機(jī)。

對于機(jī)器人而言，其在抓取透明、反光物體時(shí)時(shí)常會出現(xiàn)判斷失誤的情況。測試結(jié)果顯示，LingBot-Depth模型透明收納箱抓取成功率從0%提升至50%，同時(shí)在多種反光和透明物體上提升了30%～78%的抓取成功率。

具體來看，在深度補(bǔ)全任務(wù)上，該模型與主流的深度補(bǔ)全模型OMNI-DC、PromptDA、PriorDA相比，基于分塊深度掩碼法和稀疏攝影測量（SfM）深度輸入法進(jìn)行了效果對比。LingBot-Depth模型在室內(nèi)、室外場景下的預(yù)測深度與真實(shí)深度的偏差都相對更小，顯著優(yōu)于當(dāng)前主流的基線方法。

▲LingBot-Depth模型與主流模型相比的效果

在分塊深度掩碼法的評測設(shè)置下，LingBot-Depth模型在不同難度等級中性能均持續(xù)優(yōu)于其他模型，證明了該模型面對重度掩碼和噪聲干擾時(shí)具備較優(yōu)抗干擾能力。

在稀疏攝影測量（SfM）深度輸入法設(shè)置下，LingBot-Depth模型生成的深度圖具備更清晰的深度邊界和更連貫的結(jié)構(gòu)特征，并且在遮擋嚴(yán)重或觀測信息稀疏的區(qū)域優(yōu)勢更為明顯。

▲兩種協(xié)議下的模型對比效果

如下圖所示，LingBot-Depth模型生成的圖像包含更清晰的邊界和更完整的結(jié)構(gòu)。

單目深度估計(jì)能力上，LingBot-Depth模型在10項(xiàng)基準(zhǔn)上的表現(xiàn)均優(yōu)于視覺模型DINOv2，其測試結(jié)果顯示，LingBot-Depth模型的預(yù)訓(xùn)練范式可以有效地將3D幾何知識提煉到編碼器中，提高其從單目圖像推斷深度結(jié)構(gòu)的能力。

研究人員還將LingBot-Depth模型，作為強(qiáng)單目深度先驗(yàn)融入FoundationStereo模型中，結(jié)果顯示加速雙目匹配模型訓(xùn)練后，F(xiàn)oundationStereo收斂更快。

從性能表現(xiàn)來看，LingBot-Depth 模型不僅驗(yàn)證了其技術(shù)路徑的有效性，更凸顯了其背后深刻的行業(yè)價(jià)值。

最直觀的就是，LingBot-Depth模型有效攻克了機(jī)器人空間感知的核心痛點(diǎn)，即便是傳統(tǒng)相機(jī)難以捕捉的低紋理、遮擋或弱光區(qū)域，機(jī)器人也能通過該模型實(shí)現(xiàn)清晰感知。同時(shí)，它顯著縮小了普通消費(fèi)級RGB-D相機(jī)與高端深度相機(jī)之間的性能差距，讓低成本設(shè)備也能輸出接近專業(yè)級的深度數(shù)據(jù)，為機(jī)器人等各類智能設(shè)備的空間感知能力筑牢了技術(shù)根基。

02.

LingBot-Depth要讓機(jī)器人看清路、定準(zhǔn)位

就像人類出行需要通過視覺清晰感知路況、判斷距離、定位自身位置一樣，機(jī)器人執(zhí)行任務(wù)時(shí)也依賴精準(zhǔn)的空間視覺感知能力，既需要看懂周圍的三維布局，還要準(zhǔn)確定位自己的坐標(biāo)。

這種能力是機(jī)器人實(shí)現(xiàn)自主導(dǎo)航、避障和復(fù)雜操作的底層基礎(chǔ)，而追求精確的三維感知已成為基于物理的AI研究的核心支柱，其重要性不言而喻。

從行業(yè)落地視角來看，讓機(jī)器人實(shí)現(xiàn)穩(wěn)定、有效的空間感知，需滿足三大核心標(biāo)準(zhǔn)：具備絕對度量尺度、能輸出像素級對齊的稠密幾何信息、支持無需高算力后處理的實(shí)時(shí)采集。而目前業(yè)內(nèi)唯一能同時(shí)滿足這些實(shí)時(shí)性要求的成像方案，唯有RGB-D相機(jī)。

然而，RGB-D相機(jī)的硬件短板卻成為技術(shù)規(guī)模化應(yīng)用的關(guān)鍵掣肘之一。受固有的硬件局限影響，基于雙目的深度相機(jī)方式，會通過兩個鏡頭從略有差異的視角同時(shí)拍攝場景，系統(tǒng)通過匹配兩幅圖像中的對應(yīng)點(diǎn)來計(jì)算深度。

但該相機(jī)在面對光滑、鏡面反射、反光等復(fù)雜光照條件，其依靠像素級局部紋理進(jìn)行推理、猜測補(bǔ)全缺失圖像的策略就會失效，而這些復(fù)雜場景在真實(shí)的工廠、家庭等環(huán)境很常見。

LingBot-Depth模型的出現(xiàn)，正是為破解這一行業(yè)核心痛點(diǎn)提供了切實(shí)可行的技術(shù)路徑，其背后的殺手锏就是MDM（掩碼深度建模）。

MDM相對應(yīng)的就是此前主流MAE（掩碼自編碼器）方法的局限性，MAE在訓(xùn)練過程中無法學(xué)習(xí)和理解真實(shí)物理世界的空間幾何規(guī)律。

而MDM在訓(xùn)練時(shí)將RGB-D傳感器的天然深度缺失作為“原生掩碼”，將傳感器失效區(qū)域視為可學(xué)習(xí)的結(jié)構(gòu)線索而非簡單噪聲，通過掩碼深度建模（Masked Depth Modeling, MDM）機(jī)制充分利用 RGB 圖像中的視覺上下文信息，對缺失深度區(qū)域進(jìn)行智能推斷與補(bǔ)全。模型在補(bǔ)全真實(shí)深度缺失的過程中，可以學(xué)出貼合物理世界的度量級、高精度完整深度表示。

簡單說，MDM就是將傳感器的缺陷變成了訓(xùn)練AI的素材，讓AI學(xué)習(xí)真實(shí)世界的物理規(guī)則，而不是人工編的假規(guī)則，這使得最后練出的AI能精準(zhǔn)測出真實(shí)的3D距離。

如此一來，模型便能逐步習(xí)得這類空間感知規(guī)律：當(dāng)識別到玻璃類的視覺外觀與反射特征時(shí)，就能精準(zhǔn)推斷出其對應(yīng)的深度范圍。

在此之上，基于統(tǒng)一單目深度估計(jì)和深度補(bǔ)全的目標(biāo)，MDM框架可以作為通用的多功能模型，從任意RGB-D輸入生成度量尺度、像素對齊的密集深度圖。

機(jī)器人行業(yè)正邁向規(guī)模化應(yīng)用落地的關(guān)鍵階段，螞蟻靈波在MDM機(jī)制上的探索在攻克精準(zhǔn)空間感知這一核心難題上提出了新解法，或加速機(jī)器人真正邁入自主感知、自主決策、自主執(zhí)行的智能新階段。

03.

千萬級樣本煉就機(jī)器人“火眼金睛”

讓機(jī)器人靈巧操作落地可期

找對可行路徑，下一步要做的就是落地實(shí)現(xiàn)。

為支持大規(guī)模MDM訓(xùn)練，研究人員首先搭建了一套可擴(kuò)展的數(shù)據(jù)整理流程，實(shí)現(xiàn)原始傳感器數(shù)據(jù)與可靠監(jiān)督信息的高效對接。該流程設(shè)計(jì)兩大并行數(shù)據(jù)分支，分別是基于自托管的3D資產(chǎn)生成合成數(shù)據(jù)，以及通過模塊化3D打印采集裝置完成實(shí)景數(shù)據(jù)采集，這一裝置兼容主動立體相機(jī)（Intel RealSense、奧比中光Gemini）和被動立體相機(jī)（ZED）等多款消費(fèi)級RGB-D相機(jī)。

基于這一套設(shè)計(jì)，其累計(jì)獲取了100萬個合成樣本、200萬個真實(shí)世界樣本，所有樣本均包含同步的RGB圖像、原始傳感器深度數(shù)據(jù)及立體圖像對。

其中立體圖像對的偽深度監(jiān)督，由基于FoundationStereo、經(jīng)合成數(shù)據(jù)訓(xùn)練的自定義立體匹配網(wǎng)絡(luò)實(shí)現(xiàn)。研究人員還融合多個公開RGB-D數(shù)據(jù)集豐富了數(shù)據(jù)語料庫，最終構(gòu)建出包含1000萬條樣本的多樣化高質(zhì)量訓(xùn)練集。

結(jié)合該RGB-D語料庫，研究人員采用掩碼深度建模方式對ViT-Large模型進(jìn)行預(yù)訓(xùn)練，通過注意力機(jī)制將度量幾何信息融入語義標(biāo)記，可有效提升RGB-D相機(jī)的空間感知質(zhì)量。

在可擴(kuò)展雙支數(shù)據(jù)整理流程、超大規(guī)模高質(zhì)量訓(xùn)練集、針對性預(yù)訓(xùn)練優(yōu)化感知這樣的全棧技術(shù)創(chuàng)新下，LingBot-Depth模型已經(jīng)有了落地到實(shí)際應(yīng)用的潛力。

因此，研究人員基于LingBot-Depth模型開展了多組實(shí)驗(yàn)驗(yàn)證，選用Orbbec Gemini-335相機(jī)作為RGB-D輸入設(shè)備，完成了3D點(diǎn)跟蹤、靈巧手抓取等典型任務(wù)的實(shí)測驗(yàn)證。

可以看到在3D點(diǎn)跟蹤案例中，當(dāng)場景包含大面積的玻璃時(shí)，原始深度傳感器會嚴(yán)重失效，經(jīng)LingBot-Depth模型優(yōu)化后的深度數(shù)據(jù)，能夠生成更加平滑和精確的相機(jī)軌跡。

▲原始相機(jī)和基于LingBot-Depth模型優(yōu)化的3D跟蹤效果對比

還有真實(shí)世界的靈巧手抓取，其采用了配備X Hand-1靈巧手的Rokae XMate-SR5機(jī)械臂、用于感知的Orbbec Gemini 335 RGB-D相機(jī)。LingBot-Depth模型在抓取高度透明物體時(shí)的成功率達(dá)到50%，但原始方法完全無法抓取。

▲靈巧手抓取成功率對比

雖然這些只是在實(shí)驗(yàn)室的測試，但這些測試場景均對標(biāo)了機(jī)器人落地應(yīng)用中的高頻實(shí)際場景，已充分展現(xiàn)出該技術(shù)方案的高實(shí)用性與落地潛力。

04.

結(jié)語：讓機(jī)器人看懂物理世界的關(guān)鍵一步

整體而言，LingBot-Depth模型在解決機(jī)器人空間感知能力核心痛點(diǎn)上更進(jìn)一步，既實(shí)現(xiàn)了感知性能的提升，又大幅降低了技術(shù)落地成本，為各類智能應(yīng)用的開發(fā)筑牢了技術(shù)基礎(chǔ)，是推動機(jī)器人真正“看懂”物理世界的關(guān)鍵突破。

對于開發(fā)者而言，其無需再從零開展空間感知的基礎(chǔ)研究，可直接基于該模型快速搭建各類應(yīng)用，這將大幅加速一眾智能設(shè)備的研發(fā)與落地進(jìn)程，讓機(jī)器人、自動駕駛汽車等產(chǎn)品更快從技術(shù)概念走進(jìn)現(xiàn)實(shí)場景。

更多>同類資訊

2025餐飲新趨勢：機(jī)器人“入局” 是效率革新還是煙火氣消逝？

02-21

春節(jié)成都科技盛宴：AI眼鏡、無弦吉他等黑科技點(diǎn)亮新春氛圍

02-21

2025年AI應(yīng)用：從試點(diǎn)到規(guī)模化落地，機(jī)遇與安全挑戰(zhàn)并存

在當(dāng)前全球數(shù)字化與智能化進(jìn)程不斷加快的背景下，人工智能技術(shù)正以前所未有的速度推動產(chǎn)業(yè)形態(tài)、業(yè)務(wù)模式及生產(chǎn)力結(jié)構(gòu)的深刻變革。2025年，AI的應(yīng)用已從局部試點(diǎn)進(jìn)入規(guī)模化、體系化落地階段，成為支撐企業(yè)運(yùn)營、產(chǎn)業(yè)…

02-21

OpenAI硬件布局再進(jìn)一步：擬2027年推智能音箱定價(jià)200-300美元引關(guān)注

02-21

OpenAI計(jì)劃明年推出AI音箱，定價(jià)200至300美元之間

02-21

AMD前高管領(lǐng)銜24人團(tuán)隊(duì)逆襲：硬編碼芯片HC1實(shí)現(xiàn)每秒17000 token新突破

02-21

麻了，我刷到的美女已經(jīng)沒有人類了

02-21

澳研究：多數(shù)人識別AI人臉能力跟不上技術(shù)發(fā)展

02-21

OpenAI下調(diào)算力支出目標(biāo)至6000億美元

02-21

網(wǎng)友用GPT 5.3 AI寫腳本清理文件，因1個符號導(dǎo)致磁盤清空

02-21

中國芯片實(shí)力獲認(rèn)可：豐田鈴木等外企選用，成本品質(zhì)雙重優(yōu)勢凸顯

02-21

中國一汽：數(shù)智化引擎驅(qū)動轉(zhuǎn)型創(chuàng)新突破引領(lǐng)民族汽車工業(yè)新跨越

02-21

OpenAI調(diào)整戰(zhàn)略：2030年算力支出目標(biāo)降至6000億推進(jìn)千億融資

02-21

從自拍到數(shù)字分身：Pika AI Selves讓你輕松「培育」專屬虛擬自我

02-21

春晚機(jī)器人武術(shù)秀引熱議：科技賦能展實(shí)力參軍前景引深思

02-21

點(diǎn)擊查看更多 +

全站最新

極氪8X全棧900V架構(gòu)：充電提速、能效升級、性能飛躍的全方位革新

極氪8X以長續(xù)航大空間破局，為混動SUV長途出行立新標(biāo)

油車加油快如閃電電車充電時(shí)長背后有何隱情？

史詩級裁決！黃金沖破5100，白銀狂飆9%！

重磅利好

雷軍“吹牛”成真！小米YU7銷量逆襲特斯拉，國產(chǎn)新能源迎來高光時(shí)刻

熱門內(nèi)容

本欄最新

中國芯片實(shí)力獲認(rèn)可：豐田鈴木等外企選用，成本品質(zhì)雙重優(yōu)勢凸顯

黃仁勛預(yù)熱GTC 2026：將推“世界前所未見”芯片突破技術(shù)極限引期待

黃仁勛預(yù)熱GTC 2026：將推“世界未見”芯片突破技術(shù)極限引期待

黃仁勛預(yù)熱GTC 2026：將推“世界前所未見”芯片突破技術(shù)極限再領(lǐng)跑

黃仁勛預(yù)熱GTC 2026：全新芯片將至英偉達(dá)突破極限再領(lǐng)跑AI算力

從對話到實(shí)干：豆包大模型2.0化身全能助手，多領(lǐng)域展現(xiàn)驚人動手能力

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

透明反光場景不掉鏈子：螞蟻靈波開源高精度空間感知模型