螞蟻集團(tuán)旗下具身智能公司靈波科技近日宣布開源其高精度空間感知模型LingBot-Depth,這一進(jìn)展為機(jī)器人與自動(dòng)駕駛領(lǐng)域帶來新的技術(shù)突破。該模型基于奧比中光Gemini 330系列雙目3D相機(jī)的原始數(shù)據(jù)開發(fā),通過提升環(huán)境深度感知與三維空間理解能力,使智能終端能夠更精準(zhǔn)地"看懂"三維世界,有效解決了傳統(tǒng)深度相機(jī)在復(fù)雜場(chǎng)景下的性能瓶頸。
在權(quán)威基準(zhǔn)測(cè)試中,LingBot-Depth展現(xiàn)出顯著優(yōu)勢(shì)。對(duì)比主流模型PromptDA與PriorDA,該模型在室內(nèi)場(chǎng)景的相對(duì)誤差(REL)降低超70%,在稀疏SfM任務(wù)中的RMSE誤差下降約47%,刷新了行業(yè)精度記錄。這一突破得益于其獨(dú)特的"掩碼深度建模"技術(shù),該技術(shù)通過融合RGB圖像的紋理、輪廓及環(huán)境上下文信息,能夠智能補(bǔ)全深度數(shù)據(jù)缺失區(qū)域,生成邊緣更清晰的三維深度圖。
針對(duì)透明玻璃、高反光鏡面等傳統(tǒng)深度相機(jī)的感知難題,LingBot-Depth通過奧比中光深度視覺實(shí)驗(yàn)室驗(yàn)證,在復(fù)雜光學(xué)場(chǎng)景下仍能輸出平滑完整的深度圖。實(shí)驗(yàn)數(shù)據(jù)顯示,搭載該模型的Gemini 330系列在透明及反光場(chǎng)景中的表現(xiàn)明顯優(yōu)于Stereolabs的ZED深度相機(jī),物體輪廓邊緣銳利度提升顯著,且無需升級(jí)傳感器硬件即可實(shí)現(xiàn)性能躍升。
支撐模型性能的核心是靈波科技構(gòu)建的龐大真實(shí)場(chǎng)景數(shù)據(jù)集。研發(fā)團(tuán)隊(duì)采集近千萬份原始樣本,篩選出200萬組高價(jià)值深度配對(duì)數(shù)據(jù)用于訓(xùn)練,其中包含200萬真實(shí)世界數(shù)據(jù)和100萬仿真數(shù)據(jù)。這套核心數(shù)據(jù)資產(chǎn)將隨模型同步開源,為行業(yè)攻克復(fù)雜場(chǎng)景空間感知難題提供關(guān)鍵資源。目前,靈波科技已與奧比中光達(dá)成戰(zhàn)略合作,雙方計(jì)劃基于該模型聯(lián)合開發(fā)新一代深度相機(jī)產(chǎn)品。
據(jù)悉,靈波科技將于近期陸續(xù)開源多款具身智能方向模型,持續(xù)推動(dòng)空間智能技術(shù)的開源生態(tài)建設(shè)。此次LingBot-Depth的開源不僅為學(xué)術(shù)界提供研究基礎(chǔ),也為工業(yè)界降低三維視覺技術(shù)應(yīng)用門檻,加速智能終端在家庭、物流、制造等場(chǎng)景的落地進(jìn)程。










