AIPress.com.cn報道
今天,螞蟻集團旗下靈波科技正式開源空間感知模型LingBot-Depth。
這是一個面向具身智能場景的深度補全模型,主要解決的問題是:傳統深度相機在遇到透明物體、玻璃表面、高反光材質時,往往無法獲取有效的深度信息,導致機器人在這些場景下抓取失敗或發生碰撞。
LingBot-Depth的技術路線是用軟件補硬件的短板。模型基于奧比中光Gemini 330系列雙目3D相機采集的RGB-Depth數據進行訓練,核心方法叫做"掩碼深度建模"。簡單說就是在訓練過程中故意遮擋一部分深度數據,讓模型學會根據RGB圖像推斷缺失的深度值。訓練完成后,當深度相機傳回的數據有缺失或噪聲時,模型可以結合彩色圖像的紋理、輪廓等信息進行補全。
官方數據顯示,在NYUv2、ETH3D等多個基準測試中,LingBot-Depth在深度補全、單目深度估計和雙目匹配任務上達到當前最優水平。在透明物體抓取的實際測試中,機器人對透明儲物盒的抓握成功率達到50%,突破了傳統傳感器難以處理的技術瓶頸。
另一個亮點是模型的時間一致性。在處理視頻輸入時,無需顯式的時序建模就能生成穩定連貫的深度序列,避免了閃爍和結構跳變問題。
在硬件適配方面,LingBot-Depth搭載在奧比中光Gemini 330系列相機上測試,官方稱效果優于業內Stereolabs的ZED深度相機。這意味著不用更換更貴的傳感器,就能提升消費級深度相機對高難場景的處理能力。
目前模型、代碼和技術報告已全部開源,后續還將開源300萬對標注數據,包括200萬對實拍RGB-D樣本和100萬對渲染樣本。靈波科技與奧比中光已達成戰略合作,計劃推出基于該模型的新一代深度相機。團隊表示,這是他們在空間智能領域的第一步,本周還將陸續發布更多具身智能方向的成果。











