螞蟻集團(tuán)旗下具身智能公司螞蟻靈波科技近日宣布,其自主研發(fā)的LingBot-VLA具身大模型及后訓(xùn)練代碼已全面開(kāi)源。該模型已與星海圖、松靈、樂(lè)聚等機(jī)器人廠商完成適配,驗(yàn)證了跨不同構(gòu)型機(jī)器人的遷移能力,為行業(yè)提供了可復(fù)用的技術(shù)框架。

在訓(xùn)練效率方面,螞蟻靈波科技構(gòu)建的后訓(xùn)練工具鏈表現(xiàn)突出。在8卡GPU配置下,該工具鏈實(shí)現(xiàn)單卡每秒處理261個(gè)樣本的吞吐量,訓(xùn)練效率較StarVLA、OpenPI等主流框架提升1.5至2.8倍,顯著降低了數(shù)據(jù)與算力成本。這一突破為大規(guī)模模型訓(xùn)練提供了更經(jīng)濟(jì)的解決方案。
基于海量真實(shí)世界數(shù)據(jù)的預(yù)訓(xùn)練研究,螞蟻靈波科技首次系統(tǒng)探索了VLA模型性能隨數(shù)據(jù)規(guī)模增長(zhǎng)的規(guī)律。實(shí)驗(yàn)顯示,當(dāng)預(yù)訓(xùn)練數(shù)據(jù)從3000小時(shí)逐步擴(kuò)展至20000小時(shí),模型在下游任務(wù)的成功率持續(xù)顯著提升。值得注意的是,即使數(shù)據(jù)量達(dá)到20000小時(shí),模型性能仍未觸及瓶頸,表明其仍具備通過(guò)增加數(shù)據(jù)量進(jìn)一步提升性能的潛力。
為支撐這一研究,螞蟻靈波科技構(gòu)建了覆蓋9種主流雙臂機(jī)器人構(gòu)型的20000小時(shí)真實(shí)訓(xùn)練數(shù)據(jù)集,包括AgileX Cobot Magic、Galaxea R1Pro等機(jī)型。在上海交通大學(xué)開(kāi)源的GM-100具身評(píng)測(cè)基準(zhǔn)測(cè)試中,LingBot-VLA在3個(gè)不同機(jī)器人平臺(tái)上的跨本體泛化平均成功率從13.0%提升至15.7%(無(wú)深度信息)。引入深度信息后,其空間感知能力進(jìn)一步增強(qiáng),平均成功率攀升至17.3%。

同期開(kāi)源的LingBot-Depth空間感知模型聚焦真實(shí)場(chǎng)景的深度補(bǔ)全需求。該模型依托奧比中光Gemini 330系列雙目3D相機(jī)進(jìn)行數(shù)據(jù)采集與驗(yàn)證,通過(guò)深度引擎芯片直出數(shù)據(jù)訓(xùn)練優(yōu)化,可將不完整、受噪聲干擾的深度傳感器數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量三維測(cè)量結(jié)果。實(shí)驗(yàn)表明,其在深度精度與像素覆蓋率兩項(xiàng)核心指標(biāo)上超越業(yè)界頂級(jí)工業(yè)級(jí)深度相機(jī),在NYUv2、ETH3D等基準(zhǔn)測(cè)試中達(dá)到當(dāng)前最優(yōu)水平,并保持視頻級(jí)時(shí)間一致性。
目前,LingBot-Depth模型已通過(guò)奧比中光深度視覺(jué)實(shí)驗(yàn)室認(rèn)證,在精度、穩(wěn)定性及復(fù)雜場(chǎng)景適應(yīng)性方面達(dá)到行業(yè)領(lǐng)先標(biāo)準(zhǔn)。這一成果為機(jī)器人、自動(dòng)駕駛汽車(chē)等智能終端提供了更精準(zhǔn)的三維視覺(jué)解決方案,推動(dòng)了具身智能技術(shù)在真實(shí)場(chǎng)景中的落地應(yīng)用。











