具身智能領域迎來一項關鍵技術進展——螞蟻數科天璣實驗室團隊開發的AoE持續性第一人稱視頻采集框架,成功攻克了低成本、規模化數據采集難題。該方案通過“手機+頸掛式支架”的輕量化組合,將傳統需要數萬美元的專業設備成本壓縮至20美元以內,為具身智能訓練提供了可復制的解決方案。相關技術論文已在國際學術平臺Arxiv公開,標志著數據采集環節的技術壁壘被實質性突破。
技術核心在于將人體自然交互過程轉化為標準化數據源。團隊設計的頸掛式支架采用人體工學結構,通過磁吸與機械夾具雙重固定方式,確保手機在胸前穩定采集第一視角畫面。這種設計不僅支持毫米級軌跡追蹤,還能保持90%以上的手部關鍵點識別精度。實驗數據顯示,在Unitree G1機器人執行關電腦任務中,僅需200條AoE采集的數據,即可將操作成功率從45%提升至95%,顯著優于傳統遙操作數據的訓練效果。
針對長視頻處理難題,研究團隊構建了端云協同的自動化流水線。端側輕量級視覺模型可實時識別手物交互行為并觸發精準錄制,大語言-視覺融合模型則將連續視頻切割為帶語義標簽的原子動作片段。云端系統進一步完成自動標注、異常數據過濾等處理,最終生成可直接用于模型訓練的結構化數據。這種處理方式使數千臺設備并發采集成為可能,同時將人工干預環節減少80%以上。
該技術的產業化應用已進入快車道。AoE框架不僅解決了數據采集的“啟動學習”問題,更通過標準化流程降低了AI訓練門檻。以金融場景為例,某銀行采用該方案后,柜員操作數據采集效率提升3倍,模型迭代周期縮短60%。這種低成本、高效率的數據生產模式,正在重塑具身智能的技術生態。
螞蟻數科的技術布局呈現明顯的產業導向特征。天璣實驗室同步推進AI+數據、AI+安全、AI+金融等四大方向,其研發的企業級大模型產品即將面世。今年初成立的“大模型技術創新部”,已啟動面向制造業、物流業的垂直領域模型開發,預計年內將落地5個以上行業解決方案。











