隨著人工智能技術的快速發展,具身智能與自動駕駛領域正經歷著深刻變革。在近期一檔名為《機器人新紀元》的視頻播客中,地瓜機器人算法副總裁隋偉博士作為首期嘉賓,深入探討了自動駕駛與具身智能的技術演進路徑。這檔節目源于制作團隊對傳播介質轉型的洞察——當讀者逐漸習慣通過音頻視頻獲取信息時,技術內容的呈現方式也需要與時俱進。
隋偉博士的學術背景橫跨兩個前沿領域。他回憶起博士期間接觸的機械臂研究,當時主要采用模塊化技術,通過3D視覺識別物體位姿并引導機械臂完成抓取。這種技術路線在2021-2022年間仍是工業操作的主流方案。2019年加入地平線公司后,他轉而研究自動駕駛技術,恰逢行業從L2向L3過渡的關鍵期。團隊當時重點攻關單目到環視感知的升級,開發深度估計與3D檢測算法,這些工作為后來的BEV感知技術奠定了基礎。
在技術遷移層面,隋偉指出自動駕駛與具身智能存在顯著共性。兩者都需要解決定位、導航、避障等基礎問題,就像不同形態的機器人都需要完成A點到B點的移動。但具身智能領域面臨著更復雜的挑戰:硬件形態尚未統一導致數據采集成本高昂,現有模型難以滿足精細化操作需求,這些因素促使研究團隊必須同時關注上游數據獲取與下游控制執行。這種特殊需求催生了專用芯片的發展,地瓜推出的旭日S600芯片與英偉達Jetson系列形成差異化競爭。
節目深入解析了BEV感知技術的突破性意義。這項起源于3D重建領域的技術,在2019-2020年間隨著特斯拉FSD的發布而引爆自動駕駛圈。傳統方案通過多視角拼接實現2D到3D的轉換,但道路起伏導致的測距誤差和視角拼接難題始終存在。BEV技術通過多視角圖像直接輸出3D空間結果,不僅解決了后處理問題,更為端到端訓練提供了空間基礎。為支撐這項技術,地平線團隊構建了包含200萬視頻片段的4D標注系統,每個片段記錄11個攝像頭在45-60秒內的時空數據。
關于端到端技術的發展階段,隋偉提出三階段劃分理論。初始階段采用視覺傳感器直接輸出動作指令,但難以處理復雜場景;中間階段引入視覺語言模型(VLM)增強常識推理能力,卻面臨雙系統同步難題;當前主流的VLA架構實現了一體化訓練,兩段式端到端屬于VLM+小模型的過渡形態。這種演進路線與大模型訓練范式高度契合,預訓練階段需要海量低成本數據,監督微調階段依賴高質量樣本,強化學習階段則通過交互反饋提升性能。
在具身機器人應用層面,工業場景呈現出明顯的形態收斂趨勢。輪式底盤搭配反弓式腰部和七自由度雙臂的組合成為主流,這種設計平衡了通用性與專用性需求。隋偉特別指出,工廠環境更看重穩定性的下限而非運動能力的上限,因此輪式方案在場景改造后可滿足大部分需求。相比之下,全人形機器人雖然具備越障潛力,但其雙足行走技術仍未突破實用化瓶頸。
針對近期引發熱議的機器人舞蹈表演,隋偉認為這不僅是技術實力的展示,更蘊含商業價值。類似無人機集群表演的市場需求已經得到驗證,機器人陣列通過編排創新完全可能形成持續吸引力。但商業化進程需要分階段推進:首先實現硬件標準化生產與穩定運行,接著在特定場景達到百萬級部署規模,最終才能向消費級市場拓展。這種路徑與自動駕駛汽車的商業化軌跡存在相似性,都需要經歷技術驗證、場景深耕、規模普及的過程。











