2025年末,中國智能駕駛產業迎來重要里程碑——首批L3級自動駕駛車型正式獲得市場準入。與此同時,具身智能機器人領域在過去一年中也取得了突破性進展,從初期連抓取蘋果都困難重重,到如今疊衣服成為行業入門任務,甚至掌握了穿鞋帶這類曾被視為高難度的精細操作技能。
在這場技術變革中,一項名為VLA(視覺語言動作大模型)的技術正成為連接自動駕駛與具身智能的關鍵紐帶。與傳統端到端模型直接將視覺信號映射為動作的"條件反射"式決策不同,VLA通過引入語言理解與推理能力,使機器具備了"觀察-理解-執行"的完整認知鏈條。這種技術范式轉變,正在重新定義物理世界中的人工智能發展路徑。
VLA技術的興起也引發了行業爭議。在2025年世界機器人大會上,宇樹科技創始人王興興公開質疑該技術路線,認為其可靠性尚未達到工業應用標準。這場爭論背后,折射出軟件與硬件、泛化性與可靠性、學術探索與商業落地之間的深層矛盾。為深入探討這一前沿技術,記者專訪了小米汽車智能駕駛VLA技術負責人陳龍和上海交通大學計算機學院助理教授穆堯。
據陳龍介紹,VLA技術的核心在于利用大語言模型的泛化能力,結合互聯網預訓練獲得的通識知識,通過語言模態的推理機制解決現實世界中的復雜決策問題。在自動駕駛場景中,當車輛遇到未見過的新奇場景時,系統需要調動知識儲備進行推理判斷,而非簡單依賴歷史數據。穆堯則強調,具身智能機器人通過VLA技術獲得了三大突破:語言交互能力、開放場景泛化性,以及動作執行能力。雖然精細操作能力已有顯著提升,但距離工業級可靠性標準仍有差距。
傳統機器人系統通常針對特定場景開發,采用規劃加力控或強化學習的方法實現單一任務。當具身智能要求機器人適應多任務、開放場景時,VLA技術提供了重要解決方案。以家庭場景為例,機器人需要理解"幫我泡杯咖啡"這類非標準化指令,將其拆解為取杯、注水、攪拌等子任務序列。這種能力在工業場景同樣重要,柔性生產線需要機器人適應不同零件的隨機到達。
端到端自動駕駛通過單一模型直接處理傳感器輸入到駕駛信號的轉換,雖然解決了傳統模塊化系統的規則設計難題,但存在決策黑箱化和長尾場景泛化不足的問題。VLA技術通過引入語言解釋機制,不僅提高了決策透明度,還能利用互聯網預訓練知識增強推理能力。例如在施工場景中,系統可以理解不同標識牌的含義,即使遇到非標準化指示也能做出合理決策。
長尾問題和泛化能力是智能系統面臨的共同挑戰。穆堯指出,機器人領域的長尾場景包括操作失誤恢復、動態障礙物避讓等復雜情況。陳龍則以自動駕駛為例,說明不同地區的交通標識差異可能造成系統困惑。VLA技術通過結合視覺感知與語言推理,能夠更好地處理這些非結構化信號。在路徑規劃方面,系統可以利用語言模態實現長時記憶,避免重復進入死胡同。
針對"VLA是否僅在視覺與動作間增加語言層"的疑問,陳龍明確表示這是范式轉變。傳統視覺動作模型缺乏思考能力,而VLA通過認知驅動機制,利用大模型的知識儲備解決復雜問題。穆堯補充說,機器人VLA系統需要處理更復雜的任務拆解,將抽象指令轉化為具體動作原語。當前主流模型參數量在3B至8B之間,尚未達到真正"大腦"級別,但已展現出重要潛力。
在系統架構方面,行業普遍采用端云協同方案。13B以上參數的大型模型通常部署在云端,負責復雜推理任務;端側或邊端設備運行較小模型,處理實時控制需求。這種分層架構既保證了決策質量,又滿足了系統響應要求。小米近期開源的跨模態基礎模型,通過融合自動駕駛和機器人數據,驗證了空間感知能力的可遷移性。
數據獲取是制約技術發展的關鍵因素。自動駕駛領域具有天然優勢,每輛上路汽車都能持續回傳訓練數據,形成數據飛輪效應。相比之下,具身智能機器人缺乏成熟產品,數據采集規模有限。學術界正在探索仿真合成數據、便攜式采集設備等解決方案。穆堯提出的"人-數字人-機器人"三位一體管線,通過人類行為數據轉化,顯著提升了數據利用效率。
安全性是智能系統商業化必須跨越的門檻。穆堯認為,強化學習是提升安全性的重要工具,既能實現意識層面的安全對齊,也能優化動作執行精度。陳龍則強調自動駕駛的特殊性,指出系統需要多重安全冗余。在實際運行中,VLA模型會與傳統感知規控網絡并行工作,通過安全檢查機制確保決策可靠性。
實時性要求對系統設計構成重大挑戰。自動駕駛需要至少10Hz的決策頻率,這對VLA模型的推理效率提出嚴苛要求。行業正在探索雙系統架構,將深度思考與快速響應分離。穆堯指出,機器人領域更關注動作執行延遲,通過異步推理和并行計算等技術手段,3B參數模型已能實現15Hz的響應頻率。工程優化和模型輕量化是提升系統流暢度的關鍵方向。
針對系統遺忘問題,研究者提出了多種解決方案。訓練階段通過擴大預訓練數據規模,可以緩解災難性遺忘現象。推理階段則采用上下文窗口壓縮技術,只保留關鍵歷史信息。穆堯介紹,機器人系統通過記憶令牌嵌入或顯式總結機制,實現了有效的工作記憶管理。這些技術使系統能夠專注于當前任務,無需處理無關歷史信息。








