在智能科技飛速發(fā)展的當(dāng)下,自動(dòng)駕駛與具身智能機(jī)器人領(lǐng)域正經(jīng)歷著前所未有的變革。2025年末,首批L3級(jí)自動(dòng)駕駛車型獲得準(zhǔn)入,標(biāo)志著中國(guó)智能駕駛產(chǎn)業(yè)正式邁入新紀(jì)元。與此同時(shí),具身智能機(jī)器人領(lǐng)域在過(guò)去一年間也取得了令人矚目的進(jìn)展,從年初抓取蘋(píng)果都困難重重,到如今疊衣服成為行業(yè)入門(mén)任務(wù),甚至穿鞋帶這樣曾被視為遙不可及的精細(xì)操作也已被成功攻克。
在這場(chǎng)技術(shù)躍遷的背后,VLA(Vision-Language-Action,視覺(jué)語(yǔ)言動(dòng)作大模型)技術(shù)扮演著至關(guān)重要的角色。與傳統(tǒng)的端到端模型不同,VLA將語(yǔ)言理解與推理能力引入物理世界的決策鏈路,賦予機(jī)器“看了就懂、懂了就做”的認(rèn)知能力。這一創(chuàng)新性的技術(shù)框架,不僅為自動(dòng)駕駛和機(jī)器人領(lǐng)域帶來(lái)了新的發(fā)展機(jī)遇,也引發(fā)了行業(yè)內(nèi)的廣泛關(guān)注和討論。
自動(dòng)駕駛領(lǐng)域,VLA技術(shù)的引入旨在解決傳統(tǒng)算法在長(zhǎng)尾問(wèn)題上的泛化性不足。傳統(tǒng)自動(dòng)駕駛系統(tǒng)通常依賴模塊化設(shè)計(jì),包括感知、預(yù)測(cè)和規(guī)控等模塊,但這些模塊在面對(duì)復(fù)雜多變的道路場(chǎng)景時(shí),往往難以做出準(zhǔn)確決策。而VLA技術(shù)則通過(guò)引入語(yǔ)言模態(tài),利用大模型的泛化能力和推理能力,使自動(dòng)駕駛系統(tǒng)能夠在遇到未見(jiàn)過(guò)的場(chǎng)景時(shí),通過(guò)思考和推理做出更合理的決策。例如,在施工場(chǎng)景中,VLA技術(shù)能夠理解各種非結(jié)構(gòu)化的標(biāo)識(shí)牌,并據(jù)此規(guī)劃出安全的行駛路線。
在機(jī)器人領(lǐng)域,VLA技術(shù)的應(yīng)用同樣廣泛。具身智能機(jī)器人需要完成各種復(fù)雜任務(wù),這些任務(wù)往往涉及長(zhǎng)程規(guī)劃和精細(xì)操作。VLA技術(shù)通過(guò)語(yǔ)言模態(tài),使機(jī)器人能夠理解人類指令,并將任務(wù)拆解為一系列子任務(wù)來(lái)執(zhí)行。例如,當(dāng)機(jī)器人聽(tīng)到“幫我做一杯咖啡”的指令時(shí),它能夠?qū)⑦@一抽象指令分解為拿出杯子、倒入咖啡粉、加入熱水等具體動(dòng)作原語(yǔ),并依次執(zhí)行。這種能力極大地提升了機(jī)器人的靈活性和適應(yīng)性,使其能夠更好地融入人類生活。
然而,VLA技術(shù)的興起也伴隨著爭(zhēng)議。在2025年世界機(jī)器人大會(huì)上,宇樹(shù)科技創(chuàng)始人王興興公開(kāi)質(zhì)疑這一技術(shù)路線,認(rèn)為其在安全性、準(zhǔn)確率和效率等方面存在不足。這一質(zhì)疑引發(fā)了行業(yè)內(nèi)的熱議,也促使研究者們更加深入地思考VLA技術(shù)的本質(zhì)、挑戰(zhàn)與前景。
針對(duì)VLA技術(shù)的爭(zhēng)議,小米汽車智能駕駛VLA技術(shù)負(fù)責(zé)人陳龍和上海交通大學(xué)計(jì)算機(jī)學(xué)院助理教授穆堯從不同角度進(jìn)行了回應(yīng)。陳龍認(rèn)為,VLA技術(shù)雖然目前存在一些問(wèn)題,如效率不高、幻覺(jué)問(wèn)題等,但其潛力巨大,是現(xiàn)階段最能實(shí)現(xiàn)物理世界AGI(通用人工智能)的框架之一。他強(qiáng)調(diào),語(yǔ)言是人類智慧的結(jié)晶,互聯(lián)網(wǎng)上的大量數(shù)據(jù)融合了人類的很多智慧,VLA技術(shù)通過(guò)利用這些數(shù)據(jù),能夠?qū)W習(xí)到人類對(duì)世界的定義和價(jià)值觀,從而做出更合理的決策。
穆堯則從機(jī)器人領(lǐng)域的角度出發(fā),認(rèn)為VLA技術(shù)為機(jī)器人帶來(lái)了前所未有的機(jī)會(huì)。他指出,具身智能機(jī)器人與傳統(tǒng)的機(jī)器人研究不同,更關(guān)注泛化性,包括對(duì)場(chǎng)景的泛化性、視覺(jué)和物理上的泛化性等。VLA技術(shù)通過(guò)引入語(yǔ)言模態(tài),使機(jī)器人能夠更好地理解人類指令,并在復(fù)雜環(huán)境中做出靈活應(yīng)對(duì)。雖然目前VLA技術(shù)在機(jī)器人領(lǐng)域的應(yīng)用還面臨一些挑戰(zhàn),如數(shù)據(jù)獲取困難、模型部署復(fù)雜等,但隨著技術(shù)的不斷發(fā)展,這些問(wèn)題有望逐步得到解決。
在探討VLA技術(shù)的未來(lái)發(fā)展方向時(shí),陳龍和穆堯都提到了數(shù)據(jù)的重要性。陳龍指出,自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)獲取相對(duì)容易,因?yàn)樗信茉诼飞系能嚩伎梢曰亓髯鳛閷<覕?shù)據(jù)。而機(jī)器人領(lǐng)域的數(shù)據(jù)獲取則困難得多,目前主要依賴仿真合成數(shù)據(jù)和人類采集數(shù)據(jù)。為了解決這一問(wèn)題,穆堯提出了“人-數(shù)字人-機(jī)器人”一體的架構(gòu),希望通過(guò)搭建從人的行為到機(jī)器人行為的調(diào)節(jié)管道,提高人類數(shù)據(jù)的利用效率,并為仿真合成數(shù)據(jù)注入人類豐富的行為信息。
除了數(shù)據(jù)問(wèn)題外,VLA技術(shù)的安全性也是研究者們關(guān)注的焦點(diǎn)。在自動(dòng)駕駛和機(jī)器人與人類交互的過(guò)程中,安全性是至關(guān)重要的。穆堯認(rèn)為,強(qiáng)化學(xué)習(xí)是提升VLA技術(shù)安全性的有效手段之一。通過(guò)強(qiáng)化學(xué)習(xí),可以使機(jī)器人在意識(shí)層面和行為動(dòng)作層面都更加安全可靠。陳龍則強(qiáng)調(diào)了系統(tǒng)層面上的安全性冗余設(shè)計(jì),他認(rèn)為在自動(dòng)駕駛這樣對(duì)安全性要求極高的場(chǎng)景中,需要多個(gè)網(wǎng)絡(luò)做兜底,以確保在VLA模型出現(xiàn)錯(cuò)誤時(shí)能夠及時(shí)做出安全操作。
在實(shí)時(shí)性方面,VLA技術(shù)也面臨一定的挑戰(zhàn)。由于語(yǔ)言決策邏輯的加入,模型的響應(yīng)時(shí)間可能會(huì)變長(zhǎng)。為了解決這一問(wèn)題,研究者們提出了多種方案。例如,采用雙系統(tǒng)設(shè)計(jì),將VLA作為慢通路負(fù)責(zé)深度思考,同時(shí)采用另一個(gè)快系統(tǒng)負(fù)責(zé)快速響應(yīng);或者采用異步推理設(shè)計(jì),使推理和執(zhí)行過(guò)程并行進(jìn)行,以提高系統(tǒng)的整體響應(yīng)速度。這些方案都在一定程度上緩解了VLA技術(shù)的實(shí)時(shí)性問(wèn)題。





