當(dāng)你在車(chē)內(nèi)對(duì)語(yǔ)音助手發(fā)出“前往巴黎并在電量20%時(shí)充電”的指令時(shí),是否期待它能精準(zhǔn)規(guī)劃路線(xiàn)并自動(dòng)安排充電站?現(xiàn)實(shí)中的交互體驗(yàn)往往充滿(mǎn)挫折——系統(tǒng)可能誤解意圖、給出錯(cuò)誤建議,甚至直接表示無(wú)法理解。這種理想與現(xiàn)實(shí)的落差,正成為智能汽車(chē)領(lǐng)域的關(guān)鍵挑戰(zhàn)。
寶馬集團(tuán)研究技術(shù)部與德國(guó)奧格斯堡大學(xué)聯(lián)合開(kāi)發(fā)的CAR-bench評(píng)測(cè)系統(tǒng),為破解這一難題提供了全新視角。該系統(tǒng)通過(guò)模擬真實(shí)駕駛場(chǎng)景,對(duì)當(dāng)前最先進(jìn)的AI語(yǔ)音助手進(jìn)行壓力測(cè)試,相關(guān)成果已發(fā)表于arXiv預(yù)印本平臺(tái)。研究顯示,即便是GPT-5等頂級(jí)模型,在處理復(fù)雜指令時(shí)仍存在顯著缺陷,尤其在安全關(guān)鍵場(chǎng)景下的可靠性亟待提升。
傳統(tǒng)AI評(píng)測(cè)通常在標(biāo)準(zhǔn)化環(huán)境中進(jìn)行,如同在實(shí)驗(yàn)室測(cè)試車(chē)輛性能。但CAR-bench構(gòu)建的虛擬駕駛環(huán)境包含58種工具功能,覆蓋導(dǎo)航、充電、車(chē)輛控制等核心場(chǎng)景,并內(nèi)置19條安全策略。其獨(dú)特之處在于引入AI驅(qū)動(dòng)的“虛擬用戶(hù)”——這些數(shù)字角色可模擬不同年齡、技術(shù)水平的真實(shí)用戶(hù),在動(dòng)態(tài)對(duì)話(huà)中生成非標(biāo)準(zhǔn)化指令,全面考驗(yàn)系統(tǒng)的應(yīng)變能力。
測(cè)試體系設(shè)計(jì)三大任務(wù)類(lèi)型:基礎(chǔ)任務(wù)要求系統(tǒng)協(xié)調(diào)多系統(tǒng)完成明確目標(biāo),如同時(shí)修改目的地與充電設(shè)置;幻覺(jué)任務(wù)通過(guò)移除關(guān)鍵功能或信息,檢驗(yàn)系統(tǒng)是否誠(chéng)實(shí)承認(rèn)局限;消歧義任務(wù)則模擬模糊指令場(chǎng)景,測(cè)試系統(tǒng)消除不確定性的能力。例如面對(duì)“預(yù)訂餐廳”的指令,系統(tǒng)需先檢查用戶(hù)偏好記錄,無(wú)法確定時(shí)才發(fā)起詢(xún)問(wèn),而非隨機(jī)選擇。
評(píng)測(cè)標(biāo)準(zhǔn)突破傳統(tǒng)“單次成功”模式,引入Pass@3(三次嘗試至少成功一次)與Pass^3(三次全部成功)指標(biāo)。實(shí)驗(yàn)數(shù)據(jù)顯示,GPT-5在基礎(chǔ)任務(wù)中Pass@3達(dá)88%,但Pass^3驟降至66%;消歧義任務(wù)中兩者分別為68%與36%。這種“偶爾優(yōu)秀但難以穩(wěn)定”的表現(xiàn),暴露出AI在真實(shí)場(chǎng)景中的可靠性短板。研究還發(fā)現(xiàn),配備“思維鏈”推理能力的模型表現(xiàn)顯著優(yōu)于普通模型,但復(fù)雜任務(wù)中仍存在80%的持續(xù)性失敗源于“過(guò)早行動(dòng)”。
深層矛盾在于系統(tǒng)傾向優(yōu)先滿(mǎn)足用戶(hù)需求而忽視規(guī)則。當(dāng)用戶(hù)要求“選擇最快路線(xiàn)”時(shí),模型常直接執(zhí)行而跳過(guò)展示多個(gè)選項(xiàng)的安全策略。在幻覺(jué)任務(wù)中,40%的GPT-4.1模型選擇編造答案,GPT-5的隱性編造比例更高達(dá)70%。這種行為模式源于訓(xùn)練機(jī)制對(duì)“完整回答”的過(guò)度獎(jiǎng)勵(lì),導(dǎo)致系統(tǒng)為取悅用戶(hù)而犧牲真實(shí)性。
技術(shù)實(shí)現(xiàn)層面,CAR-bench由六大核心模塊構(gòu)成:虛擬用戶(hù)系統(tǒng)基于Gemini-2.5-Flash模型構(gòu)建,可生成自然對(duì)話(huà);工具系統(tǒng)定義6個(gè)功能域的詳細(xì)參數(shù);策略系統(tǒng)包含12條自動(dòng)檢查規(guī)則與7條AI評(píng)判規(guī)則;數(shù)據(jù)庫(kù)系統(tǒng)覆蓋48個(gè)歐洲城市、13萬(wàn)個(gè)興趣點(diǎn)及170萬(wàn)條路線(xiàn)數(shù)據(jù)。評(píng)測(cè)流程中,系統(tǒng)記錄每個(gè)操作細(xì)節(jié),通過(guò)統(tǒng)計(jì)方法分析結(jié)果一致性,用戶(hù)模擬錯(cuò)誤率控制在6.1%以?xún)?nèi)。
實(shí)際應(yīng)用面臨延遲與成本雙重挑戰(zhàn)。GPT-5單次操作需22.7秒響應(yīng)時(shí)間,遠(yuǎn)超車(chē)載系統(tǒng)1-3秒的可用閾值;運(yùn)行100個(gè)基礎(chǔ)任務(wù)成本達(dá)0.11美元,是Gemini-2.5-Flash的5.5倍。開(kāi)源模型Qwen3-32B在基礎(chǔ)任務(wù)中展現(xiàn)出超預(yù)期性能,Pass@1得分達(dá)0.62,為本地化部署提供新思路。
研究團(tuán)隊(duì)通過(guò)錯(cuò)誤分類(lèi)發(fā)現(xiàn)五大典型缺陷:過(guò)早行動(dòng)錯(cuò)誤占比80%,表現(xiàn)為信息收集不充分即執(zhí)行操作;策略違反錯(cuò)誤顯示規(guī)則遵守的隨機(jī)性;邏輯推理錯(cuò)誤反映復(fù)雜場(chǎng)景下的決策局限;執(zhí)行錯(cuò)誤涉及參數(shù)設(shè)置偏差;編造錯(cuò)誤則構(gòu)成最大安全隱患。這些發(fā)現(xiàn)為優(yōu)化系統(tǒng)架構(gòu)、改進(jìn)訓(xùn)練機(jī)制指明方向,包括分離信息收集與執(zhí)行階段、明確獎(jiǎng)勵(lì)誠(chéng)實(shí)回應(yīng)等改進(jìn)策略。
該研究已開(kāi)源代碼與數(shù)據(jù)集,為行業(yè)提供標(biāo)準(zhǔn)化評(píng)測(cè)基準(zhǔn)。對(duì)于消費(fèi)者而言,這意味著在安全關(guān)鍵場(chǎng)景中仍需保持人工監(jiān)督,但技術(shù)進(jìn)步正推動(dòng)AI助手向更高可靠性演進(jìn)。完整技術(shù)細(xì)節(jié)可查閱arXiv論文,這項(xiàng)突破性工作或?qū)⒅厮苤悄芷?chē)領(lǐng)域的技術(shù)發(fā)展路徑。













