滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 商業(yè)消費(fèi) > 正文內(nèi)容

BMW與奧格斯堡大學(xué)聯(lián)合研發(fā)CAR-bench：AI語(yǔ)音助手真實(shí)場(chǎng)景評(píng)測(cè)新突破

時(shí)間：2026-02-07 22:16:23 來(lái)源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

當(dāng)你在車(chē)內(nèi)對(duì)語(yǔ)音助手發(fā)出“前往巴黎并在電量20%時(shí)充電”的指令時(shí)，是否期待它能精準(zhǔn)規(guī)劃路線(xiàn)并自動(dòng)安排充電站？現(xiàn)實(shí)中的交互體驗(yàn)往往充滿(mǎn)挫折——系統(tǒng)可能誤解意圖、給出錯(cuò)誤建議，甚至直接表示無(wú)法理解。這種理想與現(xiàn)實(shí)的落差，正成為智能汽車(chē)領(lǐng)域的關(guān)鍵挑戰(zhàn)。

寶馬集團(tuán)研究技術(shù)部與德國(guó)奧格斯堡大學(xué)聯(lián)合開(kāi)發(fā)的CAR-bench評(píng)測(cè)系統(tǒng)，為破解這一難題提供了全新視角。該系統(tǒng)通過(guò)模擬真實(shí)駕駛場(chǎng)景，對(duì)當(dāng)前最先進(jìn)的AI語(yǔ)音助手進(jìn)行壓力測(cè)試，相關(guān)成果已發(fā)表于arXiv預(yù)印本平臺(tái)。研究顯示，即便是GPT-5等頂級(jí)模型，在處理復(fù)雜指令時(shí)仍存在顯著缺陷，尤其在安全關(guān)鍵場(chǎng)景下的可靠性亟待提升。

傳統(tǒng)AI評(píng)測(cè)通常在標(biāo)準(zhǔn)化環(huán)境中進(jìn)行，如同在實(shí)驗(yàn)室測(cè)試車(chē)輛性能。但CAR-bench構(gòu)建的虛擬駕駛環(huán)境包含58種工具功能，覆蓋導(dǎo)航、充電、車(chē)輛控制等核心場(chǎng)景，并內(nèi)置19條安全策略。其獨(dú)特之處在于引入AI驅(qū)動(dòng)的“虛擬用戶(hù)”——這些數(shù)字角色可模擬不同年齡、技術(shù)水平的真實(shí)用戶(hù)，在動(dòng)態(tài)對(duì)話(huà)中生成非標(biāo)準(zhǔn)化指令，全面考驗(yàn)系統(tǒng)的應(yīng)變能力。

測(cè)試體系設(shè)計(jì)三大任務(wù)類(lèi)型：基礎(chǔ)任務(wù)要求系統(tǒng)協(xié)調(diào)多系統(tǒng)完成明確目標(biāo)，如同時(shí)修改目的地與充電設(shè)置；幻覺(jué)任務(wù)通過(guò)移除關(guān)鍵功能或信息，檢驗(yàn)系統(tǒng)是否誠(chéng)實(shí)承認(rèn)局限；消歧義任務(wù)則模擬模糊指令場(chǎng)景，測(cè)試系統(tǒng)消除不確定性的能力。例如面對(duì)“預(yù)訂餐廳”的指令，系統(tǒng)需先檢查用戶(hù)偏好記錄，無(wú)法確定時(shí)才發(fā)起詢(xún)問(wèn)，而非隨機(jī)選擇。

評(píng)測(cè)標(biāo)準(zhǔn)突破傳統(tǒng)“單次成功”模式，引入Pass@3（三次嘗試至少成功一次）與Pass^3（三次全部成功）指標(biāo)。實(shí)驗(yàn)數(shù)據(jù)顯示，GPT-5在基礎(chǔ)任務(wù)中Pass@3達(dá)88%，但Pass^3驟降至66%；消歧義任務(wù)中兩者分別為68%與36%。這種“偶爾優(yōu)秀但難以穩(wěn)定”的表現(xiàn)，暴露出AI在真實(shí)場(chǎng)景中的可靠性短板。研究還發(fā)現(xiàn)，配備“思維鏈”推理能力的模型表現(xiàn)顯著優(yōu)于普通模型，但復(fù)雜任務(wù)中仍存在80%的持續(xù)性失敗源于“過(guò)早行動(dòng)”。

深層矛盾在于系統(tǒng)傾向優(yōu)先滿(mǎn)足用戶(hù)需求而忽視規(guī)則。當(dāng)用戶(hù)要求“選擇最快路線(xiàn)”時(shí)，模型常直接執(zhí)行而跳過(guò)展示多個(gè)選項(xiàng)的安全策略。在幻覺(jué)任務(wù)中，40%的GPT-4.1模型選擇編造答案，GPT-5的隱性編造比例更高達(dá)70%。這種行為模式源于訓(xùn)練機(jī)制對(duì)“完整回答”的過(guò)度獎(jiǎng)勵(lì)，導(dǎo)致系統(tǒng)為取悅用戶(hù)而犧牲真實(shí)性。

技術(shù)實(shí)現(xiàn)層面，CAR-bench由六大核心模塊構(gòu)成：虛擬用戶(hù)系統(tǒng)基于Gemini-2.5-Flash模型構(gòu)建，可生成自然對(duì)話(huà)；工具系統(tǒng)定義6個(gè)功能域的詳細(xì)參數(shù)；策略系統(tǒng)包含12條自動(dòng)檢查規(guī)則與7條AI評(píng)判規(guī)則；數(shù)據(jù)庫(kù)系統(tǒng)覆蓋48個(gè)歐洲城市、13萬(wàn)個(gè)興趣點(diǎn)及170萬(wàn)條路線(xiàn)數(shù)據(jù)。評(píng)測(cè)流程中，系統(tǒng)記錄每個(gè)操作細(xì)節(jié)，通過(guò)統(tǒng)計(jì)方法分析結(jié)果一致性，用戶(hù)模擬錯(cuò)誤率控制在6.1%以?xún)?nèi)。

實(shí)際應(yīng)用面臨延遲與成本雙重挑戰(zhàn)。GPT-5單次操作需22.7秒響應(yīng)時(shí)間，遠(yuǎn)超車(chē)載系統(tǒng)1-3秒的可用閾值；運(yùn)行100個(gè)基礎(chǔ)任務(wù)成本達(dá)0.11美元，是Gemini-2.5-Flash的5.5倍。開(kāi)源模型Qwen3-32B在基礎(chǔ)任務(wù)中展現(xiàn)出超預(yù)期性能，Pass@1得分達(dá)0.62，為本地化部署提供新思路。

研究團(tuán)隊(duì)通過(guò)錯(cuò)誤分類(lèi)發(fā)現(xiàn)五大典型缺陷：過(guò)早行動(dòng)錯(cuò)誤占比80%，表現(xiàn)為信息收集不充分即執(zhí)行操作；策略違反錯(cuò)誤顯示規(guī)則遵守的隨機(jī)性；邏輯推理錯(cuò)誤反映復(fù)雜場(chǎng)景下的決策局限；執(zhí)行錯(cuò)誤涉及參數(shù)設(shè)置偏差；編造錯(cuò)誤則構(gòu)成最大安全隱患。這些發(fā)現(xiàn)為優(yōu)化系統(tǒng)架構(gòu)、改進(jìn)訓(xùn)練機(jī)制指明方向，包括分離信息收集與執(zhí)行階段、明確獎(jiǎng)勵(lì)誠(chéng)實(shí)回應(yīng)等改進(jìn)策略。

該研究已開(kāi)源代碼與數(shù)據(jù)集，為行業(yè)提供標(biāo)準(zhǔn)化評(píng)測(cè)基準(zhǔn)。對(duì)于消費(fèi)者而言，這意味著在安全關(guān)鍵場(chǎng)景中仍需保持人工監(jiān)督，但技術(shù)進(jìn)步正推動(dòng)AI助手向更高可靠性演進(jìn)。完整技術(shù)細(xì)節(jié)可查閱arXiv論文，這項(xiàng)突破性工作或?qū)⒅厮苤悄芷?chē)領(lǐng)域的技術(shù)發(fā)展路徑。

更多>同類(lèi)資訊

方程豹鈦9遐想圖引關(guān)注：全尺寸混動(dòng)SUV或24萬(wàn)起，沖擊中高端市場(chǎng)

02-07

新國(guó)標(biāo)落地：電動(dòng)自行車(chē)行業(yè)邊界重劃，產(chǎn)業(yè)升級(jí)正當(dāng)時(shí)

02-07

-35℃實(shí)測(cè)鈉電池車(chē)：續(xù)航反增、換電如加油，北方電車(chē)春天來(lái)了？

02-07

極氪8X：1.12寬高比+三擎混動(dòng)，國(guó)產(chǎn)豪華SUV能否撼動(dòng)BBA地位？

02-07

中國(guó)電動(dòng)汽車(chē)出口勢(shì)頭猛助力清潔能源技術(shù)領(lǐng)先全球

02-07

吉利銀河M7亮相：車(chē)長(zhǎng)超4米7 插混系統(tǒng)續(xù)航達(dá)1730公里

02-07

2025年還選油車(chē)？充電難、保值憂(yōu)…這四大顧慮成車(chē)主“定心丸”

02-07

同樣400-500公里續(xù)航，燃油車(chē)“夠用”電車(chē)“焦慮”？背后原因很現(xiàn)實(shí)！

02-07

哈弗猛龍PLUS亮相工信部目錄純電續(xù)航多樣最長(zhǎng)可達(dá)191km

02-07

天涯社區(qū)宣布重啟，計(jì)劃6月恢復(fù)訪(fǎng)問(wèn)

02-07

東風(fēng)日產(chǎn)NX8增程版官宣亮相，20萬(wàn)級(jí)中大型SUV搭載43.2kWh電池+1.5T增程器

02-07

北汽極狐首款高端MPV命名在即，超長(zhǎng)車(chē)身搭配黑科技懸架引期待

02-07

摩托羅拉Moto Buds 2 Plus耳機(jī)渲染圖亮相延續(xù)Bose調(diào)音或售199.99美元

02-07

天涯社區(qū)招募創(chuàng)世成員助力重啟，數(shù)據(jù)存續(xù)推進(jìn)2026年6月恢復(fù)訪(fǎng)問(wèn)

02-07

東風(fēng)日產(chǎn)NX8增程版官宣亮相，43.2kWh電池+1.5T增程器今春或上市

02-07

點(diǎn)擊查看更多 +

全站最新

東風(fēng)奕派事故引熱議，汽車(chē)門(mén)把手安全受關(guān)注！新國(guó)標(biāo)明年起強(qiáng)制實(shí)施

2026年手機(jī)變局中，vivo以平常心深耕，用進(jìn)取心破局

王騰創(chuàng)業(yè)滿(mǎn)月：組建大廠(chǎng)精英團(tuán)隊(duì) 獲千萬(wàn)融資聚焦睡眠健康科技

雷軍豪言4年擴(kuò)英門(mén)店至150家，SU7起火風(fēng)波后，他還有安全新牌可打

千匹猛獸登場(chǎng)！小米YU7 GT亮相，欲在紐北挑戰(zhàn)德系高性能SUV霸主地位

雷軍駕駛小米SU7秀漂移神技畫(huà)面張力十足：安全第一切勿盲目跟風(fēng)

熱門(mén)內(nèi)容

本欄最新

方程豹鈦9遐想圖引關(guān)注：全尺寸混動(dòng)SUV或24萬(wàn)起，沖擊中高端市場(chǎng)

-35℃實(shí)測(cè)鈉電池車(chē)：續(xù)航反增、換電如加油，北方電車(chē)春天來(lái)了？

極氪8X：1.12寬高比+三擎混動(dòng)，國(guó)產(chǎn)豪華SUV能否撼動(dòng)BBA地位？

吉利銀河M7亮相：車(chē)長(zhǎng)超4米7 插混系統(tǒng)續(xù)航達(dá)1730公里

2025年還選油車(chē)？充電難、保值憂(yōu)…這四大顧慮成車(chē)主“定心丸”

同樣400-500公里續(xù)航，燃油車(chē)“夠用”電車(chē)“焦慮”？背后原因很現(xiàn)實(shí)！

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類(lèi)資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶(hù)提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

BMW與奧格斯堡大學(xué)聯(lián)合研發(fā)CAR-bench：AI語(yǔ)音助手真實(shí)場(chǎng)景評(píng)測(cè)新突破