谷歌近日發(fā)布了一款名為Gemini 3.1 Flash Live的語音AI模型,宣稱其能夠顯著提升語音交互的自然度和實(shí)時性,尤其在嘈雜環(huán)境下的表現(xiàn)更為突出。這款模型不僅具備更快的響應(yīng)速度,還能有效區(qū)分背景噪音與用戶語音,從而在復(fù)雜場景中保持穩(wěn)定的交互能力。
傳統(tǒng)語音AI常因延遲或環(huán)境干擾而影響用戶體驗,尤其是當(dāng)用戶身處地鐵站、咖啡廳或開著電視的客廳時,設(shè)備往往無法準(zhǔn)確識別指令,甚至反復(fù)要求用戶重復(fù)內(nèi)容。谷歌此次推出的Gemini 3.1 Flash Live針對這一問題進(jìn)行了優(yōu)化,通過增強(qiáng)對音高、語速和意圖的識別能力,同時強(qiáng)化復(fù)雜指令的遵循性,確保對話即使突然轉(zhuǎn)向也能保持連貫性。
谷歌官方博客中提到,實(shí)時交互中的每一毫秒延遲都可能破壞自然對話的流暢性。因此,Gemini 3.1 Flash Live的目標(biāo)是將語音Agent的響應(yīng)速度提升至接近人類對話的水平。相比前代模型,新版本在交通聲、電視聲等背景干擾下的任務(wù)完成率顯著提升,能夠更穩(wěn)定地觸發(fā)工具并返回信息。
這款模型的應(yīng)用場景不僅限于日常對話。谷歌展示了其在設(shè)計、陪伴和游戲三個領(lǐng)域的潛力。例如,設(shè)計師可以通過語音直接操控設(shè)計工具,AI能夠?qū)崟r理解畫布內(nèi)容并提供反饋;面向老年人的陪伴設(shè)備則利用多語言支持能力,以更自然的方式接住日常閑聊;在游戲領(lǐng)域,Gemini 3.1 Flash Live的強(qiáng)角色塑造能力為NPC賦予了更生動的表達(dá)方式,提升了玩家的沉浸感。
從技術(shù)層面看,Gemini 3.1 Flash Live通過有狀態(tài)WebSocket連接實(shí)現(xiàn)持續(xù)交互,支持音頻、圖片和文本流的低延遲傳輸。其輸入輸出均采用高采樣率音頻格式,確保語音質(zhì)量。模型還集成了工具調(diào)用、用戶打斷處理和多語言支持等功能,為開發(fā)者提供了靈活的集成方案。
谷歌已通過Gemini API和Google AI Studio開放了預(yù)覽版訪問權(quán)限,并提供了詳細(xì)的開發(fā)文檔和示例代碼。這意味著開發(fā)者可以將這一實(shí)時交互能力嵌入現(xiàn)有應(yīng)用中,而非僅限于獨(dú)立產(chǎn)品。例如,用戶未來可能在常用App中看到一個新增按鈕,通過它實(shí)現(xiàn)與AI的實(shí)時互動,涵蓋改簽航班、監(jiān)控屏幕或陪父母聊天等場景。
盡管Gemini 3.1 Flash Live展現(xiàn)了語音AI的進(jìn)步,但其大規(guī)模落地仍需解決成本、長時對話穩(wěn)定性和隱私保護(hù)等現(xiàn)實(shí)問題。例如,高頻使用是否會導(dǎo)致成本過高?多人環(huán)境下的語音分離能否保持穩(wěn)定?持續(xù)監(jiān)聽的邊界如何界定?這些問題將決定語音AI能否從實(shí)驗室走向真實(shí)生產(chǎn)環(huán)境。
目前,語音AI的競爭已從單一功能延伸至基礎(chǔ)能力層。谷歌的這次更新不僅提升了模型性能,更通過開放API和工具鏈降低了開發(fā)門檻。未來,實(shí)時交互能力可能成為應(yīng)用的標(biāo)配,而用戶與機(jī)器的溝通方式也將因此發(fā)生改變。







