3月7日消息,據媒體報道,OpenAI正在研發一種全新的語音模型,旨在讓用戶與ChatGPT的對話更加自然流暢。這項技術的核心突破在于,當用戶在AI說話過程中打斷系統時,AI能夠實時調整回應,而不是像現在這樣突然停止。
目前ChatGPT的高級語音模式采用的是回合式對話機制,用戶必須先說完話,AI才會處理語音并生成回答。如果用戶在AI發言時插入"okay"或"mm-hm"等簡短回應,系統通常會直接停止,無法像正常對話那樣繼續推進交流。
為解決這一問題,OpenAI正在開發的BiDi(雙向語音模型)能夠持續處理說話者的語音輸入,因此在被打斷時可以立即調整回應。相比之下,現有的語音模型一旦開始生成回答,輸出內容就基本固定,無法再根據新的輸入進行變化。
這項技術目前仍處于開發階段。據知情人士透露,原型模型在持續對話幾分鐘后容易出現故障,有時甚至會發出不自然的聲音。OpenAI研究人員原本希望今年第一季度發布BiDi,但目前最新的發布時間可能推遲到第二季度或更晚。
OpenAI認為,如果語音模型能夠在性能上接近文本模型,AI的使用范圍將進一步擴大,因為大多數人更習慣與AI進行語音交流,而不是輸入文字。BiDi模型在客服場景中可能尤其有價值。
例如,當顧客與零售商的AI客服通話時,如果顧客在對話過程中臨時決定選擇換貨而非退貨,BiDi模型理論上可以讓AI客服順暢調整對話,而不會突然停止或出現混亂。
知情人士還透露,BiDi模型在調用外部工具和應用方面也更靈活。OpenAI此前表示,公司計劃為未來一款主要通過語音交互的AI設備改進語音模型,并考慮開發一款智能音箱,通過語音指令即可查看郵件或預訂服務。










