4月9日消息,字節(jié)跳動正式推出原生全雙工語音大模型Seeduplex,基于“邊聽邊說”的全新架構(gòu),徹底打破傳統(tǒng)AI語音交互“一問一答”的局限,實現(xiàn)自然實時對話。
目前Seeduplex已在豆包App全量落地,成為行業(yè)內(nèi)首個規(guī)模化應(yīng)用的全雙工語音大模型。
Seeduplex的核心突破的是改變了傳統(tǒng)半雙工“聽完再說”的交互模式,真正實現(xiàn)了聽與說的同步處理,其中兩大核心能力得到重點突破:
精準(zhǔn)抗干擾:模型具備持續(xù)的“傾聽”能力,從而能更好地理解用戶所處的聲學(xué)環(huán)境,準(zhǔn)確忽略背景噪音和無關(guān)對話。在復(fù)雜場景下,相比半雙工模型,其誤回復(fù)率和誤打斷率減少了一半。
動態(tài)判停:模型能聯(lián)合語音和語義特征,綜合判斷用戶意圖,可實現(xiàn)更自然的對話節(jié)奏控制。面對用戶的思考猶豫,模型能耐心傾聽;在用戶說完后,又能快速響應(yīng)。相比半雙工模型,其搶話比例相對下降了40%。
多維度評測顯示,Seeduplex在對話的流暢度和節(jié)奏感上,均顯著優(yōu)于傳統(tǒng)的半雙工方案及行業(yè)主流App的語音通話功能;在判停表現(xiàn)上,模型相比半雙工方案提升了8%,展現(xiàn)出更接近自然對話的分寸感。
對話流暢度MOS分提升12%,整體通話滿意度提升8.34%,其打斷響應(yīng)表現(xiàn)已略優(yōu)于真人對話平均水平,讓人機(jī)交互更貼近自然交流狀態(tài)。
工程落地方面,該模型依托字節(jié)跳動自研LLM底座,通過架構(gòu)創(chuàng)新、海量語音預(yù)訓(xùn)練、推理優(yōu)化及穩(wěn)定性保障,有效解決了高并發(fā)場景下的卡頓問題,可支持億級用戶穩(wěn)定使用。
目前,用戶更新至豆包App最新版,在“打電話”語音通話界面即可體驗該功能。










