字節跳動旗下Seed團隊近日推出原生全雙工語音大模型Seeduplex,并已在豆包App實現全量上線。這項突破性技術標志著語音交互從“回合制問答”向“實時自然對話”的跨越,用戶無需等待AI逐句響應,即可體驗邊聽邊說、動態交互的流暢對話模式。
在咖啡廳嘈雜環境中測試時,Seeduplex展現出精準抗干擾能力。當用戶突然轉向服務員點單時,模型不僅未將無關對話誤認為指令,還能在環境噪音中保持靜默等待,待用戶結束點單后無縫銜接原有話題。這種能力源于模型對原始音頻信號的直接解析,通過聲學特征提取區分目標語音與環境聲,而非傳統語音助手依賴的“降噪-轉寫-理解”流水線模式。
面對用戶故意卡殼的英文面試場景,模型通過動態判停技術展現出人性化交互。當測試者連續使用“um”“uh”等填充詞時,Seeduplex未像傳統系統那樣急于搶答,而是結合語義停頓與聲學特征,準確判斷用戶處于思考狀態。這種基于語音節奏、呼吸模式與語義完整性的綜合判斷機制,使模型搶話比例較前代系統降低40%,對話流暢度評分提升12%。
在飛花令極限測試中,模型展現出驚人的響應速度與上下文記憶能力。當用戶連續說出多句帶“月”詩句后,Seeduplex幾乎同步給出應答,且能識別用戶試圖重復已用詩句的“套娃”行為并即時提醒。官方數據顯示,全雙工模式較半雙工時延縮短250毫秒,打斷響應延遲減少300毫秒,復雜場景下誤回復率降低50%。
技術實現層面,Seed團隊重構了傳統語音交互架構。新系統摒棄ASR(語音識別)、LLM(大語言模型)、TTS(語音合成)的串聯模式,構建端到端原生架構,使模型直接學習語音與語義的一體化表達。通過海量語音數據預訓練與多任務后訓練,系統同步優化對話智能、超低延遲、節奏控制等五項核心能力,并采用投機采樣、量化等技術平衡推理性能與成本。
產業觀察人士指出,這項技術突破將重塑多個應用場景。在車載領域,系統能在復雜路況與多人對話中穩定識別駕駛員指令;教育場景中,口語陪練可感知學生猶豫狀態并調整教學節奏;客服系統則能在多人插話、情緒波動中維持對話連貫性。相較于行業主流語音通話功能,Seeduplex在判停準確率、打斷響應穩定性等核心指標上已形成代際優勢。
測試數據顯示,在模擬真人對話的基準測試中,Seeduplex的響應穩定性甚至超越部分人類對話者。當用戶突然打斷對話要求記錄信息時,模型能立即停止播報并主動詢問是否需要重復要點,這種“被打斷-收聲-等待-繼續”的完整閉環,此前僅在真人通話中可見。技術團隊透露,未來將持續優化模型對情感語調、微表情等非語言信號的感知能力,推動語音交互向多模態自然交流演進。












