阿里千問團隊近日宣布正式開源Qwen3-ASR系列語音識別模型,該系列包含兩個通用語音識別模型Qwen3-ASR-1.7B與Qwen3-ASR-0.6B,以及一個專門用于語音時間戳預測的強制對齊模型Qwen3-ForcedAligner-0.6B。此次開源不僅開放了模型結構與權重,還同步推出配套的推理框架,旨在為語音識別領域提供更高效的解決方案。
Qwen3-ASR系列模型的核心優勢在于其多語言支持能力。其中1.7B與0.6B版本均通過單一模型架構實現對30種語言的語種識別、22種中文方言及多國英文口音的語音識別。在復雜場景下,這兩個模型展現出強大的適應性,包括嘈雜環境、特殊文本模式以及歌唱場景的語音轉寫。實驗數據顯示,1.7B版本在中文、英文及方言識別等任務中達到開源領域最優水平,其歌唱識別功能甚至能處理帶背景音樂的完整歌曲轉寫。
性能與效率的平衡是0.6B版本的突出特點。該模型在保持識別準確率的同時,通過異步推理架構實現顯著的速度提升。在128并發處理場景下,其吞吐量可達常規處理的2000倍,僅需10秒即可完成5小時音頻的轉寫任務。兩個版本均支持流式與非流式混合推理,最長可處理20分鐘連續音頻,滿足實時與離線場景的雙重需求。
強制對齊模型Qwen3-ForcedAligner-0.6B采用非自回歸推理架構,支持11種語言的語音時間戳精準標注。相較于傳統端到端方案,該模型在時間戳預測精度上提升顯著,單并發推理延遲低至0.0089秒。其獨特優勢在于可對音頻任意片段進行靈活標注,特別適用于需要精確時間對齊的語音分析任務。
技術實現層面,Qwen3-ASR系列依托創新的AuT語音編碼器與Qwen3-Omni多模態基座模型。這種架構設計使模型既能捕捉語音的聲學特征,又能理解語言層面的語義信息。在噪聲抑制、口音適應等挑戰性場景中,模型通過多模態信息融合保持穩定輸出,字錯誤率較主流商用API降低20%以上。
配套開源的推理框架提供完整的功能支持,包括基于vLLM的批量推理、異步服務部署、流式處理以及時間戳預測等。開發者可通過該框架快速構建語音識別應用,無需額外開發底層處理邏輯。框架設計充分考慮不同場景需求,既支持輕量級部署,也能滿足高并發工業級應用。
在評估基準測試中,Qwen3-ASR-1.7B在多個維度展現領先性能。英文識別任務中,該模型在覆蓋16國口音的測試集上全面超越GPT-4o Transcribe、Gemini系列等商用系統;多語種測試中,20種主流語言的平均詞錯誤率優于現有開源模型;中文方言識別任務較同類模型錯誤率降低20%。0.6B版本則在效率指標上表現突出,離線推理速度提升100倍,在線服務吞吐量達行業領先水平。
此次開源項目通過GitHub、HuggingFace和ModelScope等平臺同步發布,提供模型下載、在線演示及API調用服務。研究團隊同步公開了技術論文,詳細闡述模型架構設計與訓練方法。該系列模型的開源將為語音識別技術研究提供新的基準,推動多語言處理、實時轉寫等應用場景的創新發展。










