AIPress.com.cn報道
1月29日消息,阿里通義團隊近日宣布正式開源 Qwen3-ASR 系列語音識別模型,包括 Qwen3-ASR-1.7B、Qwen3-ASR-0.6B 以及語音強制對齊模型 Qwen3-ForcedAligner-0.6B。該系列模型面向多語言、高穩定性與流式推理場景設計,支持多種部署形態,并同步開放模型權重與推理框架。
據介紹,Qwen3-ASR 系列基于自研 AuT 語音編碼器與 Qwen3-Omni 多模態基座模型構建,可覆蓋 52 個語種及方言的語種識別與語音識別任務。其中,Qwen3-ASR-1.7B 在中文、英文、中文口音、歌唱識別及強噪聲環境下表現突出,在多項公開與內部評測中達到當前開源模型的最優水平;Qwen3-ASR-0.6B 則在性能與效率之間取得平衡,面向高并發與實時服務場景。
在效率方面,Qwen3-ASR-0.6B 模型在異步推理模式下,128 并發條件中可實現約 2000 倍吞吐能力,10 秒內處理超過 5 小時音頻。兩款 ASR 模型均支持流式與非流式一體化推理,單次最長可處理 20 分鐘音頻。
此次同步開源的 Qwen3-ForcedAligner-0.6B 強制對齊模型,采用非自回歸大模型推理方式,支持 11 個語種的高精度時間戳預測。官方評測顯示,其時間戳對齊精度在多項基準中超過 WhisperX、NeMo-ForcedAligner 等主流方案,同時保持較高推理效率。
在配套工具層面,通義團隊同時開源了一套完整的推理與微調框架,支持基于 vLLM 的批量推理、異步服務、流式識別及時間戳預測,面向研究與產業應用提供統一工具鏈。












