阿里云近日正式推出全模態大模型Qwen3.5-Omni,該模型在音視頻理解、實時交互等215項任務中刷新行業紀錄,性能指標超越Gemini-3.1 Pro,躋身全球頂尖全模態大模型行列。測試數據顯示,新模型可精準識別113種語言及方言,支持對音視頻內容生成結構化描述,并首次展現出音視頻Vibe Coding能力,能夠根據動態畫面自動生成可執行代碼。
技術團隊透露,Qwen3.5-Omni通過多模態融合架構實現突破,在復雜場景下的語義理解準確率提升37%,響應延遲降低至0.3秒以內。其獨創的動態注意力機制可同時處理音頻、視頻、文本三種數據流,在直播監控、多語言會議記錄等場景中表現尤為突出。例如,在短視頻分析任務中,模型能自動提取關鍵幀并生成包含人物動作、場景變化的JSON格式描述文件。
商業化應用方面,阿里云百煉平臺已上線三種規格的API服務:Plus版面向專業開發者提供全功能接口,Flash版優化了實時交互性能,Light版則主打輕量化部署。價格體系顯示,Qwen3.5-Omni輸入成本控制在每百萬Tokens 0.8元以下,僅為國際同類產品Gemini-3.1 Pro的十分之一。個人用戶可通過Qwen Chat免費體驗基礎功能,企業客戶則支持私有化部署和定制化訓練。
目前,該模型已在短視頻創作、游戲NPC交互、智能客服等領域落地應用。某直播平臺接入后,內容審核效率提升60%,多語言直播間的實時翻譯準確率達到92%。游戲開發者利用其Vibe Coding能力,實現了根據玩家操作自動生成劇情分支的功能,開發周期縮短40%。技術專家指出,全模態大模型的普及將推動AI應用從單一場景向復雜交互領域延伸。








