法國人工智能初創公司Mistral AI近日宣布推出全新的語音轉文字模型系列——Voxtral Transcribe2。這一系列包含兩款針對不同應用場景優化的模型,旨在解決語音交互中的高延遲和成本痛點。
其中,最受關注的是名為 Voxtral Realtime 的實時轉錄模型。該模型擁有4B(40億)參數規模,采用創新的流式架構。其核心亮點在于極致的響應速度:模型可以在音頻輸入的瞬間同步進行轉錄,官方數據顯示其轉錄延遲已被壓縮至200ms(0.2秒)以下。這意味著在實時對話或同聲傳譯場景中,用戶幾乎感受不到處理停頓。為了促進開發者社區的生態建設,Mistral AI已以 Apache2.0協議正式開放了該模型的權重。
另一款模型 Voxtral Mini Transcribe V2 則主打大批量處理與極高性價比。該模型專門為處理長音頻設計,單次請求即可支持長達3小時的錄音文件。在準確率表現上,Mistral 官方表示該模型已超越了 GPT-4o mini Transcribe 和 Gemini2.5Flash。
在語言支持與成本方面,兩款新模型均具備出色的普適性,支持包括中文在內的13種主流語言。定價策略也十分具有競爭力:離線批處理版 API 價格為每分鐘0.003美元,而追求極致性能的實時版 API 價格則為每分鐘0.006美元。
劃重點:
? 極低延遲: Voxtral Realtime 模型將轉錄延遲降至200ms 以內,支持音頻即時轉錄,且已開源模型權重。











