IBM近日宣布開源一款名為Granite4.01B Speech的語音語言模型,該模型專為邊緣計算場景和企業級應用開發,通過優化架構實現性能與資源占用的雙重突破。據公開資料顯示,這款模型在保持核心功能完整性的同時,將參數量壓縮至前代的一半,內存占用和推理延遲顯著降低,為移動端及資源受限設備提供了高效的語音處理解決方案。
技術架構方面,Granite4.01B Speech采用獨特的兩階段處理流程:首先通過專用模塊將音頻信號轉換為文本,再由定制化的Granite語言模型完成語義理解與任務處理。這種模塊化設計賦予開發者高度靈活性,可根據實際需求自由組合功能模塊。目前模型已支持英語、法語、德語、西班牙語、葡萄牙語和日語的自動語音識別(ASR),并具備英語與中文(普通話)的雙向翻譯能力,多語種互譯功能覆蓋主流商業應用場景。
性能提升是本次升級的核心亮點。測試數據顯示,該模型在OpenASR國際評測中以5.52%的平均字錯率(WER)登頂排行榜,英文轉錄準確率較前代提升明顯。新增的關鍵詞偏置功能可優先識別特定詞匯,顯著提升垂直領域的識別精度。特別值得關注的是,模型新增的日語ASR支持填補了前代產品在東亞語言市場的空白,進一步擴展了商業應用范圍。
開源協議采用Apache2.0標準,開發者可通過Hugging Face平臺獲取模型權重文件,并兼容Transformers、vLLM等主流深度學習框架。這種開放策略降低了技術門檻,使中小企業能夠快速構建定制化語音解決方案。項目頁面顯示,模型已針對ARM架構設備完成優化,可在樹莓派等低功耗硬件上流暢運行,為物聯網設備智能化升級提供了新選擇。
訪問鏈接:https://huggingface.co/ibm-granite/granite-4.0-1b-speech








