印度人工智能實驗室Sarvam在近日舉行的人工智能影響力峰會上,正式推出兩款自主研發的最新一代大語言模型。這兩款模型基于混合專家(MoE)架構打造,采用從底層架構到訓練框架的完全自主技術路線,標志著印度在生成式AI領域取得重要突破。
據技術白皮書披露,此次發布的模型包含300億參數的輕量級版本和1050億參數的旗艦版本。輕量級模型采用30B-A1B架構設計,預訓練數據規模達16萬億token,支持32K上下文窗口,特別針對實時交互場景進行優化,在保持低延遲的同時實現高效推理。該模型已通過多項基準測試驗證,在對話響應速度和資源占用率方面表現突出。
旗艦級105B-A9B模型則展現出更強大的處理能力,其128K上下文窗口可支持超長文本分析,在復雜邏輯推理和多輪對話任務中表現優異。實驗室負責人特別強調,該模型在印度本土語言處理方面實現重大突破,在包含12種印度官方語言的綜合測試集中,準確率較國際主流模型提升17.6%,特別是在方言識別和語義理解層面表現突出。
在性能對比測試中,105B-A9B模型展現出顯著優勢。針對印度市場定制的評估基準顯示,該模型在本地化任務中的表現超越谷歌Gemini 2.5 Flash等國際競品。在通用能力測試中,其數學推理和代碼生成能力在多數指標上領先DeepSeek R1,在多模態理解等部分領域與Gemini Flash形成有力競爭。實驗室透露,模型訓練過程中特別強化了對南亞文化語境的理解,在處理宗教典籍、歷史文獻等垂直領域時具有獨特優勢。
開發團隊宣布,兩款模型將采取階梯式開放策略。即日起在Hugging Face平臺開放基礎權重下載,供全球開發者進行本地化微調。三月中旬將推出API接口服務,支持企業級用戶進行商業部署。配套的可視化儀表盤系統也在開發中,該系統將提供模型訓練監控、性能評估等全流程管理功能,預計二季度正式上線。










