印度AI實驗室Sarvam在近日舉辦的人工智能影響力峰會上,正式推出兩款自主研發的最新一代MoE架構大語言模型。這兩款模型以全棧自研技術打造,標志著印度在生成式AI領域取得重要突破。研發團隊透露,模型代碼和權重將于近期在Hugging Face平臺開源,配套的API接口與可視化儀表盤功能也在緊鑼密鼓籌備中。
針對不同應用場景,兩款模型采用差異化設計策略。輕量級型號采用300億參數激活、10億參數總量的精簡架構,預訓練數據規模達16萬億token,支持32K上下文窗口,特別優化了實時交互場景的響應速度。旗艦型號則配備1050億參數激活、90億參數總量的超大規模架構,支持128K超長上下文窗口,能夠處理復雜推理任務和跨領域知識整合需求。
在性能評估方面,Sarvam實驗室公布的測試數據顯示,旗艦模型在印度本土語言基準測試中全面超越谷歌Gemini 2.5 Flash等國際主流模型。針對多語言混合場景的跨模態任務,該模型在多數評估指標上領先DeepSeek R1,在特定垂直領域甚至達到Gemini Flash的1.3倍性能。研發團隊強調,模型特別針對南亞語言特征進行優化,在方言處理和語境理解方面具有獨特優勢。










