螞蟻集團近日宣布,其自主研發的全模態大模型Ming-flash-omni 2.0正式面向全球開源。作為Ming-Omni系列的重要升級版本,該模型在視覺語言理解、語音生成控制、圖像生成與編輯等核心領域實現突破性進展,多項性能指標在開源模型中位居前列,部分能力甚至超越行業標桿Gemini 2.5 Pro。
在音頻生成領域,Ming-flash-omni 2.0展現出顯著技術優勢。模型支持單音軌同步生成語音、環境音效與背景音樂,用戶可通過自然語言指令精準調控音色、語速、語調、音量、情緒表達及方言特征等參數。據實測數據顯示,模型推理幀率達3.1Hz,可高效生成分鐘級長音頻內容,為有聲內容創作提供全新解決方案。
視覺能力方面,研發團隊通過引入海量細粒度標注數據和針對性訓練策略,顯著提升模型對復雜場景及長尾類別的識別精度。圖像生成與編輯模塊經過優化后,支持光影效果調整、場景元素替換、人物姿態修正等高級操作,特別強化了在動態場景下的生成穩定性,為影視制作、數字內容創作等領域提供強大工具支持。
該模型采用基于Ling-2.0架構的混合專家模型(MoE)設計,參數規模達1000億級,其中激活參數60億。通過系統化訓練優化,模型實現了多模態理解與生成能力的有機整合,在保持架構統一性的同時,有效解決了通用性與專業性難以兼顧的行業難題。經過多代迭代,Ming-Omni系列已形成從基礎能力構建到專項能力強化的完整技術路線。
螞蟻百靈模型團隊負責人周俊指出,全模態技術的核心挑戰在于實現不同模態能力的有機融合與高效調用。此次開源的2.0版本通過統一架構設計,使開發者能夠在單一框架內協同調用視覺、語音、生成等多種能力,大幅降低多模型集成帶來的技術復雜度與開發成本。
目前,Ming-flash-omni 2.0的完整模型權重及推理代碼已在Hugging Face等主流開源平臺發布,開發者可自由下載使用。同時,螞蟻集團通過百靈平臺Ling Studio提供在線體驗入口,用戶無需本地部署即可直接測試模型各項功能,加速技術創新成果的轉化應用。











