AIPress.com.cn報道
2 月 11 日,螞蟻集團正式開源發布全模態大模型Ming-flash-omni 2.0。作為 Ming-Omni 系列的最新版本,該模型在視覺語言理解、語音可控生成、圖像生成與編輯等核心能力上實現系統性升級,在多項公開基準測試中達到開源領先水平,部分指標超過 Gemini 2.5 Pro。
Ming-flash-omni 2.0的更新重點之一在于音頻生成能力。模型支持在同一音軌中同時生成語音、環境音效與音樂,并允許用戶通過自然語言指令控制音色、語速、語調、音量、情緒和方言等參數。根據官方數據,模型在推理階段實現 3.1Hz 的推理幀率,可生成分鐘級音頻內容。
在視覺能力方面,模型通過引入更大規模細粒度數據和難例訓練策略,提升對復雜對象和長尾類別的識別能力。圖像生成與編輯功能也進行了優化,支持光影調整、場景替換、人物姿態修改等操作,并強調在復雜或動態場景中的穩定性。
架構上,Ming-flash-omni 2.02.0 基于 Ling-2.0(MoE,100B-A6B)架構訓練。官方表示,該版本在更大規模數據和系統化訓練優化基礎上,對多模態理解與生成能力進行了統一整合。
近年來,多模態大模型逐步向統一架構方向發展,但在實際應用中,模型往往難以同時兼顧通用性與單項能力表現。螞蟻方面表示,Ming-omni 系列經過多代迭代,從構建統一多模態能力底座,到擴大規模與訓練優化,再到 2.0 版本強化單項能力表現,逐步提升綜合性能。
百靈模型負責人周俊表示,全模態技術的關鍵在于統一架構下的能力融合與調用效率。開源后,開發者可在同一框架下調用視覺、語音與生成能力,減少多模型串聯帶來的工程復雜度。
目前,Ming-flash-omni 2.0的模型權重與推理代碼已在 Hugging Face 等開源社區發布,用戶也可通過螞蟻百靈平臺 Ling Studio 進行在線體驗。











