螞蟻集團近日宣布,正式開源其全模態(tài)大模型Ming-Flash-Omni的2.0版本。作為Ming-Omni系列的最新迭代,該模型在視覺語言理解、語音生成控制以及圖像生成與編輯等核心領域實現(xiàn)了顯著提升,多項公開基準測試結果顯示其性能已達到開源模型中的領先水平,部分指標甚至超越了Gemini 2.5 Pro。
在音頻生成能力方面,Ming-Flash-Omni 2.0展現(xiàn)了強大的創(chuàng)新實力。模型支持在單一音軌中同步生成語音、環(huán)境音效和音樂,用戶可通過自然語言指令靈活調整音色、語速、語調、音量、情緒以及方言等參數(shù)。官方數(shù)據(jù)顯示,該模型在推理階段可達到3.1Hz的幀率,能夠高效生成長達數(shù)分鐘的音頻內容。
視覺能力的升級同樣是此次更新的重點。通過引入更大規(guī)模的細粒度數(shù)據(jù)和難例訓練策略,模型顯著增強了對復雜對象和長尾類別的識別能力。圖像生成與編輯功能也得到優(yōu)化,支持光影調整、場景替換、人物姿態(tài)修改等操作,并在復雜或動態(tài)場景中保持了更高的穩(wěn)定性。
從架構層面看,Ming-Flash-Omni 2.0基于Ling-2.0(MoE,100B-A6B)架構進行訓練。官方介紹稱,該版本在更大規(guī)模數(shù)據(jù)和系統(tǒng)化訓練優(yōu)化的基礎上,實現(xiàn)了多模態(tài)理解與生成能力的統(tǒng)一整合,為模型性能的提升奠定了堅實基礎。
近年來,多模態(tài)大模型逐漸向統(tǒng)一架構方向發(fā)展,但實際應用中往往面臨通用性與單項能力難以兼顧的挑戰(zhàn)。螞蟻集團表示,Ming-Omni系列經(jīng)過多代迭代,從構建統(tǒng)一多模態(tài)能力底座,到擴大規(guī)模與訓練優(yōu)化,再到2.0版本強化單項能力表現(xiàn),逐步實現(xiàn)了綜合性能的全面提升。
百靈模型負責人周俊指出,全模態(tài)技術的核心在于統(tǒng)一架構下的能力融合與調用效率。此次開源后,開發(fā)者可在同一框架下調用視覺、語音與生成能力,有效降低了多模型串聯(lián)帶來的工程復雜度,為實際應用提供了更大便利。
目前,Ming-Flash-Omni 2.0的模型權重與推理代碼已在Hugging Face等開源社區(qū)發(fā)布,用戶還可通過螞蟻百靈平臺Ling Studio進行在線體驗,進一步探索模型的多樣化應用場景。











