螞蟻集團近日正式開源了新一代全模態(tài)大模型Ming-Flash-Omni 2.0,該模型在視覺語言理解、語音可控生成及圖像編輯等核心領(lǐng)域展現(xiàn)出卓越性能,部分指標(biāo)已超越國際主流模型Gemini 2.5 Pro,為開源社區(qū)樹立了全模態(tài)技術(shù)的新標(biāo)桿。
作為業(yè)界首個實現(xiàn)全場景音頻統(tǒng)一生成的模型,Ming-Flash-Omni 2.0突破了傳統(tǒng)音頻處理的局限,可在單條音軌中同步生成語音、環(huán)境音效與背景音樂。用戶通過自然語言指令即可精準(zhǔn)調(diào)控音色、語速、語調(diào)、音量及情緒參數(shù),甚至支持方言定制與零樣本音色克隆,為影視配音、游戲音效等場景提供了高效解決方案。
在推理效率方面,該模型實現(xiàn)了3.1Hz的極低幀率,支持分鐘級長音頻的實時高保真生成,同時將計算成本控制在行業(yè)領(lǐng)先水平。這一突破得益于其基于Ling-2.0架構(gòu)(MoE,100B-A6B)的優(yōu)化設(shè)計,通過混合專家模型與億級數(shù)據(jù)訓(xùn)練,在視覺、音頻、圖像三大模態(tài)上實現(xiàn)了系統(tǒng)性提升。
視覺領(lǐng)域,模型通過融合細(xì)粒度數(shù)據(jù)與難例訓(xùn)練策略,顯著增強了對近緣物種、工藝細(xì)節(jié)及稀有文物的識別能力。圖像編輯功能則支持光影調(diào)整、場景替換、人物姿態(tài)優(yōu)化等復(fù)雜操作,即使在動態(tài)場景中也能保持畫面連貫性與細(xì)節(jié)真實性,為專業(yè)設(shè)計提供了強大工具。
音頻生成方面,除同軌合成技術(shù)外,模型還具備自然語言驅(qū)動的精細(xì)控制能力,可實時調(diào)整語音情感表達(dá)與音效層次。圖像生成模塊則通過增強穩(wěn)定性算法,使一鍵修圖、背景替換等功能更加可靠,降低了專業(yè)內(nèi)容創(chuàng)作的門檻。
目前,Ming-Flash-Omni 2.0的模型權(quán)重與推理代碼已在Hugging Face等開源平臺全面開放,開發(fā)者可通過螞蟻百靈官方平臺Ling Studio進(jìn)行在線體驗與調(diào)用。此次開源標(biāo)志著螞蟻集團將多年積累的全模態(tài)技術(shù)以可復(fù)用底座的形式對外釋放,為端到端多模態(tài)應(yīng)用開發(fā)提供了統(tǒng)一的能力入口。
據(jù)悉,Ming-Omni系列模型已歷經(jīng)三次迭代,此次升級圍繞"精準(zhǔn)識別、細(xì)膩感知、穩(wěn)定生成"三大目標(biāo)展開,通過架構(gòu)創(chuàng)新與數(shù)據(jù)工程結(jié)合,在復(fù)雜場景下的多模態(tài)交互能力上取得關(guān)鍵突破,為AI技術(shù)在內(nèi)容創(chuàng)作、智能交互等領(lǐng)域的應(yīng)用開辟了新路徑。











