2月11日消息 今日,螞蟻集團(tuán)開源發(fā)布全模態(tài)大模型 Ming-Flash-Omni 2.0。
在多項(xiàng)公開基準(zhǔn)測(cè)試中,該模型在視覺語(yǔ)言理解、語(yǔ)音可控生成、圖像生成與編輯等關(guān)鍵能力表現(xiàn)突出,部分指標(biāo)超越 Gemini 2.5 Pro,成為開源全模態(tài)大模型性能新標(biāo)桿。
Ming-Flash-Omni 2.0 也是業(yè)界首個(gè)全場(chǎng)景音頻統(tǒng)一生成模型,可在同一條音軌中同時(shí)生成語(yǔ)音、環(huán)境音效與音樂。
用戶只需用自然語(yǔ)言下指令,即可對(duì)音色、語(yǔ)速、語(yǔ)調(diào)、音量、情緒與方言等進(jìn)行精細(xì)控制。
模型在推理階段實(shí)現(xiàn)了 3.1Hz 的極低推理幀率,實(shí)現(xiàn)了分鐘級(jí)長(zhǎng)音頻的實(shí)時(shí)高保真生成,在推理效率與成本控制上保持業(yè)界領(lǐng)先。
螞蟻集團(tuán)在全模態(tài)方向已持續(xù)投入多年,Ming-Omni 系列迭代三個(gè)版本,此次將 Ming-Flash-Omni 2.0 開源,意味著其核心能力以“可復(fù)用底座”的形式對(duì)外釋放,為端到端多模態(tài)應(yīng)用開發(fā)提供統(tǒng)一能力入口。
據(jù)了解,Ming-Flash-Omni 2.0基于 Ling-2.0 架構(gòu)(MoE,100B-A6B)訓(xùn)練,圍繞“看得更準(zhǔn)、聽得更細(xì)、生成更穩(wěn)”三大目標(biāo)全面優(yōu)化。
視覺方面,融合億級(jí)細(xì)粒度數(shù)據(jù)與難例訓(xùn)練策略,顯著提升對(duì)近緣動(dòng)植物、工藝細(xì)節(jié)和稀有文物等復(fù)雜對(duì)象的識(shí)別能力;
音頻方面,實(shí)現(xiàn)語(yǔ)音、音效、音樂同軌生成,支持自然語(yǔ)言精細(xì)控制音色、語(yǔ)速、情緒等參數(shù),并具備零樣本音色克隆與定制能力;
圖像方面,增強(qiáng)復(fù)雜編輯的穩(wěn)定性,支持光影調(diào)整、場(chǎng)景替換、人物姿態(tài)優(yōu)化及一鍵修圖等功能,在動(dòng)態(tài)場(chǎng)景中仍保持畫面連貫與細(xì)節(jié)真實(shí)。
目前,Ming-Flash-Omni 2.0 的模型權(quán)重、推理代碼已在 Hugging Face 等開源社區(qū)發(fā)布。用戶也可通過螞蟻百靈官方平臺(tái) Ling Studio 在線體驗(yàn)與調(diào)用。











