螞蟻集團近日宣布開源其最新研發(fā)的全模態(tài)大模型——Ming-Flash-Omni 2.0,這一成果標志著全場景音頻統(tǒng)一生成技術邁入新階段。該模型在視覺語言理解、語音可控生成、圖像編輯等多個領域展現(xiàn)出卓越性能,多項公開基準測試結(jié)果顯示其關鍵能力已達到行業(yè)領先水平。
作為業(yè)界首個實現(xiàn)全場景音頻統(tǒng)一生成的模型,Ming-Flash-Omni 2.0突破性地在單條音軌中同步生成語音、環(huán)境音效與音樂元素。用戶通過自然語言指令即可精準調(diào)控音色、語速、語調(diào)、音量及情緒參數(shù),甚至支持方言定制。該模型在推理效率上實現(xiàn)重大突破,3.1Hz的極低幀率配合分鐘級長音頻的實時高保真生成能力,在成本控制與處理速度方面均處于行業(yè)前沿。
技術團隊通過系統(tǒng)性訓練優(yōu)化,將模型能力推向新高度。基于Ling-2.0架構(gòu)(MoE,100B-A6B)構(gòu)建的模型,在視覺識別領域融合億級細粒度數(shù)據(jù)與難例訓練策略,顯著提升對近緣物種、工藝細節(jié)等復雜對象的識別精度;音頻生成模塊支持零樣本音色克隆技術,實現(xiàn)語音、音效、音樂的同軌無縫合成;圖像編輯功能則強化了復雜場景的穩(wěn)定性,新增光影調(diào)整、場景替換等實用功能,即使在動態(tài)畫面中仍能保持細節(jié)真實度。
全模態(tài)技術的核心挑戰(zhàn)在于平衡通用性與專業(yè)性。螞蟻集團通過持續(xù)迭代Ming-Omni系列模型,逐步構(gòu)建起統(tǒng)一的多模態(tài)能力底座。早期版本聚焦基礎能力整合,中期版本驗證規(guī)模效應,最新2.0版本則通過大規(guī)模數(shù)據(jù)訓練與架構(gòu)優(yōu)化,在保持開源模型開放性的同時,部分領域性能已超越專用模型。
此次開源將模型權(quán)重與推理代碼同步發(fā)布至Hugging Face等社區(qū),開發(fā)者可通過螞蟻百靈官方平臺Ling Studio在線體驗。百靈模型負責人周俊指出,統(tǒng)一架構(gòu)設計使視覺、語音、生成能力可高效復用,大幅降低多模型串聯(lián)的開發(fā)成本。技術團隊正持續(xù)優(yōu)化視頻時序理解、長音頻實時生成等關鍵模塊,并完善配套工具鏈與評測體系。
該模型的開放策略引發(fā)行業(yè)廣泛關注。通過提供可復用的技術底座,螞蟻集團為端到端多模態(tài)應用開發(fā)開辟了新路徑。目前已有開發(fā)者基于該框架構(gòu)建智能教育、內(nèi)容創(chuàng)作等領域的創(chuàng)新應用,驗證了其在降低技術門檻、提升開發(fā)效率方面的顯著價值。











