滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

螞蟻集團開源Ming-flash-omni 2.0：全模態(tài)能力升級，為多模態(tài)應(yīng)用開發(fā)提供新引擎

時間：2026-02-11 12:21:56 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

螞蟻集團近日宣布，其自主研發(fā)的全模態(tài)大模型Ming-flash-omni 2.0正式開源，為全球開發(fā)者提供了一套支持多模態(tài)交互的通用能力框架。該模型在視覺語言理解、語音生成控制及圖像編輯等領(lǐng)域的多項基準(zhǔn)測試中表現(xiàn)優(yōu)異，部分指標(biāo)甚至超越了專用模型，標(biāo)志著全模態(tài)技術(shù)向?qū)嵱没~出關(guān)鍵一步。

作為業(yè)界首個實現(xiàn)音頻全場景統(tǒng)一生成的模型，Ming-flash-omni 2.0突破了傳統(tǒng)語音合成與音效處理的界限。通過自然語言指令，用戶可同時操控語音、環(huán)境音效及背景音樂的生成，并精準(zhǔn)調(diào)節(jié)音色、語速、語調(diào)等12項參數(shù)。模型在推理效率上達(dá)到3.1Hz的幀率，支持分鐘級長音頻的實時高保真輸出，其零樣本音色克隆技術(shù)更實現(xiàn)了無需訓(xùn)練即可復(fù)現(xiàn)特定聲音的能力。

技術(shù)團隊透露，該模型基于Ling-2.0架構(gòu)（MoE，100B-A6B）構(gòu)建，通過系統(tǒng)性優(yōu)化實現(xiàn)了三大核心突破：視覺模塊整合億級細(xì)粒度數(shù)據(jù)，顯著提升對復(fù)雜物體的識別精度；音頻模塊突破多軌生成限制，實現(xiàn)三要素同步合成；圖像模塊增強編輯穩(wěn)定性，支持光影動態(tài)調(diào)整、場景智能替換等高級功能。在文物鑒定、工業(yè)檢測等場景中，模型對細(xì)微特征的識別準(zhǔn)確率較前代提升37%。

全模態(tài)技術(shù)的核心挑戰(zhàn)在于平衡通用性與專業(yè)性。螞蟻集團通過分階段演進策略破解這一難題：早期版本構(gòu)建多模態(tài)基礎(chǔ)能力，中期版本驗證規(guī)模效應(yīng)，2.0版本則通過10倍級數(shù)據(jù)擴容與混合專家訓(xùn)練法，在保持開源模型開放性的同時，使文本生成、圖像理解等任務(wù)達(dá)到行業(yè)頂尖水平。實測數(shù)據(jù)顯示，其語音合成質(zhì)量在MOS評分中達(dá)到4.8分（滿分5分），接近人類發(fā)音水平。

開源社區(qū)已同步上線模型權(quán)重與推理代碼，開發(fā)者可通過Hugging Face平臺直接調(diào)用。螞蟻百靈官方平臺Ling Studio更提供在線體驗入口，用戶上傳圖片或音頻后，可實時測試模型的人物姿態(tài)優(yōu)化、一鍵修圖、情緒語音生成等功能。某影視后期團隊測試后表示，該模型將傳統(tǒng)多軟件協(xié)作的流程壓縮至單一框架內(nèi)，工作效率提升60%以上。

項目負(fù)責(zé)人指出，全模態(tài)架構(gòu)的價值在于消除不同模態(tài)間的調(diào)用壁壘。通過統(tǒng)一的能力底座，開發(fā)者可避免重復(fù)訓(xùn)練視覺、語音等基礎(chǔ)模塊，大幅降低AI應(yīng)用的開發(fā)成本。目前團隊正攻關(guān)視頻時序理解與長音頻實時生成技術(shù)，未來計劃完善工具鏈生態(tài)，推動全模態(tài)技術(shù)在智慧醫(yī)療、數(shù)字內(nèi)容生產(chǎn)等領(lǐng)域的規(guī)模化落地。

02-11

AI讓你更高效，為什么你卻感覺更忙了？

02-11

OpenAI更新ChatGPT深度研究工具

02-11

黑石增持Anthropic股份至10億美元，公司估值3500億美元

02-11

OpenAI升級Responses API

02-11

央視財經(jīng)攜手天眼查：用大數(shù)據(jù)解碼中國經(jīng)濟活力密碼

02-11

OpenAI更新ChatGPT深度研究工具：GPT-5.2驅(qū)動，新增全屏查看器等功能

02-11

車險中介天塌了！ChatGPT 上線“比價神器”：1.9 億條數(shù)據(jù)加持，保費透明時代來了

02-11

免費可用:DuckDuckGo AI 語音聊天上線，承諾不存儲音頻

02-11

智譜 GLM-5 意外“泄露”？復(fù)用 DeepSeek 架構(gòu)性能炸裂，市值狂飆 200% 坐穩(wěn)國產(chǎn) AI 頂流

02-11

機器人進化“奇點”已至？原力靈機發(fā)布全球首個具身原生大模型 DM0：不僅全面開源，更要讓機器人“自學(xué)成才”

02-11

保單中介天塌了!ChatGPT 首款保險應(yīng)用上線，WTW 股價創(chuàng)18年最大跌幅

02-11

技術(shù)筑基市場拓局綠的諧波借人形機器人東風(fēng)駛向增長新航道

02-11

央視財經(jīng)聯(lián)袂天眼查：以數(shù)據(jù)為鑰解鎖中國經(jīng)濟活力新圖景

02-11

DuckDuckGo AI語音聊天功能上線，隱私保護升級，免費開放體驗

02-11

點擊查看更多 +

全站最新

豐田逆勢布局美國純電市場 2027款電動漢蘭達(dá)續(xù)航超515公里年底上市

新款騰勢Z9GT內(nèi)飾官圖亮相：碳纖維點綴+運動座椅，續(xù)航能力顯著提升

中國1月核心CPI環(huán)比上漲0.3%，為近6個月最高

中國1月PPI環(huán)比繼續(xù)上漲同比降幅收窄

港股異動丨上海小南國盤初再跌20%，旗下10間餐廳暫停營運

A股異動丨主流產(chǎn)品價格整體上行！稀土股集體走強，北方稀土、銀河磁體漲超6%

熱門內(nèi)容

本欄最新

長城魏牌V9X來襲！近5米3大身軀，2.0T插混續(xù)航超千公里，實力幾何？

央視聚焦東風(fēng)汽車：以創(chuàng)新智造引領(lǐng)，驅(qū)動中國汽車產(chǎn)業(yè)穩(wěn)健邁向新征程

閔行新春沙龍：網(wǎng)絡(luò)創(chuàng)作者共探優(yōu)質(zhì)內(nèi)容創(chuàng)作，共繪閔行發(fā)展新畫卷

理想汽車新突破：全新L9馬赫100雙芯片有效算力遠(yuǎn)超英偉達(dá)Thor U

問界星光之夜余承東解讀品牌命名，大模型AI將升級老車主，銷量目標(biāo)再沖刺

長城補齊產(chǎn)品短板！魏牌V9X官圖曝光，攜新技術(shù)入局綠牌全尺寸SUV賽道

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

螞蟻集團開源Ming-flash-omni 2.0：全模態(tài)能力升級，為多模態(tài)應(yīng)用開發(fā)提供新引擎