滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

螞蟻開源Ming-Flash-Omni 2.0：全模態(tài)大模型性能領(lǐng)先，開啟多模態(tài)應(yīng)用新篇

時間：2026-02-12 02:56:46 來源：快訊編輯：快訊 IP：北京 發(fā)表評論無障礙通道

螞蟻集團近日宣布開源全模態(tài)大模型Ming-Flash-Omni 2.0，該模型在視覺語言理解、語音可控生成及圖像編輯等核心領(lǐng)域展現(xiàn)出卓越性能，部分指標甚至超越國際頂尖模型Gemini 2.5 Pro，成為開源領(lǐng)域全模態(tài)技術(shù)的新標桿。這一成果標志著螞蟻集團在多模態(tài)人工智能領(lǐng)域的技術(shù)積累進入全新階段。

作為業(yè)界首個實現(xiàn)全場景音頻統(tǒng)一生成的模型，Ming-Flash-Omni 2.0突破性地將語音、環(huán)境音效與音樂融合于單一音軌。用戶通過自然語言指令即可精準調(diào)控音色、語速、語調(diào)乃至方言特征，模型更支持零樣本音色克隆技術(shù)。在效率方面，該模型以3.1Hz的推理幀率實現(xiàn)分鐘級長音頻的實時高保真生成，在成本控制與處理速度上達到行業(yè)領(lǐng)先水平。實測數(shù)據(jù)顯示，其在復雜音頻場景下的生成質(zhì)量已接近專業(yè)音頻工作站標準。

技術(shù)架構(gòu)層面，模型基于Ling-2.0架構(gòu)（MoE，100B-A6B）構(gòu)建，通過系統(tǒng)性訓練優(yōu)化實現(xiàn)三大核心突破：視覺模塊采用億級細粒度數(shù)據(jù)訓練，顯著提升對近緣物種、文物細節(jié)等復雜對象的識別精度；音頻模塊突破傳統(tǒng)分離式生成模式，實現(xiàn)多要素協(xié)同創(chuàng)作；圖像編輯模塊強化動態(tài)場景處理能力，支持光影調(diào)整、場景替換等高級功能的同時保持畫面連貫性。這些特性使其在醫(yī)療影像分析、文化遺產(chǎn)數(shù)字化等場景具有廣泛應(yīng)用潛力。

螞蟻集團百靈模型負責人周俊指出，全模態(tài)技術(shù)的核心價值在于通過統(tǒng)一架構(gòu)實現(xiàn)多維度能力的深度融合。此次開源將模型權(quán)重與推理代碼同步釋放至Hugging Face等平臺，開發(fā)者可基于單一框架調(diào)用視覺、語音、生成等全棧能力，較傳統(tǒng)多模型串聯(lián)方案降低60%以上的開發(fā)成本。配套上線的Ling Studio平臺更提供可視化操作界面，用戶無需深厚技術(shù)背景即可完成復雜多模態(tài)任務(wù)。

該模型的演進路徑體現(xiàn)了螞蟻集團的技術(shù)戰(zhàn)略布局：早期版本聚焦多模態(tài)基礎(chǔ)能力建設(shè)，中期版本驗證規(guī)模效應(yīng)，2.0版本則通過10萬小時級音頻數(shù)據(jù)與千萬級圖像數(shù)據(jù)的訓練優(yōu)化，在保持通用性的同時實現(xiàn)專項能力突破。特別是在語音克隆領(lǐng)域，其僅需3秒音頻樣本即可生成高度擬真的語音，在隱私保護前提下為無障礙溝通、個性化內(nèi)容創(chuàng)作等場景提供技術(shù)支撐。

目前，開發(fā)者可通過螞蟻百靈官方平臺直接調(diào)用模型API，或下載開源代碼進行本地化部署。這種開放策略不僅加速了技術(shù)創(chuàng)新迭代，更為金融、醫(yī)療、教育等垂直領(lǐng)域的應(yīng)用開發(fā)提供了標準化解決方案。隨著工具鏈與評測體系的持續(xù)完善，全模態(tài)技術(shù)有望在智能客服、內(nèi)容生產(chǎn)、輔助診斷等領(lǐng)域?qū)崿F(xiàn)規(guī)模化落地。

螞蟻集團在全模態(tài)方向已持續(xù)投入多年，Ming-Omni系列正是在這一背景下持續(xù)演進：早期版本構(gòu)建統(tǒng)一多模態(tài)能力底座，中期版本驗證規(guī)模增長帶來的能力提升，而最新 2.0 版本通過更大規(guī)模數(shù)據(jù)與系統(tǒng)性訓練優(yōu)化，…

02-12

清華聯(lián)合多方發(fā)力：AI訓練數(shù)據(jù)分層管理開啟智能訓練新范式

02-12

中國電科再傳捷報：兩款新型芯片流片成功助力自主算力體系構(gòu)建

02-12

DeepSeek最新模型開啟灰度測試：上下文處理能力躍升至1M

02-12

北京首家機器人綜合體落地陶朱新造局，構(gòu)建全周期服務(wù)助力場景爆發(fā)

02-12

中國電科14所華創(chuàng)微：高性能處理器與AI芯片流片測試成功助力邊緣計算

02-12

加密貨幣震蕩中逆勢而動：億萬富豪Val Vavilov低位增持比特幣謀新局

02-12

趣丸科技攜AI技術(shù)與虛擬偶像亮相2026網(wǎng)絡(luò)視聽盛典開啟數(shù)藝融合新篇章

02-12

Anthropic發(fā)布2026趨勢報告：AI助力編程革命，人人皆可成開發(fā)者

02-12

從百輛車隊到全球布局：曹操出行Robotaxi如何開啟出行新未來

02-12

零下34℃挑戰(zhàn)成功！我國超低溫鋰電池漠河實測8小時容量超85%

02-12

曹操出行Robotaxi邁入2.0階段：百輛車隊落地杭州，全球布局加速推進

02-12

極智嘉發(fā)布全球首款倉儲通用人形機器人Gino 1 引領(lǐng)倉儲智能化新跨越

該產(chǎn)品專為倉儲作業(yè)全鏈路設(shè)計，具備倉儲揀貨、搬箱、打包、巡檢等多任務(wù)操作能力，真正實現(xiàn)了“一臺機器人覆蓋倉內(nèi)主流人工操作場景”，引領(lǐng)倉儲行業(yè)實現(xiàn)從“移動智能化”到“操作智能化”的關(guān)鍵跨越。機器人頭部具備三目…

02-12

對話酷哇科技CTO廖文龍：AI服務(wù)機器人爆發(fā)前夜，技術(shù)突破與市場雙輪驅(qū)動

酷哇科技CTO廖文龍對筆者表示，ChatGPT及端到端AI出現(xiàn)后，酷哇科技看到了創(chuàng)造通用且有生產(chǎn)力價值的機器人的可能，即移動和操作能力都能通過大模型解決。廖文龍表示，WAM 2.0提供的是通用化的移動能…

02-12

極智嘉Gino1亮相：專為倉儲設(shè)計，多任務(wù)操作引領(lǐng)倉儲智能化新跨越

據(jù)IT之家了解，機器人頭部具備三目主視覺和前后魚眼相機，兼顧近景高精度識別和前后 360度環(huán)境感知和語義理解，為多任務(wù)復雜作業(yè)提供準確性和安全性保障。同時全關(guān)節(jié)力控，可實現(xiàn)與人與環(huán)境的安全作業(yè)，雙臂最大 …

02-12

點擊查看更多 +

全站最新

即夢AI關(guān)聯(lián)公司臉萌科技：被“Seedance”環(huán)繞的商業(yè)版圖解析

初代小米SU7交付超38.1萬輛收官，新一代SU7升級亮相并開啟多城展示

小米SU7交付量破38.1萬輛，新一代開啟預訂，價格配置升級有何看點？

特朗普大贊非農(nóng)數(shù)據(jù)，再催美聯(lián)儲降息至“全球最低”

麥格理：首予文遠知行"跑贏大市"評級，目標價46港元/17.5美元

科大訊飛回應(yīng)合作傳聞：AI語音技術(shù)多領(lǐng)域開花，生態(tài)構(gòu)建迎新機遇與挑戰(zhàn)

熱門內(nèi)容

本欄最新

別克至境E7實車曝光，智能插混+超長續(xù)航，20萬級SUV市場新選擇

春節(jié)返鄉(xiāng)潮來襲，江蘇多舉措保障新能源車充電“一路暢行”

科技豪華雙驅(qū)動騰勢D9三年銷冠重塑全球高端MPV新格局

長城魏牌V9X來襲！近5米3大身軀，2.0T插混續(xù)航超千公里，實力幾何？

央視聚焦東風汽車：以創(chuàng)新智造引領(lǐng)，驅(qū)動中國汽車產(chǎn)業(yè)穩(wěn)健邁向新征程

閔行新春沙龍：網(wǎng)絡(luò)創(chuàng)作者共探優(yōu)質(zhì)內(nèi)容創(chuàng)作，共繪閔行發(fā)展新畫卷

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

螞蟻開源Ming-Flash-Omni 2.0：全模態(tài)大模型性能領(lǐng)先，開啟多模態(tài)應(yīng)用新篇