滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

雷軍宣布小米AI創新成果閃耀ICASSP 2026，多領域技術突破引領未來

時間：2026-01-22 19:00:44 來源：快訊編輯：快訊 IP：北京 發表評論無障礙通道

小米在人工智能領域再獲突破，其多項AI創新成果成功入選國際頂級學術會議ICASSP 2026。這一會議作為全球音頻領域最具權威性與影響力的學術盛會之一，自1976年在美國費城首次舉辦以來，已有近50年歷史。ICASSP 2026將于今年5月在西班牙巴塞羅那舉行，小米的入選標志著其在AI技術研發上的國際領先地位。

在音頻理解領域，小米團隊推出了名為ACAVCaps的創新數據集。該數據集通過自動化管線，從多維度、多視角對音頻內容進行精細化描述，解決了現有數據集在規模與描述粒度上難以兼得的瓶頸。ACAVCaps構建了多級自動化標注框架，利用多個專家模型并行提取音頻中的關鍵元數據，并通過大語言模型和思維鏈推理策略進行邏輯整合。這一方法使標注文本從單一標簽進化為具備邏輯層次和上下文信息的自然語言。ACAVCaps包含約470萬條音頻-文本對，將推動音頻AI從簡單的特征識別向深度的語義理解發展，并計劃近期全面開源。

在聯邦學習領域，小米提出了FedDCG框架，首次在聯邦學習設置下聯合解決類別和域泛化問題。傳統方法往往因決策邊界混淆、計算資源限制等問題，在復雜場景下性能受限。FedDCG通過域分組策略和類特定協作訓練機制，避免了類別和領域決策邊界之間的混淆，顯著提升了模型在未知環境中的準確性與魯棒性。實驗表明，FedDCG在多個數據集上的表現優于當前最先進的基線方法，尤其在數據稀缺場景下仍保持領先，為跨域圖像分類和隱私保護下的模型部署提供了可行路徑。

在音樂生成感知評估方面，小米團隊提出了FUSEMOS架構。現有自動音樂感知評估方法主要依賴單一音頻編碼器，難以捕捉音樂中的復雜結構與細粒度特征。FUSEMOS融合了CLAP與MERT兩大預訓練模型，通過雙編碼器架構實現更精準、更貼近人類聽覺感知的評估。實驗結果表明，FUSEMOS在關鍵指標上顯著優于現有方法，驗證了其在音樂感知評估中的有效性。

小米還提出了GLAP模型，實現了跨音頻領域與跨語言的音頻-文本對齊。GLAP首次通過單一框架同時優化語音、音樂及聲音事件的檢索與分類性能，解決了傳統CLAP模型領域割裂的問題。該模型在多個語音和聲音檢索基準上保持競爭力，并具備多語言泛化能力，無需目標語種微調即可在50種語言的關鍵詞識別中展現Zero-shot能力。GLAP將直接賦能小米“人車家全生態”中的跨模態理解場景，如復雜聲學場景下的魯棒語音交互、車載多模指令理解等。

在視頻到音頻合成領域，小米團隊提出了MeanFlow模型，實現了推理效率與生成質量的雙重突破。MeanFlow通過平均速度場建模替代傳統流匹配模型的瞬時速度建模，解決了多步迭代采樣導致的推理速度瓶頸，實現推理階段的一步生成。實驗表明，MeanFlow在推理速度大幅提升的同時，精準保障了音效生成質量，并確保音視頻語義對齊與時間同步性。該模型將顯著降低下游音視頻創作與智能交互產品的研發門檻，推動實時音效生成技術的規模化落地。

在多模態檢索領域，小米提出了一種統一的多任務學習框架，將“找圖、找文、意圖理解”整合到兩個模型中。該框架通過文本編碼器同時對齊圖像和文本的語義空間，并通過跨注意力機制與NLU模型進行語義交互，實現了意圖感知和語義增強。實驗表明，該框架在找圖與找文任務上均達到或超過現有最優方法，并支持多語言輸入，為小米手機場景下的多模態檢索提供了輕量化、高性能的解決方案。

更多>同類資訊

扎克伯格：Meta的目標是讓Instagram更具“實用價值”

02-20

消息稱Meta重啟智能手表項目，“Malibu 2”機型今年內發布

02-20

亞馬遜成全球營收最高企業

02-20

沙特基金HUMAIN在xAI與SpaceX合并前向xAI投資30億美元

02-20

為啥無線充只有5W？手機無線充電協議盤點

02-20

2026年2月小米17怎么選：一文看懂小米17系列的全部賣點

02-20

谷歌Gemini 3.1 Pro發布：推理能力翻倍，專為復雜任務而生

02-20

谷歌Gemini 3.1 Pro發布：推理能力翻倍

02-20

谷歌Gemini上線音樂模型一句話即可生成歌曲

02-20

馬斯克公布特斯拉CyberCab售價

02-20

AppLovin計劃推出自有社交媒體平臺

02-20

免注冊、免費用：DuckDuckGo上線AI修圖功能

02-20

馬斯克公布特斯拉CyberCab售價

02-20

字節跳動在美國組建人工智能團隊，計劃招聘100多人

02-20

世界之巔！亞馬遜銷售額超過沃爾瑪，成全球最大公司

02-20

點擊查看更多 +

全站最新

四十屆龍潭廟會年味濃，傳統與潮流碰撞，解鎖新春“逛吃玩購”新體驗

美股三大指數集體收跌，迪爾農機大漲12%，中概指數跌0.4%

美AI兩巨頭峰會拒牽手畫面瘋傳掀熱議

"AI除幻"新星崛起：海致科技港交所首秀暴漲，未來增長路在何方？

2026北京旅行社權威榜單揭曉！十大可靠之選，助您暢游京城無憂行

從浪漫雪地到魔性雞圈，代寫服務玩出花，土味浪漫也能讓人笑出鵝叫！

熱門內容

本欄最新

2026春晚機器人“組團”登場，商業化加速，產業拐點已至？

四十屆龍潭廟會年味濃，傳統與潮流碰撞，解鎖新春“逛吃玩購”新體驗

"AI除幻"新星崛起：海致科技港交所首秀暴漲，未來增長路在何方？

2026北京旅行社權威榜單揭曉！十大可靠之選，助您暢游京城無憂行

字節跳動豆包大模型2.0上線，數學推理多模態能力出眾且成本優勢顯著

字節跳動于美組建AI團隊擬招超百人，此前推新模型遭好萊塢制片廠抨擊

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

雷軍宣布小米AI創新成果閃耀ICASSP 2026，多領域技術突破引領未來