小米在人工智能領域再獲突破,其多項AI創新成果成功入選國際頂級學術會議ICASSP 2026。這一會議作為全球音頻領域最具權威性與影響力的學術盛會之一,自1976年在美國費城首次舉辦以來,已有近50年歷史。ICASSP 2026將于今年5月在西班牙巴塞羅那舉行,小米的入選標志著其在AI技術研發上的國際領先地位。
在音頻理解領域,小米團隊推出了名為ACAVCaps的創新數據集。該數據集通過自動化管線,從多維度、多視角對音頻內容進行精細化描述,解決了現有數據集在規模與描述粒度上難以兼得的瓶頸。ACAVCaps構建了多級自動化標注框架,利用多個專家模型并行提取音頻中的關鍵元數據,并通過大語言模型和思維鏈推理策略進行邏輯整合。這一方法使標注文本從單一標簽進化為具備邏輯層次和上下文信息的自然語言。ACAVCaps包含約470萬條音頻-文本對,將推動音頻AI從簡單的特征識別向深度的語義理解發展,并計劃近期全面開源。
在聯邦學習領域,小米提出了FedDCG框架,首次在聯邦學習設置下聯合解決類別和域泛化問題。傳統方法往往因決策邊界混淆、計算資源限制等問題,在復雜場景下性能受限。FedDCG通過域分組策略和類特定協作訓練機制,避免了類別和領域決策邊界之間的混淆,顯著提升了模型在未知環境中的準確性與魯棒性。實驗表明,FedDCG在多個數據集上的表現優于當前最先進的基線方法,尤其在數據稀缺場景下仍保持領先,為跨域圖像分類和隱私保護下的模型部署提供了可行路徑。
在音樂生成感知評估方面,小米團隊提出了FUSEMOS架構。現有自動音樂感知評估方法主要依賴單一音頻編碼器,難以捕捉音樂中的復雜結構與細粒度特征。FUSEMOS融合了CLAP與MERT兩大預訓練模型,通過雙編碼器架構實現更精準、更貼近人類聽覺感知的評估。實驗結果表明,FUSEMOS在關鍵指標上顯著優于現有方法,驗證了其在音樂感知評估中的有效性。
小米還提出了GLAP模型,實現了跨音頻領域與跨語言的音頻-文本對齊。GLAP首次通過單一框架同時優化語音、音樂及聲音事件的檢索與分類性能,解決了傳統CLAP模型領域割裂的問題。該模型在多個語音和聲音檢索基準上保持競爭力,并具備多語言泛化能力,無需目標語種微調即可在50種語言的關鍵詞識別中展現Zero-shot能力。GLAP將直接賦能小米“人車家全生態”中的跨模態理解場景,如復雜聲學場景下的魯棒語音交互、車載多模指令理解等。
在視頻到音頻合成領域,小米團隊提出了MeanFlow模型,實現了推理效率與生成質量的雙重突破。MeanFlow通過平均速度場建模替代傳統流匹配模型的瞬時速度建模,解決了多步迭代采樣導致的推理速度瓶頸,實現推理階段的一步生成。實驗表明,MeanFlow在推理速度大幅提升的同時,精準保障了音效生成質量,并確保音視頻語義對齊與時間同步性。該模型將顯著降低下游音視頻創作與智能交互產品的研發門檻,推動實時音效生成技術的規模化落地。
在多模態檢索領域,小米提出了一種統一的多任務學習框架,將“找圖、找文、意圖理解”整合到兩個模型中。該框架通過文本編碼器同時對齊圖像和文本的語義空間,并通過跨注意力機制與NLU模型進行語義交互,實現了意圖感知和語義增強。實驗表明,該框架在找圖與找文任務上均達到或超過現有最優方法,并支持多語言輸入,為小米手機場景下的多模態檢索提供了輕量化、高性能的解決方案。








