小米公司近日對外公布,其研發的多項人工智能技術成果成功入選國際聲學、語音與信號處理領域頂級學術會議ICASSP 2026的展示名單。這些成果覆蓋音頻理解、音樂生成質量評估、通用音頻-文本跨模態預訓練以及視頻內容轉音頻合成等前沿技術方向,標志著該企業在智能聲學領域的技術積累獲得國際學術界認可。
據技術團隊介紹,此次入選的音頻理解技術實現了對復雜聲學場景的精準解析,能夠從混合音頻信號中分離并識別特定聲源信息;音樂生成評估體系則構建了多維度的量化評價模型,可對AI生成音樂的藝術性與技術性進行客觀評分;跨模態預訓練框架通過統一表征學習,顯著提升了音頻與文本數據的關聯處理效率;而視頻轉音頻技術突破了傳統方法對畫面信息的依賴,僅通過視覺特征即可生成高質量環境音效。
作為全球規模最大的聲學信號處理學術會議,ICASSP 2026將于今年5月在西班牙巴塞羅那舉行。會議組委會透露,本屆收到來自87個國家和地區的超過6000篇投稿,最終錄取率不足30%,其中跨模態智能處理領域的競爭尤為激烈。小米此次有四個獨立研究項目同時入選,在參會企業中位居前列。
行業分析師指出,隨著多模態大模型技術的快速發展,聲學信號處理正從單一模態向跨模態融合演進。小米此次展示的技術矩陣,既包含底層算法創新,也涉及應用場景拓展,特別是在環境聲學重建和智能內容生成領域形成了差異化優勢,或將推動消費電子設備在音頻交互體驗方面產生變革性突破。











