雷軍宣布小米AI創新成果閃耀ICASSP 2026,多領域技術突破引關注

   時間:2026-01-22 15:38 來源:天脈網作者:沈瑾瑜

小米在人工智能領域再次取得重大突破,其多項AI創新成果成功入選國際頂級學術會議ICASSP 2026。這一全球音頻領域最具權威性的學術盛會將于今年5月在西班牙巴塞羅那舉行,首次會議可追溯至1976年美國費城。此次入選的成果涵蓋音頻理解、音樂生成評估、聯邦學習泛化、跨模態預訓練等多個前沿方向,展現了小米在AI技術研發上的深厚積累。

在音頻理解領域,小米團隊提出的ACAVCaps數據集開創了精細化標注新范式。該數據集通過多專家模型并行提取聲音事件、音樂特征等元數據,并引入大語言模型進行邏輯整合,使標注文本從簡單標簽升級為具備上下文關系的自然語言。這項創新解決了傳統數據集"規模大但描述簡略"或"描述詳盡但規模受限"的矛盾,包含約470萬條音頻-文本對,近期將全面開源。研究團隊表示,這將推動音頻AI從特征識別向語義理解躍遷。

聯邦學習領域迎來重要突破,小米提出的FedDCG框架首次在聯邦學習設置下聯合解決類別和域泛化問題。該框架通過域分組策略避免決策邊界混淆,采用類特定協作訓練機制增強模型魯棒性。實驗數據顯示,在Office-Home數據集上訓練的模型在ImageNet-R測試中準確率達70.30%,較次優方法提升近3個百分點。這項技術特別適用于跨域圖像分類和隱私保護場景,為移動端智能處理提供了高效解決方案。

音樂生成評估領域,小米研發的FUSEMOS雙編碼器架構實現了感知評估的質的飛躍。該架構融合CLAP的語義對齊能力和MERT的音樂結構建模能力,通過晚期融合策略保留模態獨立性,并引入排名感知復合損失函數。在Musiceval基準測試中,新方法在均方誤差和排序相關性等關鍵指標上顯著優于現有技術,為文本到音樂生成系統提供了更貼近人類聽覺的評估標準。

跨模態預訓練方面,GLAP模型實現了跨音頻領域與跨語言的雙重突破。該模型通過單一框架同時優化語音、音樂及聲音事件的檢索性能,在LibriSpeech英文語音檢索中recall@1達94%,AISHELL-2中文語音檢索達99%。更引人注目的是,GLAP具備50種語言的零樣本關鍵詞識別能力,可直接賦能小米"人車家全生態"中的語音交互、多模指令理解等場景,顯著降低下游產品線的研發門檻。

視頻到音頻合成領域,MeanFlow模型通過平均速度場建模實現推理效率的革命性提升。該模型摒棄傳統多步迭代采樣,實現8秒音頻僅需0.056秒的極速生成,同時保持SOTA級的音效質量。實驗表明,其推理速度較現有方法提升2至500倍,且能自然延伸至文本生音效任務。這項技術將為影視配音、短視頻創作、虛擬形象交互等領域帶來實時音效生成的新可能。

多模態檢索領域,小米研發的統一多任務學習框架實現了"找圖、找文、意圖理解"的深度整合。該框架通過單個文本編碼器同時對齊圖像和文本語義空間,并引入跨注意力機制與NLU模型交互。實驗顯示,新方法在多語言測試中平均召回率達93.3%-94.8%,較主流模型提升1.1%-2.7個百分點,同時將模型復雜度降低40%以上,為手機場景下的多模態檢索提供了輕量化解決方案。

 
 
更多>同類天脈資訊
全站最新
熱門內容
媒體信息
新傳播周刊
新傳播,傳播新經濟之聲!
網站首頁  |  關于我們  |  聯系方式  |  版權隱私  |  RSS訂閱  |  違規舉報 魯公網安備37010202700497號