阿里語音大模型Fun系列登頂全球AI評測！三項指標領先，多場景應用再升級

發布時間：2026-05-22 00:06 來源：快訊作者：鄭浩

在全球人工智能評測領域，阿里巴巴自主研發的語音大模型系列近日取得重大突破。其最新推出的Fun-Realtime-ASR實時語音識別模型與Fun-Realtime-AudioChat語音交互模型，在權威評測平臺Artificial Analysis的最新榜單中雙雙登頂，超越包括GPT-Realtime-2在內的多個國際頂尖模型，在語音技術核心指標上展現強勁實力。

作為語音識別領域的標桿模型，Fun-Realtime-ASR以1.8%的詞錯誤率（WER）刷新行業紀錄。該指標直接反映模型聽寫準確性，數值越低代表識別越精準。這意味著在連續100個詞匯的識別中，模型平均僅會出現不到2個字的誤差。技術團隊透露，通過創新的多模態預訓練架構，模型在復雜聲學環境下的抗干擾能力顯著提升，即便面對口音差異或背景噪音，仍能保持穩定輸出。

該模型的技術優勢不僅體現在精度層面。其毫秒級響應速度可滿足實時交互場景需求，目前已支持包括普通話在內的七大中文方言體系，以及三十余種國際主流語言。針對金融、醫療等垂直領域，模型提供可定制化接口服務，能夠根據特定場景的術語庫和交互邏輯進行優化適配。例如在醫療問診場景中，模型可準確識別專業術語并保持上下文連貫性。

在語音交互維度，Fun-Realtime-AudioChat模型展現出更接近人類水平的綜合能力。該模型在"語音推理"測試中以97.6%的得分登頂，這項指標重點考察模型對語義邏輯、隱含意圖的理解能力。實際測試顯示，模型能夠完成情感分析、多輪推理等復雜任務，甚至可以處理需要常識判斷的對話場景。例如在模擬客服對話中，模型能準確識別用戶情緒波動并調整回應策略。

對話流暢度測試結果同樣引人注目。模型在"對話動態"指標上取得97.8%的得分，該指標衡量系統在真實對話中的應變能力，包括被打斷后的上下文銜接、自然插話時機把握等維度。測試數據顯示，模型在處理對話中斷、語義跳躍等復雜情況時，表現已與人類對話者無明顯差異。這種能力使其在會議紀要生成、智能導航等場景中具有顯著優勢。

目前，這兩款模型已深度集成至阿里巴巴旗下多款國民級應用。在千問APP中，用戶可體驗實時語音轉文字服務；高德地圖借助模型實現更自然的語音導航交互；釘釘用戶則能通過智能會議系統自動生成結構化紀要。技術團隊表示，將持續優化模型在低資源語言和極端環境下的表現，推動語音交互技術向更普惠的方向發展。

更多>同類內容