谷歌DeepMind突破AI長視頻處理瓶頸：延遲降低35%，幀數與準確率雙提升

發布時間：2026-05-26 08:36 來源：快訊作者：楊凌霄

當人工智能嘗試理解一部兩小時的電影時，它面臨的挑戰堪比人類在一秒鐘內讀完整本厚書。傳統視頻處理系統在面對長視頻時，總會遭遇一道難以突破的計算瓶頸。谷歌DeepMind與首爾國立大學聯合開發的新型視覺編碼器Liteframe，為破解這一難題提供了全新思路。這項研究成果以預印本形式發布，編號為arXiv:2605.17260，標志著視頻理解技術進入效率革命的新階段。

主流視頻AI系統普遍采用"視覺編碼器+語言模型"的架構模式。視覺編碼器像眼睛般逐幀掃描畫面，將每幀圖像轉換為數字信號；語言模型則扮演大腦角色，對這些信號進行理解和推理。問題在于，視頻幀數與計算量呈指數級增長關系——幀數翻倍時，視覺編碼器和語言模型的工作量都會大幅增加，而語言模型處理復雜度更呈平方級上升。實驗顯示，現有系統如InternVL3-8B最多只能處理64幀畫面，超過這個閾值系統性能就會急劇下降。

針對計算瓶頸問題，傳統解決方案采用"事后削減"策略：先完整處理所有幀生成大量視覺令牌，再通過技術手段刪減重復信息。這種方法雖減輕了語言模型負擔，卻將壓力轉移至視覺編碼器。研究團隊通過實驗證明，在16倍壓縮率條件下，語言模型處理時間顯著降低，但視覺編碼器耗時成為新的性能瓶頸。隨著幀數增加，系統整體速度反而更慢，這種"頭痛醫腳"的解決方案暴露出根本性缺陷。

研究團隊在系統測試中發現關鍵規律：AI理解能力與輸入幀數呈對數正相關。在Video-MME、MLVU等主流測試集上，幀數增加始終能提升準確率，盡管邊際效益逐漸遞減。這一發現促使團隊轉變思路：若能在相同計算預算下處理更多幀數，就能顯著提升系統性能。這種認知直接催生了Liteframe的核心設計理念。

在正式推出Liteframe前，研究團隊先驗證了加權平均池化（WAP）技術的有效性。該方法通過評估像素區域重要性進行差異化信息保留，在16倍壓縮比條件下達到62.0%的平均準確率，顯著優于傳統采樣方法。更重要的是，實驗證實用壓縮信息換取更多幀數的策略具有顯著優勢：在相同視覺令牌總量下，處理16倍壓縮后的16倍幀數比處理原始幀數效果更好。這為Liteframe的誕生奠定了理論基礎。

Liteframe的創新在于重構了視覺編碼器的核心架構。這個僅8700萬參數的輕量級模型（僅為傳統模型的29%），通過兩大關鍵設計實現效率飛躍：深度可分離一維時間卷積模塊專門識別幀間重復信息，在對話場景等靜態畫面中可自動合并重復內容，計算成本比注意力機制降低60%；漸進式壓縮機制在第4層和第8層插入步進卷積層，逐步縮減特征圖分辨率，最終將每幀256個視覺令牌壓縮至16個。這種"源頭壓縮"策略使視覺編碼器耗時降低70%，徹底改變了傳統處理流程。

訓練這個"聰明眼睛"的關鍵在于壓縮令牌蒸餾（CTD）技術。研究團隊讓大型教師模型生成完整視覺令牌后，用WAP技術壓縮為精華令牌，再訓練Liteframe直接預測這些精華信息。這種訓練方式使模型內化了信息重要性判斷能力，推理時無需額外計算即可輸出高質量精簡特征。對比實驗顯示，CTD訓練的準確率比重構令牌蒸餾（RTD）高出1.3-2.6個百分點，證明明確指導信息篩選比讓模型自主探索更有效。

為使語言模型適應新編碼器輸出，研究團隊采用LoRA技術進行輕量級微調。在8塊H100 GPU上訓練數小時后，語言模型即可高效處理Liteframe輸出的16個視覺令牌格式。實驗發現，低秩設置（秩=4）比高秩設置效果更好，表明語言模型只需小幅調整即可適應新輸入格式。這種高效適配機制確保了系統整體性能的提升。

綜合測試顯示，Liteframe在128幀條件下將端到端延遲從403.6毫秒降至272.6毫秒，準確率從62.2%提升至63.7%；處理256幀時，延遲降低34.6%的同時準確率微升0.4個百分點。與需要額外預篩選模塊的AutoGaze方法相比，Liteframe在256幀條件下的延遲不足其十分之一，準確率卻高出2.6個百分點。在高分辨率測試中，Liteframe通過分塊處理策略實現零樣本泛化，在2688像素、48幀配置下取得54.1分，超越需要3584像素和1024幀的AutoGaze方法。

消融實驗清晰展示了各組件的貢獻值：僅縮小模型規模會導致準確率下降2個百分點；加入壓縮架構后準確率恢復至61.9%；采用深度可分離卷積使延遲進一步降低14.5%；CTD訓練將準確率提升至62.8%；最終加上語言模型適配后，系統在87.4毫秒延遲下達到63.4%準確率，全面超越基準系統。這些數據驗證了Liteframe設計理念的科學性。

研究團隊同時指出當前工作的局限性：訓練數據規模限制了模型處理超長視頻的能力，未在靜態圖像測試集評估性能，更小規模模型訓練存在不穩定問題。這些邊界為后續研究指明了方向，而"內化壓縮"理念已為視頻AI效率提升開辟了全新路徑。對于普通用戶而言，這意味著未來的AI視頻助手將具備更強的長視頻處理能力，在監控分析、內容審核、智能問答等場景將發揮更大價值。技術細節可通過論文編號arXiv:2605.17260深入探究。

更多>同類內容