成人美女黄网站免费|哔哩哔哩免费观看在线视频|freexx老女人|欧美精品三区|近的2019中文字幕在线|97中文字幕一区二区|日本jazz护士

巨人財經 - 專業科技行業財經媒體

谷歌DeepMind突破AI長視頻處理瓶頸:延遲降低35%,幀數與準確率雙提升

   發布時間:2026-05-26 08:36 作者:楊凌霄

當人工智能嘗試理解一部兩小時的電影時,它面臨的挑戰堪比人類在一秒鐘內讀完整本厚書。傳統視頻處理系統在面對長視頻時,總會遭遇一道難以突破的計算瓶頸。谷歌DeepMind與首爾國立大學聯合開發的新型視覺編碼器Liteframe,為破解這一難題提供了全新思路。這項研究成果以預印本形式發布,編號為arXiv:2605.17260,標志著視頻理解技術進入效率革命的新階段。

主流視頻AI系統普遍采用"視覺編碼器+語言模型"的架構模式。視覺編碼器像眼睛般逐幀掃描畫面,將每幀圖像轉換為數字信號;語言模型則扮演大腦角色,對這些信號進行理解和推理。問題在于,視頻幀數與計算量呈指數級增長關系——幀數翻倍時,視覺編碼器和語言模型的工作量都會大幅增加,而語言模型處理復雜度更呈平方級上升。實驗顯示,現有系統如InternVL3-8B最多只能處理64幀畫面,超過這個閾值系統性能就會急劇下降。

針對計算瓶頸問題,傳統解決方案采用"事后削減"策略:先完整處理所有幀生成大量視覺令牌,再通過技術手段刪減重復信息。這種方法雖減輕了語言模型負擔,卻將壓力轉移至視覺編碼器。研究團隊通過實驗證明,在16倍壓縮率條件下,語言模型處理時間顯著降低,但視覺編碼器耗時成為新的性能瓶頸。隨著幀數增加,系統整體速度反而更慢,這種"頭痛醫腳"的解決方案暴露出根本性缺陷。

研究團隊在系統測試中發現關鍵規律:AI理解能力與輸入幀數呈對數正相關。在Video-MME、MLVU等主流測試集上,幀數增加始終能提升準確率,盡管邊際效益逐漸遞減。這一發現促使團隊轉變思路:若能在相同計算預算下處理更多幀數,就能顯著提升系統性能。這種認知直接催生了Liteframe的核心設計理念。

在正式推出Liteframe前,研究團隊先驗證了加權平均池化(WAP)技術的有效性。該方法通過評估像素區域重要性進行差異化信息保留,在16倍壓縮比條件下達到62.0%的平均準確率,顯著優于傳統采樣方法。更重要的是,實驗證實用壓縮信息換取更多幀數的策略具有顯著優勢:在相同視覺令牌總量下,處理16倍壓縮后的16倍幀數比處理原始幀數效果更好。這為Liteframe的誕生奠定了理論基礎。

Liteframe的創新在于重構了視覺編碼器的核心架構。這個僅8700萬參數的輕量級模型(僅為傳統模型的29%),通過兩大關鍵設計實現效率飛躍:深度可分離一維時間卷積模塊專門識別幀間重復信息,在對話場景等靜態畫面中可自動合并重復內容,計算成本比注意力機制降低60%;漸進式壓縮機制在第4層和第8層插入步進卷積層,逐步縮減特征圖分辨率,最終將每幀256個視覺令牌壓縮至16個。這種"源頭壓縮"策略使視覺編碼器耗時降低70%,徹底改變了傳統處理流程。

訓練這個"聰明眼睛"的關鍵在于壓縮令牌蒸餾(CTD)技術。研究團隊讓大型教師模型生成完整視覺令牌后,用WAP技術壓縮為精華令牌,再訓練Liteframe直接預測這些精華信息。這種訓練方式使模型內化了信息重要性判斷能力,推理時無需額外計算即可輸出高質量精簡特征。對比實驗顯示,CTD訓練的準確率比重構令牌蒸餾(RTD)高出1.3-2.6個百分點,證明明確指導信息篩選比讓模型自主探索更有效。

為使語言模型適應新編碼器輸出,研究團隊采用LoRA技術進行輕量級微調。在8塊H100 GPU上訓練數小時后,語言模型即可高效處理Liteframe輸出的16個視覺令牌格式。實驗發現,低秩設置(秩=4)比高秩設置效果更好,表明語言模型只需小幅調整即可適應新輸入格式。這種高效適配機制確保了系統整體性能的提升。

綜合測試顯示,Liteframe在128幀條件下將端到端延遲從403.6毫秒降至272.6毫秒,準確率從62.2%提升至63.7%;處理256幀時,延遲降低34.6%的同時準確率微升0.4個百分點。與需要額外預篩選模塊的AutoGaze方法相比,Liteframe在256幀條件下的延遲不足其十分之一,準確率卻高出2.6個百分點。在高分辨率測試中,Liteframe通過分塊處理策略實現零樣本泛化,在2688像素、48幀配置下取得54.1分,超越需要3584像素和1024幀的AutoGaze方法。

消融實驗清晰展示了各組件的貢獻值:僅縮小模型規模會導致準確率下降2個百分點;加入壓縮架構后準確率恢復至61.9%;采用深度可分離卷積使延遲進一步降低14.5%;CTD訓練將準確率提升至62.8%;最終加上語言模型適配后,系統在87.4毫秒延遲下達到63.4%準確率,全面超越基準系統。這些數據驗證了Liteframe設計理念的科學性。

研究團隊同時指出當前工作的局限性:訓練數據規模限制了模型處理超長視頻的能力,未在靜態圖像測試集評估性能,更小規模模型訓練存在不穩定問題。這些邊界為后續研究指明了方向,而"內化壓縮"理念已為視頻AI效率提升開辟了全新路徑。對于普通用戶而言,這意味著未來的AI視頻助手將具備更強的長視頻處理能力,在監控分析、內容審核、智能問答等場景將發揮更大價值。技術細節可通過論文編號arXiv:2605.17260深入探究。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新