成人美女黄网站免费|哔哩哔哩免费观看在线视频|freexx老女人|欧美精品三区|近的2019中文字幕在线|97中文字幕一区二区|日本jazz护士

巨人財經 - 專業科技行業財經媒體

DeepMind新突破:字節級語言模型兼顧高效與精準,草稿機制破解計算難題

   發布時間:2026-05-16 18:00 作者:劉敏

谷歌DeepMind與香港大學聯合發布了一項突破性研究,通過名為"草稿紙分塊"(Scratchpad Patching,簡稱SP)的技術,為字節級語言模型的發展開辟了新路徑。這項成果以預印本形式在arXiv平臺公開,編號為arXiv:2605.09630,標志著AI語言處理領域在計算效率與模型質量平衡方面取得重要進展。

傳統語言模型依賴分詞器將文本切割為詞語片段,但這種方法在處理罕見詞匯、外語或符號時容易出現錯誤。字節級模型直接以計算機存儲的最小單位——字節處理文本,理論上能實現跨語言、跨格式的統一處理。然而,字節序列長度是詞語序列的3-4倍,導致計算成本激增。為解決這一問題,研究人員將字節打包為"補丁"進行批量處理,但這種做法又引發了新的挑戰:模型在預測補丁內部字節時,只能依賴上一個補丁的舊信息,形成"補丁滯后"現象。

研究團隊通過類比工廠流水線解釋了這一困境:當工人每完成八個零件才能向調度室匯報進度時,調度室在指導后續生產時只能依賴上一批零件的完成情況,對當前批次的具體進展一無所知。補丁越大,這種信息延遲越嚴重,模型預測質量隨之下降。SP技術的核心突破在于,允許模型在補丁處理過程中生成臨時"草稿",這些草稿不進入最終記憶緩存,但能為后續預測提供最新信息,從而緩解信息滯后問題。

具體實現上,SP在補丁內部設置"中途匯報點",當模型預測不確定性(熵值)超過閾值時,自動觸發草稿生成。這些草稿經主干網絡處理后,僅用于當前補丁的后續預測,最終只保留補丁結束時的正式狀態。這種設計既保持了補丁模型的序列長度優勢,又通過局部信息更新提升了預測準確性。實驗表明,在固定16字節補丁的模型中,SP技術使自然語言理解任務準確率從48.0%提升至54.2%,接近不分塊字節級模型的54.1%,同時內存占用減少16倍。

在代碼生成任務中,SP的優化效果更為顯著。8字節補丁模型在MBPP測試集的通過率從24.1%提升至32.1%,16字節補丁模型則從18.2%躍升至27.5%。這種提升源于SP將計算資源精準分配到信息密集區域——實驗數據顯示,草稿觸發點主要集中在單詞邊界、專有名詞開頭等預測難點位置,而在常見詞匯中間字母處極少觸發。

研究團隊通過統一測試框架驗證了SP的普適性。在包含4000億字節訓練數據的實驗中,SP技術使四種主流補丁方法家族的質量均顯著提升,且不增加推理時的內存開銷。特別值得注意的是,SP使簡單分塊策略(如固定大小分塊)的性能追平甚至超越復雜策略(如學習型H-Net分塊),暗示計算分配方式可能比分塊邊界選擇更為關鍵。

多語言測試結果顯示,SP技術縮小了模型對非英語語言的性能差距。在FLORES-200數據集的200種語言評估中,SP優化后的補丁模型排名顯著提升,與純字節級模型的差距明顯縮小。這得益于SP不依賴特定語言分詞規則的特性,使其能公平處理所有語言。

SP技術的另一大優勢是推理靈活性。通過調整熵觸發閾值,模型可在不重新訓練的情況下動態控制草稿密度,實現質量與效率的實時平衡。實驗表明,SP模型在調整補丁大小時,質量變化比傳統模型平滑得多,展現出更強的環境適應能力。這種特性使同一模型能根據不同部署場景(如移動端或服務器端)靈活切換運行模式。

盡管取得顯著進展,研究團隊也指出SP的局限性:當前設計未減少訓練計算量,草稿更新機制較為簡單,且在多層級補丁架構中的驗證仍屬空白。未來的改進方向包括探索訓練期算力優化、設計更復雜的更新規則,以及開發對所有分塊策略都穩定的觸發機制。這項研究為字節級模型的實際應用鋪平了道路,其核心價值在于通過智能計算分配,實現了效率與質量的雙重提升。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新