谷歌DeepMind與香港大學聯合發布了一項突破性研究,提出名為"草稿紙分塊"(Scratchpad Patching,簡稱SP)的新方法,旨在解決字節級語言模型中長期存在的"補丁滯后"難題。該研究以預印本形式在arXiv平臺公開,編號為arXiv:2605.09630,為提升AI模型處理文本的效率與質量提供了全新思路。
傳統語言模型依賴分詞器將文本切割為詞語碎片后處理,但面對生僻詞、外語或代碼時易出現錯誤。字節級模型直接以計算機存儲的最小單位——字節為處理對象,理論上可兼容所有語言與格式,但字節序列過長導致計算成本激增。為平衡效率與成本,研究人員提出將連續字節打包為"補丁"(patch),以補丁為單位處理文本,但這一方法又引發了新的挑戰:模型在預測補丁內部字節時,只能依賴上一個補丁的"舊信息",無法獲取當前補丁已處理部分的內容,這種信息滯后被稱為"補丁滯后"。
研究團隊以工廠流水線為喻解釋這一現象:工人每完成八個零件才能向調度室匯報進度,而調度室需在工人未匯報前指揮后續操作,只能依賴上一批零件的完成情況,對當前進度一無所知。補丁越大,信息滯后越嚴重,模型預測質量越差;補丁越小,質量提升但效率下降。這一矛盾長期制約字節級模型的發展。
SP方法的核心在于允許模型在補丁內部"邊處理邊記錄臨時草稿"。與傳統模型僅在補丁結束時生成最終狀態不同,SP在補丁處理過程中根據需要插入臨時草稿,供后續字節預測參考。這些草稿僅用于當前計算,不存入模型記憶緩存,因此不會增加內存占用。實驗表明,SP可顯著緩解信息滯后問題,使模型在預測時依賴的"最新匯報"從上一個補丁的舊信息,變為當前補丁內最近的草稿更新。
為優化計算效率,SP采用基于預測熵的動態觸發機制:當模型對下一個字節的預測不確定度高(高熵)時,生成草稿;不確定度低(低熵)時則跳過。這一策略確保計算資源集中于信息密集區域,避免無差別生成草稿導致的效率損失。研究團隊設計的注意力掩碼進一步保證草稿與正式補丁狀態互不干擾,訓練時通過并行計算草稿狀態,不增加時間成本;推理時僅保留正式補丁,內存占用與普通補丁模型持平。
實驗在統一框架下對比了多種模型的表現,包括純字節級模型、傳統分詞器模型及四種補丁方法家族(固定大小分塊、SpaceByte分塊、基于熵的分塊、H-Net分塊),每個家族均測試了加SP與不加SP的版本。結果顯示,SP在所有補丁方法中均顯著提升質量,且不增加內存開銷。例如,固定大小16字節補丁的模型加SP后,自然語言理解任務準確率從48.0%躍升至54.2%,接近純字節級模型的54.1%,同時KV緩存仍小16倍,計算量減少3至4倍。代碼生成任務中,SP的收益更為突出:固定大小8字節補丁的模型在MBPP測試集上的通過率從24.1%提升至32.1%,Humaneval測試集從13.0%提升至15.9%。
進一步分析表明,SP的提升并非單純源于計算量增加。在等算力對比實驗中,SP模型在相同訓練浮點運算量下,驗證集每字節比特數(BPB)均達到或優于非SP基準,證明其通過精準分配計算資源實現了效率與質量的雙贏。唯一例外是H-Net分塊,SP在等算力比較中輕微拖累BPB,研究團隊認為這可能源于H-Net的學習型補丁邊界與SP的熵觸發機制存在位置偏移耦合,導致重復計算。
多語言測試顯示,SP可縮小模型對非英語語言的性能差距。在FLORES-200數據集的200種語言評估中,加SP的補丁模型排名顯著提升,與純字節級模型的差距明顯縮小,而傳統分詞器模型因依賴英語訓練語料,在小語種上表現墊底。這一結果驗證了SP的跨語言普適性。
SP的另一優勢是推理時的靈活性。傳統補丁模型的補丁大小和效率在訓練時固定,部署后無法調整;SP模型則可在推理時動態調節補丁大小或草稿頻率,無需重新訓練。例如,調整熵觸發閾值可控制草稿密度:提高閾值減少草稿,提升速度但輕微降低質量;降低閾值增加草稿,提升質量但增加計算量。這種調節為不同部署場景提供了靈活的質量-效率權衡空間。
盡管SP已取得顯著進展,研究團隊仍指出其局限性:訓練階段引入的草稿狀態會增加一定計算量,未來需探索訓練期節省算力的設計;當前草稿機制為簡單的增量更新,未來可借鑒循環神經網絡思路優化更新規則;SP在多層級補丁架構中的系統性研究尚屬空白;與H-Net的兼容性問題也需進一步解決。





















