字節與何愷明團隊不謀而合！Cola DLM開源探索語言建模新路徑

發布時間：2026-05-19 07:23 來源：快訊作者：蘇婉清

大語言模型的發展路徑正迎來新的轉折點。傳統自回歸模型依賴的“預測下一個token”模式，開始受到越來越多研究者的質疑。字節跳動與何愷明團隊幾乎同時提出的解決方案，將語言建模的焦點從離散token轉向連續語義空間，為這一領域開辟了全新方向。

字節跳動推出的Cola DLM（Continuous Latent Diffusion Language Model）通過分層架構重新定義了語言生成過程。該模型將文本生成拆解為兩個獨立階段：首先在連續語義空間中構建潛在表達，再通過解碼器將抽象語義轉化為具體文字。這種設計使模型擺脫了對token序列的直接依賴，轉而關注語義本身的組織與演化。實驗數據顯示，在20億參數規模下，Cola DLM展現出比傳統自回歸模型更穩定的擴展趨勢。

研究團隊特別強調表征學習的重要性。他們指出，現有模型往往將不同表達方式的相同語義視為獨立樣本，導致重復學習相似模式。Cola DLM通過Text VAE架構提取文本的“語義指紋”，將離散輸入壓縮為連續潛在變量。這種處理方式使模型能夠識別“我今天很開心”與“今天過得挺愉快”背后的共同語義，而非機械記憶表面詞序。實驗證明，這種語義抽象能力顯著提升了模型對長程依賴關系的處理效率。

在技術實現上，Cola DLM采用block-causal DiT+Flow Matching組合替代傳統擴散模型的“加噪-去噪”機制。該方案通過學習向量場將簡單分布（如高斯分布）逐步轉化為復雜語義分布，同時引入塊狀結構平衡局部生成速度與整體邏輯連貫性。研究團隊形象地比喻：“這相當于為語義組織規劃了一條最優路徑，而非反復修正錯誤表達。”

為防止語義空間退化為token替代品，研究團隊設計了嚴格的訓練隔離機制。編碼器與解碼器專注于文本-語義的雙向轉換，而擴散先驗模塊獨立學習語義生成路徑。這種分工使模型在2000 EFLOPs計算量下，仍能保持latent空間的穩定性。特別添加的BERT風格掩碼損失函數，進一步確保了語義表示的壓縮質量與重建準確性。

與何愷明團隊提出的ELF模型相比，Cola DLM展現出不同的技術路徑。ELF選擇在原始嵌入空間直接操作，通過迭代優化逐步凝聚語義；而Cola DLM則構建了專門的語義處理層，將文本生成分解為語義組織與文字表達兩個階段。這種差異反映了研究者對語言本質的不同理解：前者試圖在現有框架內突破，后者則嘗試重建底層表示體系。

該研究對多模態融合具有重要啟示。傳統模型因文本的離散特性，難以與連續的圖像、視頻數據統一處理。Cola DLM提供的連續語義空間，為跨模態對齊創造了可能。研究團隊透露，其視頻生成模型Seedance系列已采用類似思路，這或許解釋了Cola DLM架構中顯著的視聽生成技術痕跡。

值得關注的是，這項研究由跨學科團隊完成，成員背景涵蓋計算機視覺、生成模型等多個領域。這種組合使模型既保留了語言建模的精細度，又融入了視覺生成中的高效潛在空間處理技術。特別是離散擴散模型LLaDA作者Shen Nie的參與，為連續-離散路線對比提供了獨特視角。

更多>同類內容