大語言模型的發展路徑正迎來新的轉折點。傳統自回歸模型依賴的“預測下一個token”模式,開始受到越來越多研究者的質疑。字節跳動與何愷明團隊幾乎同時提出的解決方案,將語言建模的焦點從離散token轉向連續語義空間,為這一領域開辟了全新方向。
字節跳動推出的Cola DLM(Continuous Latent Diffusion Language Model)通過分層架構重新定義了語言生成過程。該模型將文本生成拆解為兩個獨立階段:首先在連續語義空間中構建潛在表達,再通過解碼器將抽象語義轉化為具體文字。這種設計使模型擺脫了對token序列的直接依賴,轉而關注語義本身的組織與演化。實驗數據顯示,在20億參數規模下,Cola DLM展現出比傳統自回歸模型更穩定的擴展趨勢。
研究團隊特別強調表征學習的重要性。他們指出,現有模型往往將不同表達方式的相同語義視為獨立樣本,導致重復學習相似模式。Cola DLM通過Text VAE架構提取文本的“語義指紋”,將離散輸入壓縮為連續潛在變量。這種處理方式使模型能夠識別“我今天很開心”與“今天過得挺愉快”背后的共同語義,而非機械記憶表面詞序。實驗證明,這種語義抽象能力顯著提升了模型對長程依賴關系的處理效率。
在技術實現上,Cola DLM采用block-causal DiT+Flow Matching組合替代傳統擴散模型的“加噪-去噪”機制。該方案通過學習向量場將簡單分布(如高斯分布)逐步轉化為復雜語義分布,同時引入塊狀結構平衡局部生成速度與整體邏輯連貫性。研究團隊形象地比喻:“這相當于為語義組織規劃了一條最優路徑,而非反復修正錯誤表達。”
為防止語義空間退化為token替代品,研究團隊設計了嚴格的訓練隔離機制。編碼器與解碼器專注于文本-語義的雙向轉換,而擴散先驗模塊獨立學習語義生成路徑。這種分工使模型在2000 EFLOPs計算量下,仍能保持latent空間的穩定性。特別添加的BERT風格掩碼損失函數,進一步確保了語義表示的壓縮質量與重建準確性。
與何愷明團隊提出的ELF模型相比,Cola DLM展現出不同的技術路徑。ELF選擇在原始嵌入空間直接操作,通過迭代優化逐步凝聚語義;而Cola DLM則構建了專門的語義處理層,將文本生成分解為語義組織與文字表達兩個階段。這種差異反映了研究者對語言本質的不同理解:前者試圖在現有框架內突破,后者則嘗試重建底層表示體系。
該研究對多模態融合具有重要啟示。傳統模型因文本的離散特性,難以與連續的圖像、視頻數據統一處理。Cola DLM提供的連續語義空間,為跨模態對齊創造了可能。研究團隊透露,其視頻生成模型Seedance系列已采用類似思路,這或許解釋了Cola DLM架構中顯著的視聽生成技術痕跡。
值得關注的是,這項研究由跨學科團隊完成,成員背景涵蓋計算機視覺、生成模型等多個領域。這種組合使模型既保留了語言建模的精細度,又融入了視覺生成中的高效潛在空間處理技術。特別是離散擴散模型LLaDA作者Shen Nie的參與,為連續-離散路線對比提供了獨特視角。






















