字節(jié)與何愷明團隊“同頻共振”：Cola DLM開啟語言模型連續(xù)空間新探索

發(fā)布時間：2026-05-19 21:23 來源：快訊作者：李娜

大語言模型的發(fā)展是否只能依賴“預(yù)測下一個token”的路徑？字節(jié)跳動與何愷明團隊近期的研究給出了否定答案。雙方不約而同地將目光投向連續(xù)語義空間，試圖通過新的建模方式突破傳統(tǒng)框架的局限。字節(jié)跳動推出的Cola DLM（Continuous Latent Diffusion Language Model）更以開源形式釋放了論文、代碼和模型權(quán)重，引發(fā)學(xué)術(shù)界關(guān)注。

傳統(tǒng)大模型通常將不同表達視為獨立樣本學(xué)習(xí)，例如“今天很開心”與“過得挺愉快”會被分別記憶。字節(jié)團隊認(rèn)為，這種模式忽略了語義的本質(zhì)——相同含義的句子應(yīng)收斂到相近的內(nèi)部表示。Cola DLM的核心創(chuàng)新在于將語義生成與文本翻譯解耦：模型先在連續(xù)空間中組織潛在語義，再通過解碼器將其轉(zhuǎn)化為具體文字。這一過程跳過了離散token的逐步生成，轉(zhuǎn)而關(guān)注語義狀態(tài)的形成。

研究團隊構(gòu)建了專門的Text VAE架構(gòu)處理語義與文本的轉(zhuǎn)換：編碼器將離散文本壓縮為連續(xù)潛在變量，解碼器則負(fù)責(zé)還原。與直接操作token嵌入不同，Cola DLM的潛在變量是可概率建模的隨機變量，能夠捕捉整段文本的語義狀態(tài)。為避免語義表示退化為“穿馬甲的token”，模型在訓(xùn)練中凍結(jié)編碼器參數(shù)，僅讓擴散先驗適應(yīng)語義空間，并通過BERT風(fēng)格的掩碼損失防止語義坍塌。

在技術(shù)實現(xiàn)上，Cola DLM采用block-causal DiT+Flow Matching組合替代傳統(tǒng)擴散模型。該方案通過學(xué)習(xí)向量場將簡單分布（如高斯分布）“運輸”至真實語義分布，同時引入塊結(jié)構(gòu)平衡局部語義組織與整體邏輯連貫性。實驗顯示，在約20億參數(shù)、2000 EFLOPs計算量的對照中，Cola DLM展現(xiàn)出比自回歸模型和離散擴散模型更穩(wěn)定的擴展趨勢。

研究團隊將訓(xùn)練目標(biāo)拆解為重建、壓縮和擬合三個可獨立診斷的子任務(wù)。這種設(shè)計使得模型性能優(yōu)化更具針對性——當(dāng)生成效果不佳時，可通過指標(biāo)快速定位是解碼器還原能力不足、語義壓縮信息量不夠，還是先驗分布學(xué)習(xí)偏差導(dǎo)致。相比之下，傳統(tǒng)自回歸模型將所有目標(biāo)混雜在單一損失函數(shù)中，難以精準(zhǔn)定位問題根源。

與何愷明團隊提出的ELF模型相比，Cola DLM展現(xiàn)出不同的技術(shù)路徑。ELF在原始嵌入空間直接操作，通過反復(fù)迭代優(yōu)化最終生成文本；而Cola DLM則采用分層架構(gòu)，由語義部門與文本部門分工協(xié)作。盡管方法差異顯著，但兩者均試圖突破“token等于語義”的默認(rèn)框架，探索更適合語言本質(zhì)的建模空間。

這項研究對多模態(tài)統(tǒng)一具有潛在啟示。當(dāng)前跨模態(tài)建模的障礙之一在于文本的離散性與圖像、視頻的連續(xù)性存在鴻溝。Cola DLM通過將文本映射至連續(xù)語義空間，為不同模態(tài)共享潛在表示提供了可能。研究團隊在博客中強調(diào)，這僅是早期嘗試，但連續(xù)擴散語言模型已展現(xiàn)出重新定義文本建模方式的潛力。

更多>同類內(nèi)容