大語言模型的發(fā)展是否只能依賴“預(yù)測下一個token”的路徑?字節(jié)跳動與何愷明團隊近期的研究給出了否定答案。雙方不約而同地將目光投向連續(xù)語義空間,試圖通過新的建模方式突破傳統(tǒng)框架的局限。字節(jié)跳動推出的Cola DLM(Continuous Latent Diffusion Language Model)更以開源形式釋放了論文、代碼和模型權(quán)重,引發(fā)學(xué)術(shù)界關(guān)注。
傳統(tǒng)大模型通常將不同表達視為獨立樣本學(xué)習(xí),例如“今天很開心”與“過得挺愉快”會被分別記憶。字節(jié)團隊認(rèn)為,這種模式忽略了語義的本質(zhì)——相同含義的句子應(yīng)收斂到相近的內(nèi)部表示。Cola DLM的核心創(chuàng)新在于將語義生成與文本翻譯解耦:模型先在連續(xù)空間中組織潛在語義,再通過解碼器將其轉(zhuǎn)化為具體文字。這一過程跳過了離散token的逐步生成,轉(zhuǎn)而關(guān)注語義狀態(tài)的形成。
研究團隊構(gòu)建了專門的Text VAE架構(gòu)處理語義與文本的轉(zhuǎn)換:編碼器將離散文本壓縮為連續(xù)潛在變量,解碼器則負(fù)責(zé)還原。與直接操作token嵌入不同,Cola DLM的潛在變量是可概率建模的隨機變量,能夠捕捉整段文本的語義狀態(tài)。為避免語義表示退化為“穿馬甲的token”,模型在訓(xùn)練中凍結(jié)編碼器參數(shù),僅讓擴散先驗適應(yīng)語義空間,并通過BERT風(fēng)格的掩碼損失防止語義坍塌。
在技術(shù)實現(xiàn)上,Cola DLM采用block-causal DiT+Flow Matching組合替代傳統(tǒng)擴散模型。該方案通過學(xué)習(xí)向量場將簡單分布(如高斯分布)“運輸”至真實語義分布,同時引入塊結(jié)構(gòu)平衡局部語義組織與整體邏輯連貫性。實驗顯示,在約20億參數(shù)、2000 EFLOPs計算量的對照中,Cola DLM展現(xiàn)出比自回歸模型和離散擴散模型更穩(wěn)定的擴展趨勢。
研究團隊將訓(xùn)練目標(biāo)拆解為重建、壓縮和擬合三個可獨立診斷的子任務(wù)。這種設(shè)計使得模型性能優(yōu)化更具針對性——當(dāng)生成效果不佳時,可通過指標(biāo)快速定位是解碼器還原能力不足、語義壓縮信息量不夠,還是先驗分布學(xué)習(xí)偏差導(dǎo)致。相比之下,傳統(tǒng)自回歸模型將所有目標(biāo)混雜在單一損失函數(shù)中,難以精準(zhǔn)定位問題根源。
與何愷明團隊提出的ELF模型相比,Cola DLM展現(xiàn)出不同的技術(shù)路徑。ELF在原始嵌入空間直接操作,通過反復(fù)迭代優(yōu)化最終生成文本;而Cola DLM則采用分層架構(gòu),由語義部門與文本部門分工協(xié)作。盡管方法差異顯著,但兩者均試圖突破“token等于語義”的默認(rèn)框架,探索更適合語言本質(zhì)的建模空間。
這項研究對多模態(tài)統(tǒng)一具有潛在啟示。當(dāng)前跨模態(tài)建模的障礙之一在于文本的離散性與圖像、視頻的連續(xù)性存在鴻溝。Cola DLM通過將文本映射至連續(xù)語義空間,為不同模態(tài)共享潛在表示提供了可能。研究團隊在博客中強調(diào),這僅是早期嘗試,但連續(xù)擴散語言模型已展現(xiàn)出重新定義文本建模方式的潛力。























