成人美女黄网站免费|哔哩哔哩免费观看在线视频|freexx老女人|欧美精品三区|近的2019中文字幕在线|97中文字幕一区二区|日本jazz护士

巨人財經(jīng) - 專業(yè)科技行業(yè)財經(jīng)媒體

字節(jié)與何愷明團隊“同頻共振”:Cola DLM開啟語言模型連續(xù)空間新探索

   發(fā)布時間:2026-05-19 21:23 作者:李娜

大語言模型的發(fā)展是否只能依賴“預(yù)測下一個token”的路徑?字節(jié)跳動與何愷明團隊近期的研究給出了否定答案。雙方不約而同地將目光投向連續(xù)語義空間,試圖通過新的建模方式突破傳統(tǒng)框架的局限。字節(jié)跳動推出的Cola DLM(Continuous Latent Diffusion Language Model)更以開源形式釋放了論文、代碼和模型權(quán)重,引發(fā)學(xué)術(shù)界關(guān)注。

傳統(tǒng)大模型通常將不同表達視為獨立樣本學(xué)習(xí),例如“今天很開心”與“過得挺愉快”會被分別記憶。字節(jié)團隊認(rèn)為,這種模式忽略了語義的本質(zhì)——相同含義的句子應(yīng)收斂到相近的內(nèi)部表示。Cola DLM的核心創(chuàng)新在于將語義生成與文本翻譯解耦:模型先在連續(xù)空間中組織潛在語義,再通過解碼器將其轉(zhuǎn)化為具體文字。這一過程跳過了離散token的逐步生成,轉(zhuǎn)而關(guān)注語義狀態(tài)的形成。

研究團隊構(gòu)建了專門的Text VAE架構(gòu)處理語義與文本的轉(zhuǎn)換:編碼器將離散文本壓縮為連續(xù)潛在變量,解碼器則負(fù)責(zé)還原。與直接操作token嵌入不同,Cola DLM的潛在變量是可概率建模的隨機變量,能夠捕捉整段文本的語義狀態(tài)。為避免語義表示退化為“穿馬甲的token”,模型在訓(xùn)練中凍結(jié)編碼器參數(shù),僅讓擴散先驗適應(yīng)語義空間,并通過BERT風(fēng)格的掩碼損失防止語義坍塌。

在技術(shù)實現(xiàn)上,Cola DLM采用block-causal DiT+Flow Matching組合替代傳統(tǒng)擴散模型。該方案通過學(xué)習(xí)向量場將簡單分布(如高斯分布)“運輸”至真實語義分布,同時引入塊結(jié)構(gòu)平衡局部語義組織與整體邏輯連貫性。實驗顯示,在約20億參數(shù)、2000 EFLOPs計算量的對照中,Cola DLM展現(xiàn)出比自回歸模型和離散擴散模型更穩(wěn)定的擴展趨勢。

研究團隊將訓(xùn)練目標(biāo)拆解為重建、壓縮和擬合三個可獨立診斷的子任務(wù)。這種設(shè)計使得模型性能優(yōu)化更具針對性——當(dāng)生成效果不佳時,可通過指標(biāo)快速定位是解碼器還原能力不足、語義壓縮信息量不夠,還是先驗分布學(xué)習(xí)偏差導(dǎo)致。相比之下,傳統(tǒng)自回歸模型將所有目標(biāo)混雜在單一損失函數(shù)中,難以精準(zhǔn)定位問題根源。

與何愷明團隊提出的ELF模型相比,Cola DLM展現(xiàn)出不同的技術(shù)路徑。ELF在原始嵌入空間直接操作,通過反復(fù)迭代優(yōu)化最終生成文本;而Cola DLM則采用分層架構(gòu),由語義部門與文本部門分工協(xié)作。盡管方法差異顯著,但兩者均試圖突破“token等于語義”的默認(rèn)框架,探索更適合語言本質(zhì)的建模空間。

這項研究對多模態(tài)統(tǒng)一具有潛在啟示。當(dāng)前跨模態(tài)建模的障礙之一在于文本的離散性與圖像、視頻的連續(xù)性存在鴻溝。Cola DLM通過將文本映射至連續(xù)語義空間,為不同模態(tài)共享潛在表示提供了可能。研究團隊在博客中強調(diào),這僅是早期嘗試,但連續(xù)擴散語言模型已展現(xiàn)出重新定義文本建模方式的潛力。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新