特斯拉首席執(zhí)行官埃隆·馬斯克近日在社交平臺X上公開稱贊中國AI公司月之暗面(Kimi)的最新技術(shù)突破,引發(fā)全球科技界廣泛關(guān)注。Kimi官方賬號隨后以輕松幽默的方式回應(yīng)稱:"你的火箭造得也不錯!"這場跨洋互動迅速成為行業(yè)熱議話題。
此次技術(shù)突破的核心在于Kimi團(tuán)隊提出的"注意力殘差"(Attention Residuals)機(jī)制。該研究對深度學(xué)習(xí)領(lǐng)域沿用近十年的殘差連接架構(gòu)進(jìn)行根本性重構(gòu),通過引入動態(tài)選擇機(jī)制,使神經(jīng)網(wǎng)絡(luò)各層能夠智能篩選此前層級的輸出信息。這種創(chuàng)新設(shè)計突破了傳統(tǒng)架構(gòu)中固定、均勻的累加模式,在480億參數(shù)規(guī)模的大模型訓(xùn)練中展現(xiàn)出顯著優(yōu)勢。
實驗數(shù)據(jù)顯示,新架構(gòu)使模型訓(xùn)練效率提升達(dá)1.25倍。研究團(tuán)隊在技術(shù)白皮書中詳細(xì)闡述了該機(jī)制的實現(xiàn)原理:通過引入可學(xué)習(xí)的注意力權(quán)重矩陣,讓模型在訓(xùn)練過程中自主決定信息傳遞路徑,從而優(yōu)化梯度流動和參數(shù)更新效率。這種設(shè)計既保留了殘差連接緩解梯度消失問題的優(yōu)勢,又通過動態(tài)選擇機(jī)制提升了信息利用效率。
值得注意的是,Kimi團(tuán)隊選擇在開源社區(qū)同步發(fā)布技術(shù)細(xì)節(jié)和代碼實現(xiàn),這種開放態(tài)度獲得國際同行高度評價。目前已有多個研究機(jī)構(gòu)基于該架構(gòu)展開延伸研究,相關(guān)論文在預(yù)印本平臺arXiv的引用量持續(xù)攀升。業(yè)內(nèi)人士指出,這種技術(shù)突破與開放共享相結(jié)合的模式,正在重塑全球AI創(chuàng)新生態(tài)。













