真实夫妻露脸自拍视频在线播放-亚洲精品乱码久久久久久蜜月-免费动漫成人av在线观看-中文字幕av三区三级爽-日韩熟女人妻一区二区-亚洲欧美乱日韩乱国产-一二三四区中文字幕在线-国产美女香蕉久久精品-久久视频在线播放视频

馬斯克盛贊Kimi新突破!大模型底層架構(gòu)迎來十年未有之變局

   時間:2026-03-18 18:56 來源:快訊作者:胡穎

在人工智能領(lǐng)域,底層架構(gòu)的創(chuàng)新往往比上層應(yīng)用的優(yōu)化更具顛覆性。月之暗面Kimi團隊近期發(fā)布的技術(shù)報告《Attention Residuals》(注意力殘差),通過重構(gòu)殘差連接機制,在同等算力下將模型訓(xùn)練效率提升至傳統(tǒng)方法的1.25倍,這項突破性成果引發(fā)了硅谷頂尖AI專家的廣泛關(guān)注。OpenAI前核心成員Jerry Tworek甚至將其譽為"深度學(xué)習(xí)2.0的開端",認為這項研究標(biāo)志著基礎(chǔ)范式變革的起點。

傳統(tǒng)大模型普遍采用殘差連接結(jié)構(gòu),這種自2015年ResNet論文提出的設(shè)計,通過保留原始輸入的"直通道"解決了深層網(wǎng)絡(luò)訓(xùn)練難題。但Kimi團隊發(fā)現(xiàn),這種等權(quán)疊加所有層輸出的方式存在根本性缺陷:隨著網(wǎng)絡(luò)深度增加,中間層的貢獻會被后續(xù)層的信息稀釋,導(dǎo)致大量計算資源浪費在無效訓(xùn)練上。實驗數(shù)據(jù)顯示,現(xiàn)有模型中超過30%的神經(jīng)網(wǎng)絡(luò)層對最終效果影響微乎其微。

研究團隊通過數(shù)學(xué)推導(dǎo)發(fā)現(xiàn),殘差連接在深度方向的信息聚合問題,與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在時間方向的信息衰減具有相同的數(shù)學(xué)結(jié)構(gòu)?;谶@個洞察,他們創(chuàng)造性地將Transformer的注意力機制從序列維度旋轉(zhuǎn)90度,應(yīng)用到網(wǎng)絡(luò)深度維度。新設(shè)計的AttnRes模塊為每層配備動態(tài)查詢向量,使模型能夠自主選擇需要參考的前序?qū)有畔?,就像為每個神經(jīng)網(wǎng)絡(luò)層配備了智能信息篩選器。

在工程實現(xiàn)上,團隊采用分塊注意力機制(Block AttnRes)解決大規(guī)模訓(xùn)練的內(nèi)存瓶頸。通過將128層網(wǎng)絡(luò)劃分為8個計算塊,在塊間使用注意力機制、塊內(nèi)保留傳統(tǒng)殘差連接,既保證了效果又控制了計算開銷。測試表明,這種設(shè)計在480億參數(shù)模型上僅增加4%訓(xùn)練成本,就實現(xiàn)了驗證損失顯著下降。在博士級科學(xué)推理GPQA-Diamond基準(zhǔn)測試中,新模型準(zhǔn)確率提升7.5%,數(shù)學(xué)解題能力提升3.6%,代碼生成質(zhì)量提升3.1%。

這項突破的深層意義在于改變了模型架構(gòu)的設(shè)計范式。傳統(tǒng)模型偏好"寬而淺"的結(jié)構(gòu),而AttnRes技術(shù)使"窄而深"的架構(gòu)成為更優(yōu)選擇??梢暬治鲲@示,新模型訓(xùn)練過程中各層梯度分布更加均勻,有效解決了PreNorm結(jié)構(gòu)中后期層數(shù)值爆炸的問題。更值得關(guān)注的是,這種信息聚合方式的變革為跨模態(tài)訓(xùn)練開辟了新路徑,Kimi團隊同期發(fā)布的Vision RL技術(shù)就通過類似機制,使純文本模型在視覺任務(wù)上的表現(xiàn)提升2.1%。

Kimi團隊同步披露的系列創(chuàng)新顯示,這場底層技術(shù)革命正在全面展開。他們研發(fā)的MuonClip優(yōu)化器將計算效率提升至AdamW的兩倍,Kimi Linear架構(gòu)在超長上下文處理中實現(xiàn)5-6倍解碼加速。這些突破共同構(gòu)成了"Token效率×長上下文×智能體協(xié)作"的三維Scaling框架,標(biāo)志著大模型發(fā)展從資源堆砌轉(zhuǎn)向效率革命的新階段。正如研究團隊在GitHub開源頁面所強調(diào)的:"當(dāng)別人忙著給通天塔添磚加瓦時,我們選擇重新夯實地基。"

 
 
更多>同類天脈資訊
全站最新
熱門內(nèi)容
媒體信息
新傳播周刊
新傳播,傳播新經(jīng)濟之聲!
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)隱私  |  RSS訂閱  |  違規(guī)舉報 魯公網(wǎng)安備37010202700497號