真实夫妻露脸自拍视频在线播放-亚洲精品乱码久久久久久蜜月-免费动漫成人av在线观看-中文字幕av三区三级爽-日韩熟女人妻一区二区-亚洲欧美乱日韩乱国产-一二三四区中文字幕在线-国产美女香蕉久久精品-久久视频在线播放视频

馬斯克盛贊!Kimi 論文革新殘差連接 深度學(xué)習(xí)底層范式迎新變

   時(shí)間:2026-03-18 19:17 來源:天脈網(wǎng)作者:陸辰風(fēng)

在人工智能領(lǐng)域,底層架構(gòu)的突破往往比上層應(yīng)用的優(yōu)化更具顛覆性。近日,中國AI公司月之暗面(Moonshot AI)發(fā)布的技術(shù)報(bào)告《Attention Residuals》(注意力殘差)引發(fā)全球關(guān)注,其提出的創(chuàng)新架構(gòu)在同等算力下可將模型性能提升25%,這項(xiàng)突破被OpenAI前核心成員Jerry Tworek譽(yù)為"深度學(xué)習(xí)2.0的開端"。

這項(xiàng)技術(shù)直指現(xiàn)代大模型的核心組件——?dú)埐钸B接(Residual Connections)。自2015年ResNet論文提出該設(shè)計(jì)以來,這種通過"直通道"傳遞原始輸入的機(jī)制已成為深度學(xué)習(xí)的基石。但月之暗面團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)殘差連接存在根本性缺陷:隨著網(wǎng)絡(luò)加深,各層貢獻(xiàn)被稀釋,導(dǎo)致大量中間層實(shí)質(zhì)上處于"閑置"狀態(tài)。研究顯示,某些大模型中超過30%的層可直接移除而不影響性能。

創(chuàng)新的關(guān)鍵在于將注意力機(jī)制從橫向的序列處理維度,旋轉(zhuǎn)90度應(yīng)用于縱向的深度維度。團(tuán)隊(duì)為每層引入可學(xué)習(xí)的"查詢向量",使模型能動(dòng)態(tài)決定參考哪些前序?qū)拥妮敵?。這種設(shè)計(jì)僅增加約100行代碼,卻讓480億參數(shù)模型的驗(yàn)證損失顯著下降。在博士級(jí)科學(xué)推理GPQA-Diamond基準(zhǔn)測試中,新架構(gòu)展現(xiàn)出7.5%的性能飛躍,數(shù)學(xué)和代碼生成任務(wù)也有3%以上的提升。

工程實(shí)現(xiàn)上的突破同樣值得關(guān)注。為解決全量注意力帶來的內(nèi)存爆炸問題,團(tuán)隊(duì)開發(fā)了Block AttnRes方案,將網(wǎng)絡(luò)劃分為多個(gè)模塊,模塊間采用稀疏注意力連接。通過跨階段緩存機(jī)制和兩階段計(jì)算策略,訓(xùn)練開銷控制在4%以內(nèi),推理延遲增加不超過2%。這種設(shè)計(jì)哲學(xué)在理論優(yōu)雅性與工程實(shí)用性之間取得了平衡——當(dāng)測試更激進(jìn)的動(dòng)態(tài)查詢向量方案時(shí),雖然性能進(jìn)一步提升,但因會(huì)增加推理延遲而被放棄。

這項(xiàng)突破的意義遠(yuǎn)超技術(shù)本身。當(dāng)行業(yè)普遍聚焦于數(shù)據(jù)規(guī)模和模型參數(shù)量時(shí),月之暗面選擇回歸深度學(xué)習(xí)的基礎(chǔ)設(shè)施進(jìn)行重構(gòu)。研究顯示,新架構(gòu)改變了模型對(duì)深度與寬度的資源分配偏好,使增加網(wǎng)絡(luò)層數(shù)真正產(chǎn)生價(jià)值,而非簡單的參數(shù)堆砌。這種方法論的轉(zhuǎn)變,可能預(yù)示著深度學(xué)習(xí)進(jìn)入新的發(fā)展階段——當(dāng)現(xiàn)有框架的優(yōu)化空間逐漸耗盡,重新審視那些被視為"已解決問題"的基礎(chǔ)組件,或許能打開新的性能天花板。

 
 
更多>同類天脈資訊
全站最新
熱門內(nèi)容
媒體信息
新傳播周刊
新傳播,傳播新經(jīng)濟(jì)之聲!
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)隱私  |  RSS訂閱  |  違規(guī)舉報(bào) 魯公網(wǎng)安備37010202700497號(hào)