真实夫妻露脸自拍视频在线播放-亚洲精品乱码久久久久久蜜月-免费动漫成人av在线观看-中文字幕av三区三级爽-日韩熟女人妻一区二区-亚洲欧美乱日韩乱国产-一二三四区中文字幕在线-国产美女香蕉久久精品-久久视频在线播放视频

華中科技大學(xué)與字節(jié)跳動(dòng)攜手:深度混合注意力機(jī)制為AI模型“提智”賦能

   時(shí)間:2026-03-26 03:00 來源:快訊作者:王婷

大型語言模型在深度擴(kuò)展過程中面臨的信息衰減問題,一直是制約其性能提升的關(guān)鍵瓶頸。華中科技大學(xué)電子信息與通信學(xué)院與字節(jié)跳動(dòng)Seed團(tuán)隊(duì)聯(lián)合攻關(guān),提出深度混合注意力機(jī)制(MoDA),為突破這一技術(shù)瓶頸提供了創(chuàng)新方案。該研究成果發(fā)表于學(xué)術(shù)平臺(tái)arXiv,論文編號(hào)為arXiv:2603.15619v1。

隨著模型層數(shù)增加,早期處理的重要信息會(huì)逐漸被稀釋,就像傳話游戲中信息傳遞越遠(yuǎn)越容易失真。傳統(tǒng)解決方案存在明顯局限:殘差連接雖能緩解梯度消失問題,但會(huì)將歷史信息壓縮成單一線索,導(dǎo)致關(guān)鍵特征丟失;密集連接雖能完整保留歷史信息,但計(jì)算復(fù)雜度隨層數(shù)平方增長(zhǎng),在大型模型中難以應(yīng)用。研究團(tuán)隊(duì)通過重新設(shè)計(jì)信息傳遞方式,在保留歷史信息與控制計(jì)算開銷之間找到平衡點(diǎn)。

MoDA的核心創(chuàng)新在于將序列級(jí)注意力與深度級(jí)注意力融合到統(tǒng)一框架中。每個(gè)注意力頭在處理當(dāng)前層信息時(shí),可自適應(yīng)訪問所有前置層的關(guān)鍵信息。具體實(shí)現(xiàn)上,模型為每個(gè)序列位置構(gòu)建擴(kuò)展鍵值序列,前半部分為標(biāo)準(zhǔn)序列信息,后半部分為深度歷史信息,通過掩碼機(jī)制確保因果性約束。在寫入階段,當(dāng)前層的鍵值對(duì)會(huì)被追加到深度流中,供后續(xù)層調(diào)用。

研究團(tuán)隊(duì)通過硬件感知設(shè)計(jì)顯著提升了計(jì)算效率。針對(duì)深度鍵值緩存的非連續(xù)訪問問題,提出塊感知布局方案,將查詢分塊處理,每個(gè)塊僅訪問對(duì)應(yīng)局部深度區(qū)域。結(jié)合分組查詢注意力特性,進(jìn)一步開發(fā)組感知計(jì)算方法,使有效深度利用率提升至G/C(G為組大小,C為塊大?。?。實(shí)驗(yàn)數(shù)據(jù)顯示,優(yōu)化后的實(shí)現(xiàn)在64K序列長(zhǎng)度下達(dá)到FlashAttention-2效率的97.3%。

在模型性能驗(yàn)證方面,研究團(tuán)隊(duì)使用OLMo2數(shù)據(jù)集訓(xùn)練了700M和1.5B參數(shù)規(guī)模的模型。實(shí)驗(yàn)表明,MoDA在10個(gè)驗(yàn)證基準(zhǔn)上平均降低0.2困惑度,在10個(gè)下游任務(wù)中平均提升2.11%性能,而計(jì)算開銷僅增加3.7%的FLOPs。消融研究顯示,深度鍵值投影組件貢獻(xiàn)顯著,單獨(dú)使用即可降低0.41訓(xùn)練困惑度,添加前饋網(wǎng)絡(luò)投影后性能進(jìn)一步提升。

注意力可視化分析揭示了MoDA的獨(dú)特工作機(jī)制。模型在中間層和后期層會(huì)主動(dòng)分配注意力權(quán)重給深度歷史信息,不同類型注意力頭形成分工協(xié)作:尖銳頭在保持序列關(guān)注的同時(shí)分配部分概率給深度位置,寬泛頭則更多依賴深度信息。這種模式使注意力分布更廣泛,突破了傳統(tǒng)模型對(duì)固定匯聚位置的依賴。

針對(duì)不同深度配置的實(shí)驗(yàn)表明,MoDA在48層深層模型和24層淺層模型中均能穩(wěn)定改善性能。特別在后歸一化配置下,48層模型的驗(yàn)證損失改善幅度達(dá)到0.0409,是預(yù)歸一化配置的10倍。漸進(jìn)式優(yōu)化實(shí)驗(yàn)顯示,從樸素實(shí)現(xiàn)到完全優(yōu)化版本,運(yùn)行時(shí)間縮短了1458倍,驗(yàn)證了硬件感知設(shè)計(jì)的重要性。

盡管MoDA已實(shí)現(xiàn)高效硬件實(shí)現(xiàn),但研究團(tuán)隊(duì)指出,在萬億參數(shù)規(guī)模的工業(yè)級(jí)部署中仍需突破內(nèi)存瓶頸。為此提出有界深度鍵值槽緩存方案,通過固定大小的緩沖區(qū)動(dòng)態(tài)管理深度信息,可采用動(dòng)態(tài)選擇或滑動(dòng)窗口策略。這種設(shè)計(jì)將內(nèi)存開銷從深度依賴轉(zhuǎn)為槽位依賴,為超大規(guī)模模型訓(xùn)練提供了可行路徑。

該研究開源了完整實(shí)現(xiàn)代碼,為學(xué)術(shù)界和產(chǎn)業(yè)界提供了可直接應(yīng)用的技術(shù)方案。MoDA通過創(chuàng)新的信息組織方式,而非簡(jiǎn)單增加參數(shù)規(guī)模,為構(gòu)建更深層、更強(qiáng)大的AI系統(tǒng)開辟了新方向。其硬件友好的設(shè)計(jì)理念,也展現(xiàn)了理論研究與工程實(shí)踐相結(jié)合的價(jià)值。

 
 
更多>同類天脈資訊
全站最新
熱門內(nèi)容
媒體信息
新傳播周刊
新傳播,傳播新經(jīng)濟(jì)之聲!
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)隱私  |  RSS訂閱  |  違規(guī)舉報(bào) 魯公網(wǎng)安備37010202700497號(hào)