華中科技大學(xué)與字節(jié)跳動(dòng)攜手：深度混合注意力機(jī)制為AI模型“提智”賦能

時(shí)間：2026-03-26 03:00 來源：快訊作者：王婷

大型語言模型在深度擴(kuò)展過程中面臨的信息衰減問題，一直是制約其性能提升的關(guān)鍵瓶頸。華中科技大學(xué)電子信息與通信學(xué)院與字節(jié)跳動(dòng)Seed團(tuán)隊(duì)聯(lián)合攻關(guān)，提出深度混合注意力機(jī)制（MoDA），為突破這一技術(shù)瓶頸提供了創(chuàng)新方案。該研究成果發(fā)表于學(xué)術(shù)平臺(tái)arXiv，論文編號(hào)為arXiv:2603.15619v1。

隨著模型層數(shù)增加，早期處理的重要信息會(huì)逐漸被稀釋，就像傳話游戲中信息傳遞越遠(yuǎn)越容易失真。傳統(tǒng)解決方案存在明顯局限：殘差連接雖能緩解梯度消失問題，但會(huì)將歷史信息壓縮成單一線索，導(dǎo)致關(guān)鍵特征丟失；密集連接雖能完整保留歷史信息，但計(jì)算復(fù)雜度隨層數(shù)平方增長(zhǎng)，在大型模型中難以應(yīng)用。研究團(tuán)隊(duì)通過重新設(shè)計(jì)信息傳遞方式，在保留歷史信息與控制計(jì)算開銷之間找到平衡點(diǎn)。

MoDA的核心創(chuàng)新在于將序列級(jí)注意力與深度級(jí)注意力融合到統(tǒng)一框架中。每個(gè)注意力頭在處理當(dāng)前層信息時(shí)，可自適應(yīng)訪問所有前置層的關(guān)鍵信息。具體實(shí)現(xiàn)上，模型為每個(gè)序列位置構(gòu)建擴(kuò)展鍵值序列，前半部分為標(biāo)準(zhǔn)序列信息，后半部分為深度歷史信息，通過掩碼機(jī)制確保因果性約束。在寫入階段，當(dāng)前層的鍵值對(duì)會(huì)被追加到深度流中，供后續(xù)層調(diào)用。

研究團(tuán)隊(duì)通過硬件感知設(shè)計(jì)顯著提升了計(jì)算效率。針對(duì)深度鍵值緩存的非連續(xù)訪問問題，提出塊感知布局方案，將查詢分塊處理，每個(gè)塊僅訪問對(duì)應(yīng)局部深度區(qū)域。結(jié)合分組查詢注意力特性，進(jìn)一步開發(fā)組感知計(jì)算方法，使有效深度利用率提升至G/C（G為組大小，C為塊大?。?。實(shí)驗(yàn)數(shù)據(jù)顯示，優(yōu)化后的實(shí)現(xiàn)在64K序列長(zhǎng)度下達(dá)到FlashAttention-2效率的97.3%。

在模型性能驗(yàn)證方面，研究團(tuán)隊(duì)使用OLMo2數(shù)據(jù)集訓(xùn)練了700M和1.5B參數(shù)規(guī)模的模型。實(shí)驗(yàn)表明，MoDA在10個(gè)驗(yàn)證基準(zhǔn)上平均降低0.2困惑度，在10個(gè)下游任務(wù)中平均提升2.11%性能，而計(jì)算開銷僅增加3.7%的FLOPs。消融研究顯示，深度鍵值投影組件貢獻(xiàn)顯著，單獨(dú)使用即可降低0.41訓(xùn)練困惑度，添加前饋網(wǎng)絡(luò)投影后性能進(jìn)一步提升。

注意力可視化分析揭示了MoDA的獨(dú)特工作機(jī)制。模型在中間層和后期層會(huì)主動(dòng)分配注意力權(quán)重給深度歷史信息，不同類型注意力頭形成分工協(xié)作：尖銳頭在保持序列關(guān)注的同時(shí)分配部分概率給深度位置，寬泛頭則更多依賴深度信息。這種模式使注意力分布更廣泛，突破了傳統(tǒng)模型對(duì)固定匯聚位置的依賴。

針對(duì)不同深度配置的實(shí)驗(yàn)表明，MoDA在48層深層模型和24層淺層模型中均能穩(wěn)定改善性能。特別在后歸一化配置下，48層模型的驗(yàn)證損失改善幅度達(dá)到0.0409，是預(yù)歸一化配置的10倍。漸進(jìn)式優(yōu)化實(shí)驗(yàn)顯示，從樸素實(shí)現(xiàn)到完全優(yōu)化版本，運(yùn)行時(shí)間縮短了1458倍，驗(yàn)證了硬件感知設(shè)計(jì)的重要性。

盡管MoDA已實(shí)現(xiàn)高效硬件實(shí)現(xiàn)，但研究團(tuán)隊(duì)指出，在萬億參數(shù)規(guī)模的工業(yè)級(jí)部署中仍需突破內(nèi)存瓶頸。為此提出有界深度鍵值槽緩存方案，通過固定大小的緩沖區(qū)動(dòng)態(tài)管理深度信息，可采用動(dòng)態(tài)選擇或滑動(dòng)窗口策略。這種設(shè)計(jì)將內(nèi)存開銷從深度依賴轉(zhuǎn)為槽位依賴，為超大規(guī)模模型訓(xùn)練提供了可行路徑。

該研究開源了完整實(shí)現(xiàn)代碼，為學(xué)術(shù)界和產(chǎn)業(yè)界提供了可直接應(yīng)用的技術(shù)方案。MoDA通過創(chuàng)新的信息組織方式，而非簡(jiǎn)單增加參數(shù)規(guī)模，為構(gòu)建更深層、更強(qiáng)大的AI系統(tǒng)開辟了新方向。其硬件友好的設(shè)計(jì)理念，也展現(xiàn)了理論研究與工程實(shí)踐相結(jié)合的價(jià)值。

圍繞詞元的生產(chǎn)、調(diào)用、分發(fā)與結(jié)算，國(guó)內(nèi)上市公司以上游算力基建為核心、中游平臺(tái)服務(wù)為紐帶、下游應(yīng)用為抓手，加速全產(chǎn)業(yè)鏈布局，產(chǎn)業(yè)集中度持續(xù)提升。以中貝通信集團(tuán)股份有限公司為例，其已具備規(guī)?；倪\(yùn)營(yíng)優(yōu)勢(shì)，目前已…

03-26

金山軟件游戲收入下滑，西山居新CEO談應(yīng)對(duì)：穩(wěn)基本盤、抓AI變革謀新篇

03-26

雷軍辭任金山云非執(zhí)董鄒濤接棒董事長(zhǎng)屈恒任新職

03-26

雷軍辭任金山云非執(zhí)行董事鄒濤接任董事長(zhǎng)屈恒任新職

金山云在港交所公告，雷軍因其他工作安排，已辭任非執(zhí)行董事，自3月25日起生效。于雷軍辭任非執(zhí)行董事后，其亦不再擔(dān)任董事長(zhǎng)、董事會(huì)提名委員會(huì)主席及董事會(huì)薪酬委員會(huì)成員。此外，董事會(huì)宣布，副董事長(zhǎng)鄒濤已獲委任為…

03-26

VCX成散戶投資新渠道：上市4天股價(jià)飆升，SpaceX IPO傳聞引爆市場(chǎng)

03-25

金山云人事變動(dòng)：雷軍辭去非執(zhí)行董事等職務(wù)

03-25

金山云人事變動(dòng)：雷軍辭任非執(zhí)行董事，鄒濤接任董事長(zhǎng)

03-25

中國(guó)電信為何押注Token服務(wù)？智能時(shí)代轉(zhuǎn)型與價(jià)值變現(xiàn)新路徑

03-25

河南父子掌舵老牌啤酒廠，借中式精釀崛起，9個(gè)月營(yíng)收11億沖刺IPO

03-25

AI硬件板塊強(qiáng)勢(shì)領(lǐng)漲成長(zhǎng)ETF易方達(dá)近兩日吸金2900萬元

03-25

品牌破圈獲客：從發(fā)展階段、服務(wù)類型、內(nèi)核基因看雙IP打造優(yōu)先級(jí)

03-25

貨款回收難題頻現(xiàn)？張宓律師支招：企業(yè)如何筑牢法律防線防風(fēng)險(xiǎn)

03-25

迪森股份實(shí)控人馬革辭任副董事長(zhǎng)后擬減持，或套現(xiàn)3600萬年薪119萬

瑞財(cái)經(jīng)吳文婷3月22日，迪森股份發(fā)布公告稱，控股股東、實(shí)際控制人之一馬革計(jì)劃自本公告披露之日起15個(gè)交易日后的3個(gè)月內(nèi)以集中競(jìng)價(jià)方式減持公司股份不超過4,770,123股，占公司總股本比例1%。 2024…

03-25

糧全其美柴磊談餐飲業(yè)：聚焦自身賽道，手抓餅創(chuàng)新與海外拓局并行

03-25

源杰科技創(chuàng)歷史新高逼近茅臺(tái) 千元股陣營(yíng)添新兵 “股王”之爭(zhēng)愈演愈烈

03-25

點(diǎn)擊查看更多 +

全站最新