成人美女黄网站免费|哔哩哔哩免费观看在线视频|freexx老女人|欧美精品三区|近的2019中文字幕在线|97中文字幕一区二区|日本jazz护士

巨人財(cái)經(jīng) - 專業(yè)科技行業(yè)財(cái)經(jīng)媒體

大模型“瘦身”新突破:NSA機(jī)制讓注意力“聰明聚焦”

   發(fā)布時(shí)間:2026-05-15 09:27 作者:馮璃月

在人工智能領(lǐng)域,大模型的發(fā)展始終面臨著一個(gè)關(guān)鍵挑戰(zhàn):如何在處理超長(zhǎng)文本時(shí),既保持強(qiáng)大的“記憶力”又能實(shí)現(xiàn)高效的“思考速度”。最近,DeepSeek團(tuán)隊(duì)發(fā)布的一篇新論文引發(fā)了廣泛關(guān)注,其提出的“原生稀疏注意力”(Native Sparse Attention,簡(jiǎn)稱NSA)機(jī)制,為解決這一難題提供了新的思路,甚至可能成為推動(dòng)大模型走向更廣泛應(yīng)用的關(guān)鍵突破。

長(zhǎng)期以來(lái),學(xué)術(shù)界和工業(yè)界都在探索讓大模型更高效處理長(zhǎng)文本的方法。學(xué)術(shù)界提出了許多“訓(xùn)練后免費(fèi)方案”,但這些方法往往缺乏靈活性,難以適應(yīng)復(fù)雜多變的實(shí)際應(yīng)用場(chǎng)景。而工業(yè)界此次選擇了一條更為“硬核”的道路——從預(yù)訓(xùn)練階段就開(kāi)始優(yōu)化模型的注意力機(jī)制。幾乎在同一時(shí)間,知名公司Kimi也公布了名為MoBA的類似研究,兩篇論文不約而同地聚焦于預(yù)訓(xùn)練階段的注意力調(diào)整,這一現(xiàn)象背后,是預(yù)訓(xùn)練所需的高昂成本和巨大算力需求,這通常是只有行業(yè)巨頭才敢涉足的領(lǐng)域。

NSA注意力機(jī)制之所以備受矚目,關(guān)鍵在于其獨(dú)特的設(shè)計(jì)理念。它就像一位聰明的指揮官,同時(shí)指揮三支小分隊(duì)處理海量信息,而非讓模型逐字逐句地審視。這三支小分隊(duì)各有分工,協(xié)同作戰(zhàn)。

第一支是壓縮分隊(duì)(Token Compression)。其作用類似于對(duì)一本書(shū)進(jìn)行章節(jié)總結(jié),將連續(xù)的文本切成小塊,然后用可學(xué)習(xí)的小型神經(jīng)網(wǎng)絡(luò)將這些小塊的信息壓縮成“代表”。這些“代表”攜帶了整個(gè)小塊的精髓,參與后續(xù)的注意力計(jì)算。這種方法借鑒了之前SeerAttention等工作的思路,但通過(guò)引入可學(xué)習(xí)參數(shù),讓模型能夠自主學(xué)會(huì)如何更好地“概括”信息。

第二支是精選分隊(duì)(Token Selection),這是NSA的主力部隊(duì)。它需要在茫茫“詞海”中快速挑選出當(dāng)前最需要關(guān)注的文本塊。NSA采用了“兩步走”策略:首先,利用壓縮后的“塊代表”和當(dāng)前問(wèn)題(Query)估算每個(gè)塊的“潛在重要性得分”;然后,根據(jù)得分選拔出得分最高的Top K個(gè)塊。這些被選中的塊會(huì)派出原始的、完整的“鍵”進(jìn)行精確的注意力計(jì)算。這種“查詢感知”的選擇方式,確保了模型的選擇完全基于當(dāng)前思考的問(wèn)題,避免了早期方法因簡(jiǎn)單丟棄歷史信息而導(dǎo)致的錯(cuò)誤,比如在多輪對(duì)話中遺忘關(guān)鍵約定。

第三支是近衛(wèi)分隊(duì)(Window Attention),負(fù)責(zé)保障“近期記憶”的安全。它只關(guān)注最近出現(xiàn)的一小段文本,就像一個(gè)滑動(dòng)窗口,確保模型不會(huì)忘記剛剛說(shuō)過(guò)的話。這一設(shè)計(jì)最早源于Longformer,后來(lái)被StreamingLLM等工作改進(jìn)。在NSA中,近衛(wèi)分隊(duì)的規(guī)則被巧妙融入精選分隊(duì),論文規(guī)定第一個(gè)塊(通常是最近的上下文)會(huì)被固定選中。

這三支小分隊(duì)的計(jì)算結(jié)果最終會(huì)匯聚到一個(gè)“決策門”,由它根據(jù)實(shí)際情況決定各路結(jié)果的貢獻(xiàn)比例,然后加權(quán)求和,得到最終的注意力輸出。NSA的核心目標(biāo)是大幅減少解碼階段需要從顯存加載的KV Cache數(shù)據(jù)量。需要注意的是,NSA節(jié)省的并非顯存本身,而是數(shù)據(jù)從顯存到計(jì)算核心的搬運(yùn)帶寬。在現(xiàn)代大模型推理中,尤其是生成文本時(shí),計(jì)算往往不是瓶頸,數(shù)據(jù)搬運(yùn)才是最大的拖累。NSA通過(guò)智能選擇,只加載最需要的數(shù)據(jù),有效緩解了帶寬壓力,提高了計(jì)算效率。

NSA真正引發(fā)討論的“亮點(diǎn)”,在于其“原生可訓(xùn)練”(Native Trainable)的特性。過(guò)去的稀疏注意力方法大多是“訓(xùn)練后免費(fèi)附加”的方案,研究人員在模型訓(xùn)練完成后,通過(guò)設(shè)計(jì)啟發(fā)式規(guī)則來(lái)決定在推理時(shí)丟棄哪些信息。這些方法雖然巧妙,但模型本身并未為這種“選擇性失憶”做好準(zhǔn)備。而NSA將稀疏選擇機(jī)制直接融入模型訓(xùn)練的全過(guò)程,讓模型在預(yù)訓(xùn)練階段就學(xué)習(xí)如何高效分配注意力。這種“原生”訓(xùn)練不僅在推理時(shí)能提高速度,在反向傳播過(guò)程中也能加速模型訓(xùn)練和參數(shù)更新。這意味著稀疏注意力不再僅僅是推理加速工具,而是可以成為模型架構(gòu)的一部分,甚至有可能讓“稀疏”模型在性能上超越“全注意力”模型。

從“可訓(xùn)練”的角度審視NSA的三分支設(shè)計(jì),可以發(fā)現(xiàn)“壓縮分隊(duì)”的存在可能正是為了實(shí)現(xiàn)“可訓(xùn)練性”。由于“精選”和“滑窗”本質(zhì)上都是丟棄信息,梯度無(wú)法有效回溯到被丟棄的原始鍵值上。而“壓縮分隊(duì)”通過(guò)可學(xué)習(xí)的線性層保留了信息的濃縮形式,使訓(xùn)練信號(hào)能夠通過(guò)“壓縮器”傳遞回去,間接指導(dǎo)“精選分隊(duì)”做出更好的選擇。“近衛(wèi)分隊(duì)”則可能扮演著訓(xùn)練穩(wěn)定器的角色,確保模型不會(huì)丟失最近的上下文,為學(xué)習(xí)過(guò)程提供可靠的錨點(diǎn)。

與NSA相比,Kimi的MoBA方案既沒(méi)有采用三分支設(shè)計(jì),也沒(méi)有在選取過(guò)程中使用復(fù)雜的可學(xué)習(xí)層,僅通過(guò)簡(jiǎn)單的平均池化和預(yù)訓(xùn)練就實(shí)現(xiàn)了稀疏選擇的特性。這引發(fā)了人們的思考:實(shí)現(xiàn)“可訓(xùn)練的稀疏注意力”,是否存在更簡(jiǎn)潔、更優(yōu)雅的架構(gòu)方案?NSA的三分支設(shè)計(jì)是必經(jīng)之路,還是一種有效的實(shí)現(xiàn)方式?這為后續(xù)研究留下了開(kāi)放而有趣的問(wèn)題。

這篇論文體現(xiàn)了濃厚的工業(yè)界風(fēng)格:直面工程實(shí)踐中的核心瓶頸,追求端到端的可訓(xùn)練方案以確保最優(yōu)性能,設(shè)計(jì)兼顧算法創(chuàng)新與硬件友好。在長(zhǎng)文本處理這一重要賽道上,工業(yè)界憑借強(qiáng)大的算力資源、工程整合能力和對(duì)產(chǎn)品性能的執(zhí)著追求,正在快速追趕并形成獨(dú)特優(yōu)勢(shì)。學(xué)術(shù)界在思想啟蒙和算法原型上領(lǐng)先一步,而工業(yè)界則擅長(zhǎng)將這些思想打磨成在實(shí)際系統(tǒng)中高效運(yùn)行的工具。

長(zhǎng)文本上下文能力的重要性遠(yuǎn)不止于讓模型閱讀更長(zhǎng)的文章。隨著“思維鏈”推理、測(cè)試時(shí)計(jì)算擴(kuò)展等新范式的興起,模型需要在生成答案的過(guò)程中進(jìn)行更長(zhǎng)時(shí)間的“內(nèi)心獨(dú)白”和復(fù)雜運(yùn)算,這對(duì)高效、智能地管理注意力提出了更高要求。當(dāng)前主流的TopK選擇方法存在固有局限,它需要預(yù)先設(shè)定固定的K值,但不同任務(wù)、模型的不同層甚至同一層內(nèi)的不同注意力頭,所需關(guān)注的信息量可能差異巨大。學(xué)術(shù)界已經(jīng)開(kāi)始探索如何優(yōu)化或繞過(guò)固定的K,例如CMU的MagicPIG等工作就在探索更動(dòng)態(tài)的路徑。

沿著這一思路,一種更本質(zhì)的解決方案是“自適應(yīng)注意力稀疏化”,即不規(guī)定選擇多少個(gè)令牌,而是規(guī)定選擇到多少為止。例如,設(shè)定一個(gè)閾值p,從最重要的信息開(kāi)始選起,直到所選信息的注意力分?jǐn)?shù)累計(jì)總和達(dá)到總分的p倍為止。近期的前沿工作“Twilight”基于這種“分層Top-p修剪”思想,試圖為注意力稀疏化提供更靈活、更自適應(yīng)的框架。這類探索正在將對(duì)高效注意力機(jī)制的理解推向更深層次。

DeepSeek的NSA論文為“從預(yù)訓(xùn)練開(kāi)始構(gòu)建稀疏注意力”這條道路提供了有力驗(yàn)證,這無(wú)疑會(huì)激勵(lì)更多研究者投身其中,探索更簡(jiǎn)潔的架構(gòu)、更高效的算法和更智能的選擇策略。當(dāng)大模型學(xué)會(huì)像人類一樣懂得忽略和聚焦,在信息的海洋中優(yōu)雅航行時(shí),我們距離真正智能、普惠的AI或許就更近了一步。這場(chǎng)關(guān)于“注意力”的進(jìn)化競(jìng)賽,才剛剛拉開(kāi)帷幕。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新