大模型賽道新風(fēng)向：阿里、Kimi、螞蟻競逐，混合注意力成破局關(guān)鍵？

時(shí)間：2026-03-20 21:03 來源：快訊作者：鄭浩

在人工智能大模型領(lǐng)域，一場(chǎng)關(guān)于效率與性能的深度變革正在悄然發(fā)生。隨著商業(yè)化場(chǎng)景對(duì)推理效率和成本控制的要求日益嚴(yán)苛，傳統(tǒng)以Softmax為核心注意力計(jì)算機(jī)制的架構(gòu)逐漸暴露出局限性。這種機(jī)制在處理長文本時(shí)，計(jì)算量隨文本長度呈平方級(jí)增長，還需存儲(chǔ)大量KV緩存，給顯存帶來巨大壓力，難以滿足實(shí)際應(yīng)用需求。

面對(duì)這一挑戰(zhàn)，業(yè)界積極探索新的技術(shù)路徑，主要形成了三條探索方向。稀疏注意力通過“少算”“有重點(diǎn)地算”提升效率，以DeepSeek為代表；滑動(dòng)窗口注意力仍用Softmax計(jì)算，但只關(guān)注固定窗口內(nèi)鄰近token，提高計(jì)算效率；線性注意力則徹底改寫Softmax公式，將復(fù)雜度從O(N2)降至O(N)，推理成本大幅下降。然而，這三條路徑各有局限，如今業(yè)界紛紛轉(zhuǎn)向混合架構(gòu)，尤其是混合線性注意力架構(gòu)，成為行業(yè)探索的新焦點(diǎn)。

國內(nèi)眾多大模型企業(yè)紛紛投身混合線性注意力架構(gòu)的探索。2025年初，MiniMax率先發(fā)布Text - 01模型，采用1:7的混合線性注意力，在456B參數(shù)模型上成功落地，隨后MiniMax - M1模型也沿用此架構(gòu)。當(dāng)時(shí)團(tuán)隊(duì)判斷混合架構(gòu)將成為主流，但面臨基礎(chǔ)設(shè)施等瓶頸。

2025年下半年，探索迎來爆發(fā)期。去年9月，阿里通義實(shí)驗(yàn)室發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3 - Next，在80B模型上完成驗(yàn)證。該模型用線性注意力和門控注意力組合替換標(biāo)準(zhǔn)注意力，在1:3混合比例下性能超越單一架構(gòu)，且線性注意力上下文學(xué)習(xí)能力更強(qiáng)。同樣在9月，螞蟻百靈團(tuán)隊(duì)開源Ring - mini - linear - 2.0與Ring - flash - linear - 2.0，驗(yàn)證Lightning Linear線性注意力在工業(yè)規(guī)模訓(xùn)練和長上下文推理中的可用性，兩款模型采用1:7混合比例，高FLOP預(yù)算下表現(xiàn)優(yōu)于純Softmax結(jié)構(gòu)。螞蟻百靈還進(jìn)行架構(gòu)創(chuàng)新與基礎(chǔ)設(shè)施系統(tǒng)工程優(yōu)化協(xié)同，打造FP8融合算子，將FP8混合精度訓(xùn)練計(jì)算效率提升至原來的1.5 - 1.7倍，開發(fā)高效線性注意力融合算子提升推理引擎吞吐，使兩款Ring - linear模型在深度推理場(chǎng)景下成本僅為同尺寸稠密模型的約1/10，相較原有Ring系列成本下降超50%。

去年10月，月之暗面開源混合線性注意力架構(gòu)Kimi Linear，其核心Kimi Delta Attention（KDA）是新型線性注意力模塊，通過細(xì)粒度設(shè)計(jì)改進(jìn)門控delta規(guī)則，采用1:3混合比例，減少內(nèi)存占用同時(shí)超越全注意力模型質(zhì)量。

盡管這些探索在多維度驗(yàn)證了混合線性注意力架構(gòu)潛力，但多數(shù)成果停留在中小規(guī)模。真實(shí)應(yīng)用中，大模型需面對(duì)萬億級(jí)參數(shù)、百萬級(jí)上下文窗口、高并發(fā)推理等工程挑戰(zhàn)，下一步關(guān)鍵是將技術(shù)探索推向超大規(guī)模模型，在工業(yè)級(jí)應(yīng)用中驗(yàn)證其可靠性、可擴(kuò)展性與經(jīng)濟(jì)價(jià)值。

將混合線性注意力架構(gòu)推向萬億參數(shù)量級(jí)工程落地正在穩(wěn)步推進(jìn)。月之暗面創(chuàng)始人兼CEO楊植麟對(duì)混合線性注意力前景充滿信心，其團(tuán)隊(duì)在Kimi Linear等項(xiàng)目中積累大量研究，計(jì)劃在下一代模型Kimi K3中引入更多架構(gòu)優(yōu)化，相信Kimi K3性能會(huì)有顯著提升。螞蟻百靈團(tuán)隊(duì)也成果豐碩，接連推出超大型混合線性注意力架構(gòu)模型Ling - 2.5 - 1T和全球首個(gè)混合線性注意力架構(gòu)的萬億參數(shù)思考模型Ring - 2.5 - 1T。螞蟻百靈團(tuán)隊(duì)通過增量訓(xùn)練構(gòu)建Ling 2.5架構(gòu)，將GQA + Lightning Linear升級(jí)為MLA + Lightning Linear組合，壓縮KV緩存同時(shí)保留模型表達(dá)能力，采用1:7混合比例，保留QK Norm、Partial RoPE等核心機(jī)制確保性能不退化。在降本增效方面，Ling - 2.5 - 1T表現(xiàn)突出，僅需約6000個(gè)token平均輸出長度就能完成復(fù)雜任務(wù)，訪存規(guī)模壓縮至傳統(tǒng)架構(gòu)1/10，生成吞吐量提升至3倍。

對(duì)混合線性注意力架構(gòu)的探索，不僅關(guān)乎性能提升，更重新劃定大模型應(yīng)用邊界與商業(yè)形態(tài)。當(dāng)推理成本下降、token使用效率優(yōu)化，模型調(diào)用成本不再是大規(guī)模落地核心瓶頸，應(yīng)用范式將自然轉(zhuǎn)變。企業(yè)可將模型作為默認(rèn)能力嵌入更多業(yè)務(wù)環(huán)節(jié)，實(shí)現(xiàn)更廣泛深入的效率提升。在搜索、推薦、智能客服等場(chǎng)景，大模型有望從傳統(tǒng)系統(tǒng)補(bǔ)充模塊轉(zhuǎn)變?yōu)楹诵尿?qū)動(dòng)引擎，成為底層基礎(chǔ)設(shè)施。

不過，混合線性注意力架構(gòu)探索之路并非一帆風(fēng)順。不同技術(shù)路線仍在博弈驗(yàn)證，如MiniMax在階段性探索后選擇回歸全注意力模型，優(yōu)先保證復(fù)雜場(chǎng)景下穩(wěn)定性與可靠性。但大模型競爭正從“暴力堆參數(shù)”轉(zhuǎn)向“工程效率的精算”這一趨勢(shì)愈發(fā)明顯，架構(gòu)細(xì)微差異將在企業(yè)級(jí)落地中放大為成本優(yōu)勢(shì)與體驗(yàn)差距，推動(dòng)大模型從“可用”邁向“好用”，走向廣泛普及。

更多>同類天脈資訊

沙特資本接手沐瞳科技張?jiān)品羧蜟EO 沐瞳出海征程再啟新篇

根據(jù)曝光的內(nèi)部信內(nèi)容，交易完成后，沐瞳的管理結(jié)構(gòu)保持不變，仍是一家總部位于上海的公司，字節(jié)跳動(dòng)游戲業(yè)務(wù)負(fù)責(zé)人張?jiān)品矊⒗^續(xù)擔(dān)任沐瞳CEO。直到2025年11月，買家有了更明確的信息，有外媒報(bào)道稱沙特Savv…

03-20

2026小紅書商家成長指南：三類商家八大路徑精準(zhǔn)破局策略

03-20

萬科等五家房企聯(lián)合摘得青島東李“商改住”地塊規(guī)劃建面約11萬㎡

03-20

深鐵8.69億摘得羅湖筍崗宅地終結(jié)區(qū)域十年宅地供應(yīng)空白

03-20

人形機(jī)器人概念股恒立液壓董事長被留置，公司稱生產(chǎn)經(jīng)營正常市值仍超千億

03-20

青綠長存泰山間：張耀南以一生心血繪就生態(tài)畫卷，精神永駐山林

眼前荒蕪的場(chǎng)景，讓剛剛來到泰山林場(chǎng)的張耀南十分震驚，同時(shí)也在他心里埋下了堅(jiān)定的種子：“要把泰山建設(shè)得更加美麗富饒?！痹诰G化泰山的同時(shí)，張耀南的目光從未局限于“栽樹” 二字，而是將泰山的長遠(yuǎn)發(fā)展刻進(jìn)了心底。在…

03-20

恒立液壓“液壓茅”突遭變故實(shí)控人董事長被立案留置引關(guān)注

03-20

2月中國硫酸鎳生產(chǎn)動(dòng)態(tài)：9家減產(chǎn)4860公噸 2家增產(chǎn)1700公噸

03-20

傅盛深夜公開指責(zé)周鴻祎“欠錢不還”引關(guān)注，360回應(yīng)稱系謠言

圍繞這一說法，新黃河記者以投資者身份致電三六零方面求證，對(duì)方回應(yīng)稱相關(guān)內(nèi)容“屬于謠言”，并表示“沒有證據(jù)”。外界注意到，這一爭議再次牽出三六零當(dāng)年私有化及借殼回歸A股過程中留下的一些舊問題。事實(shí)上周鴻祎及傅盛…

03-20

挨罵也擋不住熱銷！新一代小米SU7漲價(jià)登場(chǎng)，未來規(guī)劃更值得期待

就像雷軍在新一代SU7的發(fā)布會(huì)上說的：自己最難忘的事之一，就是小米SU7發(fā)布僅24個(gè)小時(shí)，大定就突破了8萬臺(tái)，創(chuàng)造了一個(gè)小小的奇跡。此前常被認(rèn)為是小米汽車短板的輔助駕駛部分，新一代 SU7 這次采用了全系…

03-20

復(fù)旦大學(xué)AI教育新探索：百余門課程助力學(xué)生從學(xué)習(xí)到科研創(chuàng)新

2024年秋季學(xué)期起，復(fù)旦大學(xué)推出“AI大課”，建設(shè)了116門AI—BEST系列課程，從專業(yè)基礎(chǔ)課到專業(yè)核心課，再到學(xué)科進(jìn)階和垂域應(yīng)用，讓文社理工醫(yī)各個(gè)學(xué)科門類的師生，都能夠和AI有“親密接觸”。復(fù)旦大學(xué)…

03-20

2026年中國消費(fèi)市場(chǎng)新圖景：十二大趨勢(shì)引領(lǐng)理性與情感并重新風(fēng)尚

03-20

AI算力需求激增引電力設(shè)備變革，中國變壓器產(chǎn)業(yè)鏈出海迎新機(jī)遇

03-20

紅利低波指數(shù)集體上揚(yáng)，自由現(xiàn)金流ETF易方達(dá)獲資金持續(xù)青睞

03-20

3月20日15時(shí)10分南向資金凈賣出額突破61億港元大關(guān)

03-20

點(diǎn)擊查看更多 +

全站最新