雷軍小米大模型逆襲馬斯克xAI：從硬件到AI的轉(zhuǎn)型之路如何突圍？

發(fā)布時間：2026-03-20 15:06 來源：快訊作者：吳婷

當(dāng)小米正式發(fā)布MiMo-V2-Pro大模型時，科技圈的目光并未完全聚焦在這家以硬件見長的公司身上，反倒是馬斯克旗下的xAI被推上了輿論的風(fēng)口浪尖。這個成立僅三年的AI初創(chuàng)企業(yè)，盡管坐擁500億美元融資和來自O(shè)penAI、DeepMind等頂尖機(jī)構(gòu)的聯(lián)合創(chuàng)始人團(tuán)隊，卻在最新發(fā)布的Grok 4.20 Beta上遭遇了滑鐵盧——在Artificial Analysis Intelligence Index評測中僅獲得48分，而小米的MiMo-V2-Pro卻以49分的成績實現(xiàn)了反超。

小米的AI征程始于2023年4月成立的AI實驗室大模型團(tuán)隊，但真正發(fā)力通用基礎(chǔ)大模型是在2024年底至2025年初。雷軍親自掛帥，為這個被寄予厚望的Core團(tuán)隊定下了"投入不設(shè)上限"的基調(diào)。初代MiMo在2025年4月問世時，7B的參數(shù)量被業(yè)界戲稱為"玩具級"，但這個看似不起眼的模型卻在數(shù)學(xué)推理和代碼生成領(lǐng)域擊敗了OpenAI的o1-mini，為小米AI戰(zhàn)略打響了第一槍。更令人意外的是，小米以"Hunter Alpha"為代號在OpenRouter平臺悄然上線的大模型，僅用一周時間就登頂日調(diào)用量榜首，全球開發(fā)者在不知情的情況下用腳投票，直到小米官方深夜發(fā)文承認(rèn)這是自家產(chǎn)品。

從技術(shù)架構(gòu)看，MiMo-V2-Pro的1T參數(shù)、42B激活參數(shù)和100萬token上下文窗口并不突出，其采用的MoE混合專家架構(gòu)、混合注意力機(jī)制和多token預(yù)測技術(shù)也都是行業(yè)通用方案。真正讓這個模型脫穎而出的是三項后訓(xùn)練技術(shù)：首先是小米首創(chuàng)的MOPD（多教師在線策略蒸餾）技術(shù)，通過讓學(xué)生模型在生成回答時同時接受多個領(lǐng)域?qū)＜医處煹膶崟r監(jiān)督，成功解決了傳統(tǒng)大模型訓(xùn)練中"蹺蹺板效應(yīng)"的行業(yè)難題。數(shù)據(jù)顯示，經(jīng)過MOPD訓(xùn)練的模型在AIME 2025數(shù)學(xué)競賽中取得94.1分，甚至超越了其教師模型的水平。

第二項突破是真實環(huán)境的agentic RL訓(xùn)練體系。小米構(gòu)建了覆蓋代碼、終端、網(wǎng)頁開發(fā)和通用四大類場景的12萬個真實交互環(huán)境，其中代碼agent直接從GitHub Issues中提取訓(xùn)練數(shù)據(jù)，要求模型在完整的開發(fā)循環(huán)中完成讀文件、改代碼、運行測試的全流程。這種訓(xùn)練方式使得模型在多樣化agent環(huán)境中獲得的強(qiáng)化學(xué)習(xí)收益能夠泛化到數(shù)學(xué)推理等其他任務(wù)，形成通用問題解決能力。與傳統(tǒng)的"做卷子"式訓(xùn)練相比，這種"實習(xí)"模式培養(yǎng)出的模型更懂得如何應(yīng)對真實世界的復(fù)雜任務(wù)。

第三項創(chuàng)新來自小米與北京大學(xué)計算機(jī)學(xué)院聯(lián)合研發(fā)的ARL-Tangram訓(xùn)練基礎(chǔ)設(shè)施系統(tǒng)。針對agent訓(xùn)練中外部資源利用率低下的痛點，該系統(tǒng)將每次外部調(diào)用視為原子動作，實現(xiàn)資源的動態(tài)分配和即時釋放。實測數(shù)據(jù)顯示，在AI編程任務(wù)中，外部資源平均利用率從47%提升至接近100%，訓(xùn)練步驟時間加速最高達(dá)1.5倍，資源消耗降低71.2%。這意味著在相同硬件投入下，小米能夠支撐數(shù)倍于競爭對手的訓(xùn)練量。

對于小米而言，MiMo-V2-Pro的意義遠(yuǎn)不止于技術(shù)突破。在智能駕駛領(lǐng)域，小米汽車正在全面轉(zhuǎn)向端到端大模型技術(shù)路線，而MiMo-V2-Pro作為云端"教師模型"，將通過知識蒸餾技術(shù)將其能力壓縮到端側(cè)小模型中，實現(xiàn)"云-邊-端"協(xié)同。這種布局與特斯拉形成鮮明對比：雖然Grok在2025年底進(jìn)入了特斯拉車機(jī)系統(tǒng)，但目前僅能承擔(dān)導(dǎo)航和簡單對話功能，與FSD的聯(lián)動僅限于導(dǎo)航鏈路，而特斯拉車內(nèi)控制座艙的AI系統(tǒng)實際上與xAI并無直接關(guān)聯(lián)。馬斯克在2026年3月提出的"Digital Optimus"計劃，試圖讓Grok充當(dāng)"高層推理大腦"，但這種協(xié)同路徑的清晰度遠(yuǎn)不及小米的蒸餾方案。

然而，MiMo-V2-Pro的崛起之路并非一帆風(fēng)順。在備受關(guān)注的SWE-bench Verified編程測試集中取得78.0%的成績固然亮眼，但這個測試集已被OpenAI等機(jī)構(gòu)證實存在數(shù)據(jù)污染問題。小米尚未公布在更嚴(yán)格的SWE-bench Pro測試集上的表現(xiàn)，而該測試集目前最高得分僅為57.7%。MiMo-V2-Pro缺席了ARC-AGI-2推理泛化測試、Frontier Math數(shù)學(xué)推理測試和LiveCodeBench v6編程評測等新一代基準(zhǔn)測試。在開源策略上，雖然MiMo-V2-Flash已開源，但V2-Pro的權(quán)重仍未開放，官方解釋稱需要等待模型足夠穩(wěn)定。這些短板提醒我們，小米的AI轉(zhuǎn)型仍處在關(guān)鍵階段，其技術(shù)成果能否真正轉(zhuǎn)化為商業(yè)優(yōu)勢，還需要時間來驗證。

更多>同類內(nèi)容