AI基建新戰(zhàn)場：OpenAI與智譜同月出招，網(wǎng)絡(luò)架構(gòu)優(yōu)化成效率競爭關(guān)鍵

發(fā)布時間：2026-05-22 02:17 來源：快訊作者：任飛揚

在人工智能基礎(chǔ)設(shè)施建設(shè)的賽道上，一場圍繞網(wǎng)絡(luò)效率的變革正在悄然展開。當(dāng)全球AI企業(yè)還在比拼GPU數(shù)量時，中美兩國科研團隊已將目光投向更深層的系統(tǒng)優(yōu)化——通過重構(gòu)網(wǎng)絡(luò)架構(gòu)提升集群整體效能。這一轉(zhuǎn)變標(biāo)志著AI基建從"堆卡競賽"進入"效率時代"，而中國科研團隊提出的ZCube架構(gòu)與OpenAI的MRC協(xié)議，成為這一轉(zhuǎn)型的標(biāo)志性成果。

傳統(tǒng)AI集群采用分層組網(wǎng)方式，數(shù)據(jù)傳輸需經(jīng)過多層交換機中轉(zhuǎn)，這種設(shè)計在處理不均勻流量時極易形成局部擁塞。以大模型推理場景為例，負(fù)責(zé)理解問題的GPU與生成回答的GPU分屬不同節(jié)點，中間需要頻繁傳輸KV Cache數(shù)據(jù)。這種非對稱傳輸模式導(dǎo)致部分交換機長期過載，而其他鏈路利用率不足，形成"卡等數(shù)據(jù)"的尷尬局面。清華大學(xué)團隊通過實驗發(fā)現(xiàn)，在保持GPU配置不變的情況下，將網(wǎng)絡(luò)帶寬從100Gbps提升至200Gbps，可使推理吞吐量提升19%，首Token時延降低22%，充分暴露了網(wǎng)絡(luò)瓶頸對算力釋放的制約。

中國科研團隊提出的ZCube架構(gòu)通過"扁平化"設(shè)計破解了這一難題。該架構(gòu)取消傳統(tǒng)分層結(jié)構(gòu)，將底層交換機分為兩組并實現(xiàn)完全互聯(lián)，每張GPU同時連接兩組交換機。這種設(shè)計使任意兩張GPU之間只需經(jīng)過兩臺交換機即可通信，路徑長度縮短50%以上。在千卡級GLM-5.1推理集群的實測中，ZCube使GPU平均推理吞吐提升15%，首Token時延的99分位值降低40.6%，同時將交換機與光模塊成本削減三分之一。按萬卡規(guī)模估算，僅硬件成本就可節(jié)省2.1億至6.4億元。

與ZCube側(cè)重架構(gòu)創(chuàng)新不同，OpenAI推出的MRC協(xié)議選擇在現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)上進行協(xié)議層優(yōu)化。該協(xié)議針對訓(xùn)練場景中同步預(yù)訓(xùn)練的特殊需求，通過多路徑并發(fā)傳輸和智能路由技術(shù)，實現(xiàn)微秒級故障繞行。在由英偉達GB200芯片組成的超算集群中，MRC已成功支撐多個前沿模型的訓(xùn)練任務(wù)，并通過Open Compute Project向全行業(yè)開放技術(shù)規(guī)范。這兩種技術(shù)路線雖路徑不同，但都指向同一個結(jié)論：當(dāng)GPU數(shù)量達到臨界點后，網(wǎng)絡(luò)效率將成為決定集群性能的關(guān)鍵因素。

這場效率革命的背后，折射出全球AI產(chǎn)業(yè)面臨的共同挑戰(zhàn)。在芯片供應(yīng)受限的背景下，中國AI企業(yè)通過"國產(chǎn)芯片+架構(gòu)優(yōu)化"的組合策略，探索出獨特的突圍路徑。ZCube架構(gòu)不依賴特定硬件生態(tài)的特性，使其能兼容華為昇騰、寒武紀(jì)、摩爾線程等多家國產(chǎn)芯片平臺。這種技術(shù)路線選擇，既是對現(xiàn)實約束的應(yīng)對，也蘊含著產(chǎn)業(yè)升級的深層邏輯——當(dāng)算力增長不再單純依賴芯片迭代時，系統(tǒng)級優(yōu)化將成為新的競爭焦點。

從Clos架構(gòu)到ZCube，從單路徑傳輸?shù)組RC協(xié)議，AI集群的網(wǎng)絡(luò)設(shè)計正在經(jīng)歷根本性變革。這些創(chuàng)新不僅解決了當(dāng)下的效率瓶頸，更為未來十萬卡級超大規(guī)模集群的構(gòu)建奠定了技術(shù)基礎(chǔ)。當(dāng)全球AI基建進入深水區(qū)，系統(tǒng)級優(yōu)化能力正在重新定義產(chǎn)業(yè)競爭規(guī)則，而中國科研團隊在這場變革中展現(xiàn)出的工程化能力，已成為不可忽視的技術(shù)力量。

更多>同類內(nèi)容