在人工智能基礎(chǔ)設(shè)施建設(shè)的賽道上,一場圍繞網(wǎng)絡(luò)效率的變革正在悄然展開。當(dāng)全球AI企業(yè)還在比拼GPU數(shù)量時,中美兩國科研團隊已將目光投向更深層的系統(tǒng)優(yōu)化——通過重構(gòu)網(wǎng)絡(luò)架構(gòu)提升集群整體效能。這一轉(zhuǎn)變標(biāo)志著AI基建從"堆卡競賽"進入"效率時代",而中國科研團隊提出的ZCube架構(gòu)與OpenAI的MRC協(xié)議,成為這一轉(zhuǎn)型的標(biāo)志性成果。
傳統(tǒng)AI集群采用分層組網(wǎng)方式,數(shù)據(jù)傳輸需經(jīng)過多層交換機中轉(zhuǎn),這種設(shè)計在處理不均勻流量時極易形成局部擁塞。以大模型推理場景為例,負(fù)責(zé)理解問題的GPU與生成回答的GPU分屬不同節(jié)點,中間需要頻繁傳輸KV Cache數(shù)據(jù)。這種非對稱傳輸模式導(dǎo)致部分交換機長期過載,而其他鏈路利用率不足,形成"卡等數(shù)據(jù)"的尷尬局面。清華大學(xué)團隊通過實驗發(fā)現(xiàn),在保持GPU配置不變的情況下,將網(wǎng)絡(luò)帶寬從100Gbps提升至200Gbps,可使推理吞吐量提升19%,首Token時延降低22%,充分暴露了網(wǎng)絡(luò)瓶頸對算力釋放的制約。
中國科研團隊提出的ZCube架構(gòu)通過"扁平化"設(shè)計破解了這一難題。該架構(gòu)取消傳統(tǒng)分層結(jié)構(gòu),將底層交換機分為兩組并實現(xiàn)完全互聯(lián),每張GPU同時連接兩組交換機。這種設(shè)計使任意兩張GPU之間只需經(jīng)過兩臺交換機即可通信,路徑長度縮短50%以上。在千卡級GLM-5.1推理集群的實測中,ZCube使GPU平均推理吞吐提升15%,首Token時延的99分位值降低40.6%,同時將交換機與光模塊成本削減三分之一。按萬卡規(guī)模估算,僅硬件成本就可節(jié)省2.1億至6.4億元。
與ZCube側(cè)重架構(gòu)創(chuàng)新不同,OpenAI推出的MRC協(xié)議選擇在現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)上進行協(xié)議層優(yōu)化。該協(xié)議針對訓(xùn)練場景中同步預(yù)訓(xùn)練的特殊需求,通過多路徑并發(fā)傳輸和智能路由技術(shù),實現(xiàn)微秒級故障繞行。在由英偉達GB200芯片組成的超算集群中,MRC已成功支撐多個前沿模型的訓(xùn)練任務(wù),并通過Open Compute Project向全行業(yè)開放技術(shù)規(guī)范。這兩種技術(shù)路線雖路徑不同,但都指向同一個結(jié)論:當(dāng)GPU數(shù)量達到臨界點后,網(wǎng)絡(luò)效率將成為決定集群性能的關(guān)鍵因素。
這場效率革命的背后,折射出全球AI產(chǎn)業(yè)面臨的共同挑戰(zhàn)。在芯片供應(yīng)受限的背景下,中國AI企業(yè)通過"國產(chǎn)芯片+架構(gòu)優(yōu)化"的組合策略,探索出獨特的突圍路徑。ZCube架構(gòu)不依賴特定硬件生態(tài)的特性,使其能兼容華為昇騰、寒武紀(jì)、摩爾線程等多家國產(chǎn)芯片平臺。這種技術(shù)路線選擇,既是對現(xiàn)實約束的應(yīng)對,也蘊含著產(chǎn)業(yè)升級的深層邏輯——當(dāng)算力增長不再單純依賴芯片迭代時,系統(tǒng)級優(yōu)化將成為新的競爭焦點。
從Clos架構(gòu)到ZCube,從單路徑傳輸?shù)組RC協(xié)議,AI集群的網(wǎng)絡(luò)設(shè)計正在經(jīng)歷根本性變革。這些創(chuàng)新不僅解決了當(dāng)下的效率瓶頸,更為未來十萬卡級超大規(guī)模集群的構(gòu)建奠定了技術(shù)基礎(chǔ)。當(dāng)全球AI基建進入深水區(qū),系統(tǒng)級優(yōu)化能力正在重新定義產(chǎn)業(yè)競爭規(guī)則,而中國科研團隊在這場變革中展現(xiàn)出的工程化能力,已成為不可忽視的技術(shù)力量。





















