中國團隊重構網絡架構：萬卡集群不加GPU，算力與效率雙提升

發布時間：2026-05-21 15:42 來源：快訊作者：柳晴雪

當全球AI大模型廠商還在比拼GPU數量時，中國團隊已悄然開辟新戰場——通過重構網絡架構，在未增加任何硬件成本的情況下，將推理集群算力提升15%。智譜聯合清華大學、馭馴網絡研發的ZCube架構，在GLM-5.1生產集群中實現突破性驗證，這項發表于ACM SIGCOMM 2025的成果，被國際學術界評價為"將重塑網絡設計范式"。

傳統數據中心沿用二十年的Fat-Tree/Clos架構，在應對大模型推理時暴露致命缺陷。當32卡集群將網絡帶寬從100Gbps升級至200Gbps，推理吞吐提升19%的同時，首Token時延下降22%——這組智譜實測數據揭示殘酷現實：GPU性能天花板正被網絡擁塞鎖死。在PD分離部署場景中，Prefill與Decode節點間動態不對稱的數據流，使傳統架構的熱點堆積問題愈發突出，萬卡集群中甚至出現30%的GPU因等待數據傳輸而閑置。

ZCube架構的顛覆性在于徹底重構拓撲邏輯。其核心設計原則確保任意兩張GPU間僅存在一條最優路徑，通過消除多路徑選路沖突，從架構層面將結構性擁塞概率降低80%。更關鍵的是2跳網絡直徑設計——既突破單層組網的規模限制，又避免傳統二層架構的延遲累積。這種"專屬路網"模式使千卡集群的推理吞吐提升15%，TTFT P99延遲下降40.6%，同時削減三分之一交換機與光模塊成本。在萬卡規模下，僅光網絡硬件即可節省2.1-6.4億元。

這場架構革命帶來的連鎖反應正在重塑產業鏈。當OpenAI聯合NVIDIA等巨頭推出MRC多路徑協議時，兩種技術路線形成有趣互補：MRC通過智能調度優化"交通規則"，ZCube則通過拓撲重構預防"道路擁堵"。這種差異使以太網加速取代InfiniBand成為主流選擇——Dell'Oro數據顯示，2025年AI后端網絡中以太網份額已超60%，800G光模塊需求隨之激增。

在智譜的千卡生產集群中，ZCube改造涉及重新設計布線模式、IP編址和路由策略等復雜工程。馭馴網絡開發的自動化工具包，使原本需要數月的改造工程壓縮至兩周內完成。這種"零代碼修改"的升級模式，為存量AI基礎設施提供了立竿見影的優化路徑。當行業開始重新評估算力價值時，ZCube證明：通過系統級創新挖掘現有硬件潛力，其經濟效益不亞于新增GPU投入。

隨著推理集群向十萬卡規模演進，網絡瓶頸正呈現指數級放大趨勢。ZCube架構展現的擴展性令人矚目：單層Leaf交換機即可支持16384塊400G網卡互聯，若采用更高密度交換機，理論可連接數十萬GPU。這種"扁平化"設計使規模效應產生質變——集群越大，省下的交換機和光模塊成本越多，性能優勢越顯著。當AI競爭進入深水區，網絡架構正在從底層支撐轉變為核心生產力，這場靜悄悄的革命或將重新定義算力競賽規則。

更多>同類內容