中科曙光近日宣布,在國產高端網絡技術領域取得關鍵性突破,正式推出首款全棧自研的400G無損高速網絡解決方案——scaleFabric。該產品通過構建從底層硬件到上層軟件的完整技術體系,實現(xiàn)了數(shù)據中心高速網絡領域的技術自主可控,為國內超大規(guī)模智能計算集群建設提供了核心支撐。
作為面向萬卡級智能計算集群設計的網絡架構,scaleFabric突破了海外廠商在InfiniBand產業(yè)鏈的技術壟斷。其核心組件包括自主研發(fā)的112G SerDes IP、交換芯片、智能網卡及配套管理軟件,形成了從硬件設備到軟件協(xié)議的完整技術閉環(huán)。該方案特別針對AI大模型訓練場景優(yōu)化,通過原生RDMA架構實現(xiàn)零丟包、微秒級延遲的數(shù)據傳輸,有效解決了傳統(tǒng)網絡在大規(guī)模并行計算中的通信瓶頸問題。
技術規(guī)格顯示,scaleFabric400系列網卡采用PCIe5.0接口,單端口帶寬達400Gbps,端到端通信延遲控制在0.9微秒以內。配套交換機產品單端口帶寬突破800Gbps,整機交換容量達雙向64Tbps,支持800G×40或400G×80端口靈活配置。在關鍵性能指標上,該方案已達到國際頂尖水平,其中交換機端口密度較同類產品提升25%,網絡互連規(guī)模擴展至傳統(tǒng)方案的2.33倍。
在穩(wěn)定性設計方面,創(chuàng)新采用信用制無損流控機制,從底層規(guī)避網絡擁塞導致的丟包風險。實測數(shù)據顯示,其鏈路故障恢復時間小于1毫秒,可穩(wěn)定支撐近萬卡集群連續(xù)運行超過10個月。相較于英偉達NDR方案,scaleFabric在最大QP數(shù)支持、單子網互連規(guī)模等維度實現(xiàn)顯著提升,單集群最大部署規(guī)模可達11.4萬卡,同時將網絡建設成本降低30%。
實際應用層面,該方案已在國家超算互聯(lián)網鄭州核心節(jié)點完成部署,成功支撐三套萬卡級scaleX智能計算集群上線運行,總計算規(guī)模突破3萬卡。這種大規(guī)模集群的穩(wěn)定運行驗證,標志著我國在高端網絡技術領域實現(xiàn)了從依賴進口到自主可控的重要跨越,為人工智能、科學計算等領域的大規(guī)模并行計算提供了新的基礎設施選擇。






















