成人美女黄网站免费|哔哩哔哩免费观看在线视频|freexx老女人|欧美精品三区|近的2019中文字幕在线|97中文字幕一区二区|日本jazz护士

巨人財經 - 專業科技行業財經媒體

中科曙光scaleFabric國產IB批量商用:突破技術壁壘,重塑萬卡集群網絡選型格局

   發布時間:2026-05-27 04:10 作者:沈如風

在人工智能大模型訓練邁向萬卡、十萬卡集群規模的新階段,算力競爭的焦點已從單純的GPU數量堆疊轉向網絡基礎設施的優化。行業數據顯示,稠密大模型訓練中通信耗時占比超30%,MoE稀疏模型更突破50%,網絡抖動、延遲或丟包均會導致大規模GPU集群空轉,顯著拉低算力利用率。這一背景下,中科曙光自主研發的scaleFabric國產IB網絡解決方案實現批量商用,憑借原生無損RDMA架構與全棧自研技術,成為超大規模智算集群組網的關鍵突破。

傳統智算集群網絡建設長期面臨兩難選擇:進口InfiniBand(IB)技術成熟但成本高昂,單張400G IB網卡價格達數千美元,800G光模塊與高速線纜價格翻倍,萬卡集群網絡硬件投入輕松突破億元;同時,高端IB設備受出口管制限制,供貨周期長達3-6個月,且需捆綁采購特定廠商的GPU,導致供應鏈風險與議價能力喪失。另一條技術路線RoCE雖硬件成本僅為IB的一半,但其基于以太網的補丁式改造存在先天缺陷,千卡以上集群規模擴展時,故障回滾與算力損耗足以抵消初始成本優勢,且運維依賴專家經驗,參數調優復雜度高。

中科曙光歷時三年攻克核心技術,推出的scaleFabric 400G網絡解決方案實現從112G PAM4 SerDes IP、交換芯片、高速網卡到驅動軟件的全棧自研。該方案采用ADC-DSP架構,通過電感峰化補償技術與FFE/DFE聯合均衡算法,有效解決超高速長距傳輸中的信號衰減與噪聲干擾問題;反射補償與噪聲白化DSP算法則將系統誤碼率降低至行業領先水平,適配復雜電磁環境。在穩定性設計上,高性能LDO電源凈化技術為信號處理提供穩定供電,原生IB信用流控機制從根源杜絕丟包與緩沖區溢出,避免大規模集群中的PFC風暴風險。實測數據顯示,其交換機轉發時延僅260納秒,端到端通信時延0.9微秒,核心性能對標國際一線產品。

在國家超算互聯網鄭州核心節點的部署中,scaleFabric支撐的三套萬卡級集群從設備上電到業務開通僅用36小時,部署效率較RoCE方案提升十倍。該節點已穩定運行超10個月,累計承載十萬級AI訓練與超算仿真任務,期間未發生網絡故障或訓練中斷,完全滿足7×24小時高強度算力調度需求。在集群擴展性方面,scaleFabric單子網支持11.4萬卡集群,是傳統IB的2.33倍,端口密度提升25%,單芯片可支持80個400G端口或40個800G端口,顯著減少交換機與線纜用量,降低運維壓力與能耗。

規模化商用帶來的成本重構效應同樣顯著。相較于同規格進口IB設備,scaleFabric整體組網成本降低30%以上,與國產高端RoCE方案持平。這一突破得益于全棧自研帶來的供應鏈掌控力:從芯片IP到硬件設備均實現國產自主,擺脫海外技術依賴,穩定供貨能力有效規避斷供風險。同時,該方案深度適配國產CPU、GPU與加速卡,兼容國產算力生態,為“東數西算”等國家級工程提供安全可控的網絡底座。

在生態兼容性上,scaleFabric完全支持國際標準IB協議,PyTorch、TensorFlow等主流AI框架與NCCL、OpenMPI等通信庫可無縫遷移,無需修改代碼,大幅降低替換成本。中科曙光聯合科大訊飛、中興通訊等企業成立高速網絡專項工作組,推動國產高速網絡標準制定與技術迭代,構建覆蓋芯片、設備、軟件的全產業鏈生態。

隨著AI大模型訓練規模向十萬卡級演進,網絡性能已成為決定集群算力釋放的核心要素。scaleFabric的商用落地不僅填補了國產原生無損RDMA網絡的技術空白,更重新定義了超大規模智算集群的選型標準:500卡以下集群可沿用RoCE方案,500卡至萬卡級集群推薦“前端RoCE+后端國產IB”混合組網,而萬卡以上核心場景中,國產IB憑借成本、性能與穩定性的綜合優勢,已成為行業唯一最優解。這一轉變標志著國內智算集群建設從“被動選擇”邁向“主動優化”,為國產算力產業的高質量發展奠定基礎。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新