近日,國內(nèi)AI算力領域迎來重大突破——由中科曙光研發(fā)的三套scaleX萬卡超集群系統(tǒng),在國家超算互聯(lián)網(wǎng)核心節(jié)點同步完成部署并投入試運行。這一里程碑事件標志著我國成為全球首個實現(xiàn)超3萬張AI加速卡規(guī)模化部署并實際運營的國家,國產(chǎn)AI算力池規(guī)模躍居世界前列。
此次上線的三套超集群系統(tǒng),采用中科曙光自主研發(fā)的scaleFabric高速互聯(lián)架構,單集群可支持400Gb/s帶寬與亞微秒級延遲通信。通過浸沒相變液冷技術與高密度刀片架構的融合創(chuàng)新,系統(tǒng)整體能效比(PUE)低至1.04,單機柜算力密度較傳統(tǒng)方案提升20倍。這種設計突破了萬卡級集群在供電、散熱方面的工程瓶頸,為后續(xù)向十萬卡規(guī)模擴展奠定技術基礎。
在系統(tǒng)調(diào)度層面,該平臺構建了"數(shù)字孿生+智能引擎"雙輪驅(qū)動體系。通過物理集群的數(shù)字化映射,實現(xiàn)故障預測準確率超95%;智能調(diào)度引擎可同時管理萬級計算節(jié)點,支持每秒萬級作業(yè)分發(fā),系統(tǒng)可用性達到99.99%。這種架構設計使國產(chǎn)算力資源首次具備服務十萬級用戶的能力,為大規(guī)模AI應用落地提供關鍵支撐。
從應用場景看,該算力池已全面覆蓋萬億參數(shù)大模型訓練、高通量AI推理、科學計算等前沿領域。在生物醫(yī)藥領域,支撐蛋白質(zhì)結構預測模型完成千億級參數(shù)訓練;在材料科學方向,助力新型催化劑研發(fā)效率提升300%。更值得關注的是,系統(tǒng)通過開放架構兼容多品牌加速卡,已完成400余個主流模型的適配優(yōu)化,有效降低開發(fā)者遷移成本。
作為國家超算互聯(lián)網(wǎng)的關鍵樞紐,此次上線的核心節(jié)點已連接全國30余個超算中心,服務用戶規(guī)模突破百萬級。平臺單日作業(yè)處理峰值達103萬次,累計完成1.96億次計算任務,形成覆蓋科研、產(chǎn)業(yè)、政務的多維度服務生態(tài)。這種"算力聯(lián)網(wǎng)"模式,有效解決了區(qū)域算力孤島問題,使西部能源富集區(qū)的算力資源得以高效輸送至東部需求中心。
在國際競爭維度,此次突破具有特殊戰(zhàn)略意義。當海外科技巨頭仍在通過堆砌硬件規(guī)模爭奪算力制高點時,中國已率先構建起工程化、體系化的算力運營體系。這種差異化的競爭路徑,既避免了單純追求參數(shù)規(guī)模的資源內(nèi)耗,又為國產(chǎn)算力生態(tài)的可持續(xù)發(fā)展開辟了新賽道。隨著開放架構的持續(xù)演進,一個兼容多芯片、多框架的國產(chǎn)算力共同體正在加速形成。












