中科曙光近日宣布,在國產高端網絡技術領域取得關鍵性突破,正式推出首款全棧自研的400G無損高速網絡解決方案——scaleFabric。該產品通過構建從底層硬件到上層軟件的完整技術體系,實現了數據中心高速網絡領域的技術自主可控,為國內超大規模智能計算集群建設提供了核心支撐。
作為面向萬卡級智能計算集群設計的網絡架構,scaleFabric突破了海外廠商在InfiniBand產業鏈的技術壟斷。其核心組件包括自主研發的112G SerDes IP、交換芯片、智能網卡及配套管理軟件,形成了從硬件設備到軟件協議的完整技術閉環。該方案特別針對AI大模型訓練場景優化,通過原生RDMA架構實現零丟包、微秒級延遲的數據傳輸,有效解決了傳統網絡在大規模并行計算中的通信瓶頸問題。
技術規格顯示,scaleFabric400系列網卡采用PCIe5.0接口,單端口帶寬達400Gbps,端到端通信延遲控制在0.9微秒以內。配套交換機產品單端口帶寬突破800Gbps,整機交換容量達雙向64Tbps,支持800G×40或400G×80端口靈活配置。在關鍵性能指標上,該方案已達到國際頂尖水平,其中交換機端口密度較同類產品提升25%,網絡互連規模擴展至傳統方案的2.33倍。
在穩定性設計方面,創新采用信用制無損流控機制,從底層規避網絡擁塞導致的丟包風險。實測數據顯示,其鏈路故障恢復時間小于1毫秒,可穩定支撐近萬卡集群連續運行超過10個月。相較于英偉達NDR方案,scaleFabric在最大QP數支持、單子網互連規模等維度實現顯著提升,單集群最大部署規模可達11.4萬卡,同時將網絡建設成本降低30%。
實際應用層面,該方案已在國家超算互聯網鄭州核心節點完成部署,成功支撐三套萬卡級scaleX智能計算集群上線運行,總計算規模突破3萬卡。這種大規模集群的穩定運行驗證,標志著我國在高端網絡技術領域實現了從依賴進口到自主可控的重要跨越,為人工智能、科學計算等領域的大規模并行計算提供了新的基礎設施選擇。










