在AI算力需求持續攀升的背景下,我國智算基礎設施領域迎來關鍵突破。中科曙光近日宣布,成功研制出國內首款全棧自研的400G無損高速網絡系統——scaleFabric,該系統基于原生RDMA架構打造,實現了從底層IP核到上層管理軟件的100%自主可控,為超大規模智算集群提供了高性能網絡解決方案。
當前,萬卡級智算集群已成為AI大模型訓練的主流形態。研究數據顯示,在分布式訓練場景中,網絡通信耗時占比高達30%-50%,網絡性能直接決定算力系統的整體效率。作為提升通信效率的核心技術,RDMA網絡憑借零丟包、高帶寬、低延遲等特性,被全球頂級超算中心廣泛采用。據TOP500榜單統計,全球約60%的高性能計算系統采用InfiniBand網絡架構,但該領域的關鍵技術長期被海外廠商壟斷。
中國工程院院士鄔賀銓在視頻致辭中強調:"高速網絡是算力基礎設施的'神經中樞',其自主可控性直接關系到國家算力安全與發展質量。面對大模型訓練對網絡提出的超低延遲、超高帶寬、無損傳輸等嚴苛要求,發展自主RDMA技術已成為產業界的共識。"
scaleFabric系統的研發突破了多重技術壁壘。該系統構建了完整的自主技術體系,涵蓋112G SerDes IP核、交換芯片、網卡、交換機等核心硬件,以及驅動與管理軟件。在性能指標上,400系列網卡采用PCIe5.0接口,端口帶寬達400Gbps,端到端時延低至0.9微秒;交換機單端口帶寬800Gbps,整機交換容量雙向64Tbps,交換時延約260納秒,支持800G×40或400G×80端口擴展,可滿足萬卡級集群的通信需求。
在穩定性與擴展性方面,該系統采用信用制無損流控機制,從根源上避免擁塞丟包,鏈路故障恢復時間小于1毫秒。經近萬卡集群長達10個月的穩定運行驗證,其交換機端口密度較英偉達NDR提升25%,網卡最大QP數支持提升100%,單子網互連規模達傳統IB的2.33倍,可支撐最大11.4萬卡集群部署,同時網絡總成本降低30%。
實際應用層面,scaleFabric已部署于國家超算互聯網鄭州核心節點,支撐三套總規模達3萬卡的scaleX智算集群穩定運行。中科曙光高級副總裁李斌透露,該系統成功支持跨POD組網及大規模并行訓練任務,驗證了國產原生RDMA技術在高端智算場景的可行性。隨著產品在超大規模集群中的落地,圍繞scaleFabric的高性能網絡產業生態正在加速形成。
此次突破標志著我國在智算互聯領域形成自主技術路徑。依托在計算、存儲、網絡領域的長期積累,中科曙光已構建起"算-存-網"協同發展的完整算力底座,為AI基礎設施提供系統級支撐。在"人工智能+"戰略推動下,算力基礎設施正進入升級周期,國產原生RDMA網絡的落地補齊了我國智算產業鏈的關鍵環節。











