在AI大模型訓練與高通量推理計算需求迅猛增長的背景下,萬卡級算力集群正成為行業主流。然而,大規模分布式訓練中網絡通信耗時占比高達30-50%,網絡性能成為制約算力系統效率的關鍵瓶頸。面對這一挑戰,中科曙光近日宣布推出國內首款全棧自研的400G無損高速網絡解決方案——scaleFabric,標志著我國在高端智算互聯領域實現重大技術突破。
作為面向超大規模智算集群設計的原生RDMA網絡,scaleFabric構建了從底層IP到上層軟件的完整自主技術體系。該方案涵蓋112G SerDes核心IP、交換芯片、智能網卡及管理軟件等全鏈條組件,其中400G網卡采用PCIe5.0接口,端到端時延低至0.9微秒;800G交換機支持雙向64Tbps交換容量,時延僅260納秒,性能指標全面對標國際頂尖的英偉達NDR架構,并在端口密度、單子網規模等維度實現超越。通過信用制無損流控機制,系統可徹底規避擁塞丟包風險,實現近萬卡集群連續10個月穩定運行,故障恢復時間小于1毫秒。
在鄭州國家超算互聯網核心節點的實際應用中,scaleFabric已支撐三套總規模達3萬卡的scaleX智算集群上線。運行數據顯示,該網絡可高效支持跨POD組網與大規模并行訓練任務,單子網互連規模達傳統IB架構的2.33倍,網絡總成本降低30%。中國工程院院士鄔賀銓在視頻致辭中強調:"高速網絡是算力基礎設施的核心命脈,其自主可控性直接關系到國家數字安全與發展質量。scaleFabric的突破為構建自主可控的智算生態提供了關鍵支撐。"
長期以來,InfiniBand產業鏈被海外廠商高度壟斷,從高速SerDes IP到核心芯片、IB網卡等關鍵環節均存在技術壁壘。隨著AI算力需求呈指數級增長,發展自主高性能RDMA網絡已成為產業共識。scaleFabric的落地不僅填補了國內數據中心高速網絡領域的技術空白,更通過"算-存-網"協同優化的系統級設計,為大規模AI基礎設施提供了完整的國產化解決方案。目前,圍繞該技術已形成涵蓋芯片、設備、軟件的完整產業生態,為我國智算基礎設施升級注入新動能。










