在AI算力需求持續(xù)攀升的背景下,國(guó)內(nèi)智算網(wǎng)絡(luò)領(lǐng)域迎來(lái)里程碑式突破。中科曙光近日宣布,其自主研發(fā)的400G無(wú)損高速網(wǎng)絡(luò)產(chǎn)品scaleFabric正式投入商用,標(biāo)志著我國(guó)在高端RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))技術(shù)領(lǐng)域?qū)崿F(xiàn)從核心IP到系統(tǒng)架構(gòu)的全面自主可控。該產(chǎn)品已通過(guò)國(guó)家超算互聯(lián)網(wǎng)鄭州核心節(jié)點(diǎn)萬(wàn)卡級(jí)集群驗(yàn)證,為國(guó)產(chǎn)智算基礎(chǔ)設(shè)施注入關(guān)鍵動(dòng)能。
當(dāng)前,全球智算集群正加速向萬(wàn)卡級(jí)規(guī)模演進(jìn),網(wǎng)絡(luò)通信效率成為制約算力釋放的核心瓶頸。研究顯示,在千億參數(shù)級(jí)大模型訓(xùn)練中,跨節(jié)點(diǎn)通信耗時(shí)占比高達(dá)50%,傳統(tǒng)TCP/IP網(wǎng)絡(luò)已難以滿足超低延遲需求。作為全球主流方案,InfiniBand憑借零丟包、微秒級(jí)時(shí)延特性占據(jù)60%超算市場(chǎng)份額,但其產(chǎn)業(yè)鏈長(zhǎng)期被海外企業(yè)壟斷,從112G SerDes IP到交換芯片等關(guān)鍵環(huán)節(jié)均存在技術(shù)壁壘。
中國(guó)工程院院士鄔賀銓在視頻致辭中強(qiáng)調(diào):"高速網(wǎng)絡(luò)是算力系統(tǒng)的神經(jīng)中樞,其自主化程度直接決定國(guó)家算力基礎(chǔ)設(shè)施的安全邊界。"面對(duì)技術(shù)封鎖與產(chǎn)業(yè)升級(jí)雙重壓力,scaleFabric的誕生恰逢其時(shí)。該系統(tǒng)采用全棧自研架構(gòu),涵蓋從底層硬件到上層管理軟件的全鏈條技術(shù),其中400G網(wǎng)卡實(shí)現(xiàn)0.9微秒端到端時(shí)延,交換機(jī)支持雙向64Tbps交換容量,關(guān)鍵指標(biāo)達(dá)到國(guó)際頂尖水平。
技術(shù)突破背后是多項(xiàng)創(chuàng)新機(jī)制的支撐。scaleFabric獨(dú)創(chuàng)的信用流控算法使鏈路故障恢復(fù)時(shí)間縮短至1毫秒內(nèi),較傳統(tǒng)方案提升10倍;通過(guò)動(dòng)態(tài)QP(隊(duì)列對(duì))資源分配技術(shù),單網(wǎng)卡支持QP數(shù)較英偉達(dá)NDR翻倍,單子網(wǎng)互連規(guī)模擴(kuò)展至11.4萬(wàn)卡。在鄭州超算節(jié)點(diǎn)部署中,該系統(tǒng)成功支撐3萬(wàn)卡集群穩(wěn)定運(yùn)行超10個(gè)月,網(wǎng)絡(luò)總成本降低30%,驗(yàn)證了其在超大規(guī)模場(chǎng)景下的可靠性。
中科曙光高級(jí)副總裁李斌透露,目前已有超過(guò)20家頭部AI企業(yè)參與scaleFabric生態(tài)共建,涵蓋芯片設(shè)計(jì)、模型訓(xùn)練、應(yīng)用開發(fā)等全產(chǎn)業(yè)鏈環(huán)節(jié)。隨著"人工智能+"戰(zhàn)略深入推進(jìn),國(guó)產(chǎn)智算網(wǎng)絡(luò)正從技術(shù)突破邁向產(chǎn)業(yè)生態(tài)構(gòu)建階段。此次突破不僅填補(bǔ)了國(guó)內(nèi)400G無(wú)損網(wǎng)絡(luò)空白,更通過(guò)"算-存-網(wǎng)"一體化方案,為國(guó)產(chǎn)AI大模型訓(xùn)練提供了系統(tǒng)級(jí)支撐平臺(tái)。











