在數(shù)據(jù)中心高速網(wǎng)絡(luò)領(lǐng)域,中科曙光近日宣布取得關(guān)鍵技術(shù)突破,正式推出國(guó)內(nèi)首款全棧自研的400G無(wú)損高速網(wǎng)絡(luò)解決方案——scaleFabric。該產(chǎn)品通過(guò)原生RDMA架構(gòu)實(shí)現(xiàn)從底層硬件到上層軟件的完全自主可控,標(biāo)志著我國(guó)在高端網(wǎng)絡(luò)設(shè)備領(lǐng)域打破海外技術(shù)壟斷,為超大規(guī)模智算集群建設(shè)提供核心支撐。
面對(duì)AI大模型訓(xùn)練對(duì)算力網(wǎng)絡(luò)的極端需求,傳統(tǒng)TCP/IP協(xié)議已難以滿足萬(wàn)卡級(jí)集群的通信要求。RDMA技術(shù)憑借零丟包、微秒級(jí)延遲的特性,成為全球頂級(jí)超算中心的首選方案。其中InfiniBand架構(gòu)雖占據(jù)主導(dǎo)地位,但其核心產(chǎn)業(yè)鏈長(zhǎng)期被海外企業(yè)把控,從112G SerDes IP到交換芯片等關(guān)鍵環(huán)節(jié)均存在技術(shù)壁壘。
scaleFabric系列產(chǎn)品的問(wèn)世改變了這一格局。該方案采用全鏈路自主研發(fā)策略,涵蓋從112G SerDes IP、交換芯片、網(wǎng)卡到交換機(jī)及管理軟件的完整技術(shù)棧。其400G網(wǎng)卡基于PCIe5.0接口設(shè)計(jì),端到端延遲突破0.9微秒大關(guān);交換機(jī)產(chǎn)品更實(shí)現(xiàn)單端口800G帶寬,整機(jī)交換容量達(dá)雙向64Tbps,交換延遲控制在260納秒以內(nèi),關(guān)鍵指標(biāo)全面對(duì)標(biāo)英偉達(dá)NDR系列。
在性能優(yōu)化方面,該產(chǎn)品創(chuàng)新采用信用制無(wú)損流控機(jī)制,將鏈路故障恢復(fù)時(shí)間壓縮至1毫秒以內(nèi)。經(jīng)實(shí)際驗(yàn)證,近萬(wàn)卡集群連續(xù)運(yùn)行10個(gè)月未出現(xiàn)通信中斷。與國(guó)際競(jìng)品相比,其交換機(jī)端口密度提升25%,網(wǎng)卡最大QP數(shù)支持翻倍,單子網(wǎng)互連規(guī)模可達(dá)傳統(tǒng)IB架構(gòu)的2.33倍,單集群最大支持11.4萬(wàn)卡部署,同時(shí)將網(wǎng)絡(luò)建設(shè)成本降低30%。
目前該技術(shù)方案已在國(guó)家超算互聯(lián)網(wǎng)鄭州核心節(jié)點(diǎn)完成部署,成功支撐三套萬(wàn)卡級(jí)scaleX智算集群穩(wěn)定運(yùn)行,總算力規(guī)模突破3萬(wàn)張GPU卡。這一突破不僅驗(yàn)證了國(guó)產(chǎn)高速網(wǎng)絡(luò)方案的可靠性,更為我國(guó)人工智能產(chǎn)業(yè)構(gòu)建自主可控的算力基礎(chǔ)設(shè)施提供了重要選項(xiàng),有望推動(dòng)國(guó)內(nèi)智算中心建設(shè)進(jìn)入全新發(fā)展階段。











