隨著人工智能技術(shù)的飛速發(fā)展,AI大模型訓(xùn)練對算力的需求呈現(xiàn)指數(shù)級增長,萬卡集群已成為行業(yè)標(biāo)配。在這一背景下,網(wǎng)絡(luò)性能成為制約算力效率的關(guān)鍵因素。傳統(tǒng)InfiniBand(IB)網(wǎng)絡(luò)和RoCE網(wǎng)絡(luò)是當(dāng)前主流的兩種高速網(wǎng)絡(luò)方案,但前者長期被國外企業(yè)壟斷,后者則存在技術(shù)短板和國產(chǎn)化瓶頸。如何突破技術(shù)封鎖,打造自主可控的高速網(wǎng)絡(luò),成為國內(nèi)科技企業(yè)面臨的重要課題。
3月12日,中科曙光正式發(fā)布首款全棧自研400G無損高速網(wǎng)絡(luò)產(chǎn)品——scaleFabric,標(biāo)志著國內(nèi)在高端計算網(wǎng)絡(luò)領(lǐng)域?qū)崿F(xiàn)重大突破。該產(chǎn)品采用國產(chǎn)InfiniBand原生無損RDMA技術(shù),專為大規(guī)模萬卡集群設(shè)計,可全面適配AI大模型訓(xùn)練、超算任務(wù)等高端場景,為國產(chǎn)算力網(wǎng)絡(luò)自主可控提供了核心支撐。中科曙光高級副總裁李斌表示,在AI算力需求每九個月翻一番的背景下,高速網(wǎng)絡(luò)已成為制約行業(yè)發(fā)展的關(guān)鍵瓶頸,而scaleFabric的推出正是為了解決這一痛點(diǎn)。
當(dāng)前,RDMA網(wǎng)絡(luò)已成為算力中心的事實(shí)標(biāo)準(zhǔn),但其實(shí)現(xiàn)路徑存在顯著差異。RoCE網(wǎng)絡(luò)通過在以太網(wǎng)上嫁接RDMA技術(shù),雖兼容IP生態(tài),但存在協(xié)議冗余、帶寬低、時延高等先天缺陷,難以滿足大規(guī)模集群需求。相比之下,IB網(wǎng)絡(luò)作為原生RDMA方案,具有協(xié)議棧精簡、包頭信息短、有效載荷高等優(yōu)勢,其交換機(jī)采用VCT交換技術(shù),時延可控制在300ns以內(nèi),遠(yuǎn)優(yōu)于RoCE的500ns以上。中科曙光高速網(wǎng)絡(luò)互聯(lián)產(chǎn)品部總工程師萬偉指出,在大規(guī)模集群場景下,網(wǎng)絡(luò)性能直接決定系統(tǒng)整體效率,IB技術(shù)是當(dāng)前最優(yōu)解。
scaleFabric的研發(fā)歷時三年,實(shí)現(xiàn)了從底層芯片到上層軟件的全棧自研。其核心包括兩顆自研芯片:網(wǎng)卡芯片支持400G高帶寬和自研RDMA引擎,交換芯片具備64T雙向交換容量和260ns轉(zhuǎn)發(fā)時延。產(chǎn)品系列涵蓋400G單口標(biāo)準(zhǔn)網(wǎng)卡、1U 80口液冷交換機(jī)和2U 80口風(fēng)冷交換機(jī),可靈活適配不同場景需求。測試數(shù)據(jù)顯示,scaleFabric在端到端時延、單端口帶寬等關(guān)鍵指標(biāo)上已達(dá)到國際頂尖水平,在3萬卡集群實(shí)測中,網(wǎng)絡(luò)效率提升超40%,故障恢復(fù)時間縮短至毫秒級。
該產(chǎn)品的技術(shù)突破不僅體現(xiàn)在性能指標(biāo)上,更在于其完整的自主技術(shù)體系。通過自研112G SerDes IP、交換芯片、網(wǎng)卡等核心部件,中科曙光構(gòu)建了從硬件到軟件的自主生態(tài),徹底擺脫了對海外技術(shù)的依賴。萬偉強(qiáng)調(diào),scaleFabric在兼容性方面也做了大量優(yōu)化,可無縫對接主流通信庫,支持HPC/AI應(yīng)用零代碼遷移,最大限度降低用戶遷移成本。針對IB協(xié)議組網(wǎng)規(guī)模限制的問題,曙光通過技術(shù)創(chuàng)新將單子網(wǎng)支持規(guī)模提升至11.4萬卡,較市面主流產(chǎn)品提升133%,同時組網(wǎng)成本下降30%。
目前,scaleFabric已在鄭州國家超算互聯(lián)網(wǎng)節(jié)點(diǎn)實(shí)現(xiàn)規(guī)模化部署,三套萬卡集群僅用36小時即完成上線,累計服務(wù)客戶超1萬家,處理作業(yè)超10萬次。這一成果的取得,源于中科曙光在IB技術(shù)領(lǐng)域的長期積累。李斌透露,公司自2000年起便開始使用Myrinet高速網(wǎng)絡(luò),2005年后全面切換至IB體系,對相關(guān)技術(shù)和應(yīng)用場景有著深刻理解。正是這種技術(shù)積淀,使得曙光能夠在自研過程中精準(zhǔn)改進(jìn)原有設(shè)計,實(shí)現(xiàn)部分性能的超越。
在大算力領(lǐng)域,中科曙光的布局涵蓋核心計算芯片研發(fā)、硬件高效實(shí)現(xiàn)和系統(tǒng)級協(xié)同三個層面。公司特別強(qiáng)調(diào)算、存、傳的深度融合,通過與國內(nèi)產(chǎn)業(yè)鏈上下游緊密合作,共同構(gòu)建自主可控的算力生態(tài)。李斌表示,曙光不僅是scaleFabric的研發(fā)者,更是其最大用戶,這種身份使得公司能夠始終以用戶需求為導(dǎo)向,持續(xù)優(yōu)化產(chǎn)品性能。萬偉則透露,曙光計劃將關(guān)鍵技術(shù)開放給合作伙伴,共同打造類InfiniBand的網(wǎng)絡(luò)生態(tài),為中國AI算力發(fā)展提供更強(qiáng)支撐。











