在人工智能大模型訓(xùn)練的賽道上,萬(wàn)卡、十萬(wàn)卡集群已成為新的競(jìng)爭(zhēng)高地。然而,當(dāng)算力規(guī)模突破臨界點(diǎn)后,一個(gè)意想不到的瓶頸悄然浮現(xiàn)——網(wǎng)絡(luò)通信正成為吞噬算力效率的“隱形殺手”。據(jù)行業(yè)統(tǒng)計(jì),在超大規(guī)模AI訓(xùn)練集群中,節(jié)點(diǎn)間通信耗時(shí)占比已超過(guò)30%,且隨著集群規(guī)模擴(kuò)大,這一比例呈指數(shù)級(jí)上升趨勢(shì)。這場(chǎng)由網(wǎng)絡(luò)引發(fā)的變革,正在重塑整個(gè)智算基礎(chǔ)設(shè)施的技術(shù)路線(xiàn)圖。
曾經(jīng)被視為“經(jīng)濟(jì)適用型”解決方案的RoCE(RDMA over Converged Ethernet),正面臨前所未有的挑戰(zhàn)。這種基于標(biāo)準(zhǔn)以太網(wǎng)改造的技術(shù)方案,通過(guò)疊加RDMA功能實(shí)現(xiàn)了低成本的無(wú)損通信,在千卡級(jí)集群時(shí)代占據(jù)主導(dǎo)地位。但當(dāng)集群規(guī)模突破萬(wàn)卡門(mén)檻后,其依賴(lài)的PFC流控機(jī)制暴露出致命缺陷——這種“事后補(bǔ)救”式的擁塞控制,如同在高速公路上采用“緊急剎車(chē)”來(lái)避免追尾,極易引發(fā)多級(jí)網(wǎng)絡(luò)中的連鎖崩潰。某頭部互聯(lián)網(wǎng)企業(yè)的實(shí)測(cè)數(shù)據(jù)顯示,其萬(wàn)卡級(jí)RoCE集群每月因PFC風(fēng)暴導(dǎo)致的訓(xùn)練中斷達(dá)3-5次,每次恢復(fù)耗時(shí)超過(guò)20分鐘。
運(yùn)維復(fù)雜度的指數(shù)級(jí)增長(zhǎng),正在消解RoCE的成本優(yōu)勢(shì)。為維持網(wǎng)絡(luò)穩(wěn)定性,企業(yè)需要組建專(zhuān)職優(yōu)化團(tuán)隊(duì),持續(xù)調(diào)整數(shù)百個(gè)水線(xiàn)參數(shù)。這種“手工調(diào)優(yōu)”模式不僅人力成本高昂,更導(dǎo)致算力利用率波動(dòng)幅度超過(guò)15%。某智算服務(wù)商的測(cè)算表明,在萬(wàn)卡集群生命周期內(nèi),RoCE方案的綜合運(yùn)維成本已接近IB(InfiniBand)架構(gòu)的硬件差價(jià),徹底顛覆了“IB昂貴”的傳統(tǒng)認(rèn)知。
與之形成鮮明對(duì)比的是,原生RDMA架構(gòu)的IB網(wǎng)絡(luò)展現(xiàn)出驚人的規(guī)模適應(yīng)性。其基于信用的流控機(jī)制,通過(guò)“先確認(rèn)后發(fā)送”的預(yù)防式設(shè)計(jì),從根源上杜絕了丟包風(fēng)險(xiǎn)。這種技術(shù)特性使得IB網(wǎng)絡(luò)無(wú)需復(fù)雜調(diào)優(yōu)即可實(shí)現(xiàn)穩(wěn)定運(yùn)行,某頭部廠(chǎng)商的十萬(wàn)卡集群已連續(xù)運(yùn)行超過(guò)180天無(wú)中斷。更關(guān)鍵的是,IB的集中式管理架構(gòu)通過(guò)全局路由規(guī)劃,將死鎖概率降至零,而RoCE的分布式協(xié)商機(jī)制在同等規(guī)模下死鎖風(fēng)險(xiǎn)高達(dá)37%。
在故障恢復(fù)能力這個(gè)關(guān)鍵指標(biāo)上,IB架構(gòu)展現(xiàn)出壓倒性?xún)?yōu)勢(shì)。通過(guò)動(dòng)態(tài)容錯(cuò)路由技術(shù),IB網(wǎng)絡(luò)可在毫秒級(jí)完成鏈路切換,且恢復(fù)時(shí)間不隨規(guī)模擴(kuò)大而增加。某國(guó)產(chǎn)IB方案的實(shí)測(cè)數(shù)據(jù)顯示,在3萬(wàn)卡集群中,日均數(shù)十次鏈路故障未引發(fā)任何訓(xùn)練中斷。而同等規(guī)模的RoCE集群,每次故障恢復(fù)需要3-5秒,足以觸發(fā)訓(xùn)練任務(wù)回滾,造成數(shù)十分鐘的算力浪費(fèi)。這種穩(wěn)定性差異,正在改變高端用戶(hù)的采購(gòu)決策邏輯——某金融科技企業(yè)的采購(gòu)負(fù)責(zé)人坦言:“當(dāng)訓(xùn)練任務(wù)周期超過(guò)30天,IB方案帶來(lái)的效率提升足以覆蓋其硬件溢價(jià)。”
技術(shù)路線(xiàn)的分野,在國(guó)產(chǎn)化浪潮中呈現(xiàn)新的變量。中科曙光推出的scaleFabric原生無(wú)損網(wǎng)絡(luò)系統(tǒng),通過(guò)全棧自研的112G SerDes IP、交換芯片和智能網(wǎng)卡,實(shí)現(xiàn)了端到端時(shí)延低于1微秒、轉(zhuǎn)發(fā)時(shí)延260納秒的性能指標(biāo)。該方案在鄭州超算中心完成3萬(wàn)卡商用部署,累計(jì)運(yùn)行超10萬(wàn)項(xiàng)作業(yè),驗(yàn)證了其單子網(wǎng)支持11萬(wàn)卡擴(kuò)展的可靠性。這項(xiàng)突破不僅打破了海外技術(shù)壟斷,更創(chuàng)造了新的技術(shù)范式——通過(guò)智能流量調(diào)度算法,在保持IB原生優(yōu)勢(shì)的同時(shí),將組網(wǎng)成本降低40%,功耗下降35%。
市場(chǎng)格局的演變印證著技術(shù)路線(xiàn)的更迭。Dell'Oro Group數(shù)據(jù)顯示,在AI后端網(wǎng)絡(luò)市場(chǎng),IB架構(gòu)的份額持續(xù)攀升,特別是在萬(wàn)卡以上集群領(lǐng)域占據(jù)絕對(duì)優(yōu)勢(shì)。這種趨勢(shì)在國(guó)內(nèi)市場(chǎng)尤為明顯,隨著大模型訓(xùn)練從“參數(shù)競(jìng)賽”轉(zhuǎn)向“工程化落地”,用戶(hù)對(duì)網(wǎng)絡(luò)可靠性的要求已超越成本考量。某云服務(wù)提供商的采購(gòu)數(shù)據(jù)顯示,其2024年新建的5個(gè)萬(wàn)卡集群中,4個(gè)選擇了IB架構(gòu),這一比例在2023年僅為1:4。
在這場(chǎng)算力軍備競(jìng)賽中,網(wǎng)絡(luò)技術(shù)的演進(jìn)正在改寫(xiě)游戲規(guī)則。當(dāng)集群規(guī)模突破十萬(wàn)卡臨界點(diǎn),通信延遲每降低1微秒,可能帶來(lái)數(shù)PFlops的有效算力提升;網(wǎng)絡(luò)穩(wěn)定性每提高1個(gè)百分點(diǎn),意味著數(shù)百萬(wàn)美元的訓(xùn)練成本節(jié)約。這種技術(shù)經(jīng)濟(jì)性的質(zhì)變,使得RDMA架構(gòu)的選擇不再局限于性能與成本的權(quán)衡,而是關(guān)乎整個(gè)智算基礎(chǔ)設(shè)施能否持續(xù)進(jìn)化的戰(zhàn)略決策。隨著國(guó)產(chǎn)IB方案的成熟,一個(gè)全新的技術(shù)競(jìng)爭(zhēng)維度正在開(kāi)啟——在這條算力大動(dòng)脈上,每納秒的優(yōu)化都可能決定未來(lái)AI競(jìng)賽的勝負(fù)。











