隨著AI技術(shù)進(jìn)入Agent時代,非線性增長的Token需求正推動算力架構(gòu)發(fā)生深刻變革。國聯(lián)民生證券最新研報指出,傳統(tǒng)數(shù)據(jù)中心依賴服務(wù)器峰值算力的模式已難以滿足AI工作負(fù)載需求,超節(jié)點(diǎn)架構(gòu)憑借其全層級能力優(yōu)化與物理分離設(shè)計,正在成為破解計算效率瓶頸的關(guān)鍵路徑。這種新型架構(gòu)通過將推理過程中的計算密集型(Prefill)與內(nèi)存帶寬密集型(Decode)階段解耦,使單位時間數(shù)據(jù)吞吐量成為決定性能的核心指標(biāo),為國產(chǎn)算力實(shí)現(xiàn)技術(shù)跨越提供了戰(zhàn)略機(jī)遇。
英偉達(dá)Rubin平臺的實(shí)踐印證了這種趨勢。其旗艦產(chǎn)品Vera Rubin NVL72機(jī)架系統(tǒng)采用極限協(xié)同設(shè)計理念,將GPU、CPU、網(wǎng)絡(luò)等八大組件作為統(tǒng)一系統(tǒng)構(gòu)建。通過第六代NVLink交換機(jī)實(shí)現(xiàn)3.6TB/s的GPU間帶寬,配合BlueField-4 DPU的64核Grace CPU進(jìn)行基礎(chǔ)設(shè)施卸載,使整個數(shù)據(jù)中心成為智能生產(chǎn)單元。這種設(shè)計使系統(tǒng)在DeepSeek R1等大模型推理中,單用戶token生成速度突破112 tokens/s,延遲控制在8.9毫秒以內(nèi),較傳統(tǒng)架構(gòu)提升3倍以上。
國內(nèi)廠商在超節(jié)點(diǎn)領(lǐng)域已形成完整技術(shù)體系。浪潮信息推出的元腦SD200采用3D Mesh互連系統(tǒng),支持64張本土AI芯片高密度擴(kuò)展,通過三層精簡互連協(xié)議將報文有效數(shù)據(jù)利用率提升至96%。其獨(dú)創(chuàng)的交換域全局編址技術(shù),使跨主機(jī)GPU P2P訪問延遲降低至微秒級,在4096輸入長度場景下實(shí)現(xiàn)行業(yè)領(lǐng)先的推理性能。中科曙光的scaleX40則通過正交無線纜架構(gòu)消除物理連接損耗,單節(jié)點(diǎn)集成40張GPU,總算力達(dá)28PFLOPS,部署周期從數(shù)月縮短至數(shù)小時。
華為昇騰系列超節(jié)點(diǎn)展現(xiàn)出更強(qiáng)的擴(kuò)展性。Atlas 900搭載384顆Ascend 910C芯片,采用靈衢1.0光互聯(lián)協(xié)議,已在國內(nèi)多個智算中心落地。面向萬億參數(shù)模型的Atlas 950將芯片數(shù)量提升至8192顆,總互聯(lián)帶寬達(dá)16.3PB/s,顯存容量突破1152TB。最新發(fā)布的Atlas 960更可組建百萬卡級集群,F(xiàn)P8精度總算力達(dá)30EFLOPS,支持AGI場景下超長上下文推理需求。其TaiShan 950通用計算超節(jié)點(diǎn)則通過內(nèi)存池化技術(shù),滿足金融、政務(wù)等領(lǐng)域?qū)Φ脱舆t通用計算的需求。
技術(shù)演進(jìn)推動產(chǎn)業(yè)鏈價值重構(gòu)。在超節(jié)點(diǎn)核心環(huán)節(jié),寒武紀(jì)、海光信息等企業(yè)加速研發(fā)適配新型架構(gòu)的AI芯片,云天勵飛、龍芯中科則在CPU領(lǐng)域突破指令集兼容難題。軟通動力、神州數(shù)碼等華為產(chǎn)業(yè)鏈企業(yè),通過參與靈衢互聯(lián)協(xié)議開發(fā)獲得技術(shù)先發(fā)優(yōu)勢。云計算層面,金山云、優(yōu)刻得等廠商正將超節(jié)點(diǎn)架構(gòu)融入智算服務(wù),使單集群可支持十萬卡級模型訓(xùn)練。這種全產(chǎn)業(yè)鏈協(xié)同創(chuàng)新,正在重塑國產(chǎn)算力的競爭格局。










