在全球智算集群邁向“十萬卡”規(guī)模的新階段,傳統(tǒng)單機(jī)八卡服務(wù)器因集群通信開銷激增,難以支撐超萬億參數(shù)模型的訓(xùn)練需求,算力線性增長遭遇瓶頸。以強(qiáng)互聯(lián)能力為核心的超節(jié)點架構(gòu)正成為行業(yè)技術(shù)演進(jìn)的關(guān)鍵方向,推動智算基礎(chǔ)設(shè)施向更高密度、更低時延的方向突破。
近日,由摩爾線程、中國移動研究院、之江實驗室等機(jī)構(gòu)聯(lián)合制定的《OISA高密超節(jié)點參考設(shè)計技術(shù)規(guī)范》正式發(fā)布。該規(guī)范針對智算中心面臨的互聯(lián)帶寬不足、供電壓力劇增、散熱效率低下等核心挑戰(zhàn),提出了一套覆蓋硬件架構(gòu)、供電系統(tǒng)、冷卻技術(shù)的全棧解決方案,為構(gòu)建自主可控的高性能智算集群提供了關(guān)鍵技術(shù)支撐。
在硬件架構(gòu)層面,OISA高密超節(jié)點通過物理空間與邏輯拓?fù)涞碾p重創(chuàng)新,實現(xiàn)了算力密度的指數(shù)級提升。設(shè)計采用大尺寸高密線纜技術(shù),在標(biāo)準(zhǔn)單寬機(jī)柜內(nèi)實現(xiàn)128卡全互聯(lián),并支持通過并柜擴(kuò)展至256卡部署,單位面積算力產(chǎn)出較傳統(tǒng)架構(gòu)提升數(shù)倍。基于OISA 2.0協(xié)議的原生內(nèi)存語義支持,跨節(jié)點數(shù)據(jù)訪問實現(xiàn)無障礙傳輸,配合報文重構(gòu)技術(shù)將卡間帶寬推向TB/s級別,時延壓縮至數(shù)百納秒量級。這種“高密度物理布局+高帶寬邏輯互聯(lián)”的協(xié)同設(shè)計,不僅兼容多廠商國產(chǎn)芯片,更為大規(guī)模模型訓(xùn)練創(chuàng)造了近似單機(jī)性能的分布式計算環(huán)境。
面對單GPU功耗突破700W、機(jī)柜功率向350kW演進(jìn)的挑戰(zhàn),OISA參考設(shè)計在供電與冷卻系統(tǒng)上實現(xiàn)革命性突破。供電方案引入高壓直流系統(tǒng)與柜內(nèi)集中供電技術(shù),通過減少電力轉(zhuǎn)換層級將能耗損耗降低30%以上,為高密度算力部署提供穩(wěn)定動力。冷卻系統(tǒng)則將液冷技術(shù)從可選方案升級為原生配置,針對單GPU 2kW以上的散熱需求優(yōu)化流道設(shè)計,配合智能診斷系統(tǒng)實時監(jiān)測流量、壓力、溫度參數(shù),使PUE值從風(fēng)冷時代的1.4降至1.05-1.15區(qū)間,導(dǎo)熱效率提升達(dá)數(shù)千倍,為智算產(chǎn)業(yè)綠色轉(zhuǎn)型開辟新路徑。
該規(guī)范的發(fā)布標(biāo)志著智算基礎(chǔ)設(shè)施進(jìn)入體系化合作新階段。通過整合芯片廠商、設(shè)備制造商、科研機(jī)構(gòu)等產(chǎn)業(yè)鏈資源,OISA平臺構(gòu)建起覆蓋芯片設(shè)計、設(shè)備集成、應(yīng)用開發(fā)的完整生態(tài),為行業(yè)提供多元化技術(shù)路徑選擇。目前,中國移動、之江實驗室等機(jī)構(gòu)已啟動規(guī)模化部署試點,并計劃聯(lián)合更多合作伙伴開展定制化方案設(shè)計,推動Chiplet、光互連、內(nèi)存池等前沿技術(shù)與超節(jié)點架構(gòu)的深度融合,持續(xù)探索計算性能極限。





