行業(yè)里有個心照不宣的秘密:大規(guī)模集群的算力,理論峰值和實際有效利用率之間,隔著一道巨大的鴻溝。
meta Llama 3預(yù)訓(xùn)練過程中出現(xiàn)了419次故障,這個數(shù)字在圈內(nèi)引發(fā)過不小的震動。更扎心的是,236B MoE模型、6000卡訓(xùn)練作業(yè),24小時實測有效訓(xùn)練時間占比只有82.12%。這意味著,將近18%的時間,集群不是在算模型,而是在處理故障、等待恢復(fù)。萬億參數(shù)、萬卡規(guī)模的場景,情況只會更差。
這不是某家廠商的個例,而是整個行業(yè)的可靠性詛咒。
看看故障根因分析就知道問題有多復(fù)雜:故障GPE、GPE CPU DRAM內(nèi)存、軟件Bug、網(wǎng)絡(luò)交換機(jī)/線纜、主機(jī)主板……每一類組件都在貢獻(xiàn)著不可忽視的中斷比例。集群規(guī)模越大,組件數(shù)量呈指數(shù)級增長,故障概率也隨之飆升。在大規(guī)模集群中,故障幾乎成為必然,這不是悲觀預(yù)測,而是殘酷現(xiàn)實。
最近,曙光發(fā)布的ScaleX40超節(jié)點新品引起業(yè)內(nèi)關(guān)注。超節(jié)點概念并不新鮮,但真正敢大規(guī)模部署的用戶并不多,核心原因在于可靠性。曙光scaleX40采用無線纜正交背板設(shè)計,故障率降低30%-50%,系統(tǒng)可用性提升至99.99%,運(yùn)維時間降至數(shù)小時,解決了超節(jié)點落地的最后一公里問題。
曙光這次把可靠性問題擺上臺面,本身就是一種行業(yè)自覺。ScaleX40能不能真正緩解“靠性詛咒,需要實測數(shù)據(jù)來驗證,但至少,方向是對的。









