在上海松江儀電智算中心,一個由上萬張GPU設備構建的龐大算力網(wǎng)絡正高效運轉。每張芯片每秒可完成數(shù)十萬億次運算,其兩天的總算力輸出足以媲美三峽水電站單機組一小時的發(fā)電量。這一算力集群的建成,標志著我國在高性能計算領域邁出了關鍵一步。
為確保萬卡集群的穩(wěn)定運行,上海儀電智算科技團隊突破了高故障率芯片協(xié)同的技術瓶頸。通過算法優(yōu)化與并行調度技術,集群實現(xiàn)了99.99%的超高可用性,全年故障時間被嚴格控制在1小時以內。這一成果不僅保障了多模態(tài)大模型的全球領先訓練,還避免了重大算力損失,為人工智能研發(fā)提供了堅實支撐。
該集群在國產(chǎn)算力卡適配方面取得重大進展,已成功兼容多種國產(chǎn)芯片,實現(xiàn)了異構算力的融合與優(yōu)化調度,設備使用率接近100%。團隊自主研發(fā)的“動態(tài)感知調度方案”使訓練效率提升91%,年節(jié)省的算力成本相當于新建3個數(shù)據(jù)中心。集群還具備快速部署能力,可滿足大規(guī)模算力需求的彈性擴展。
據(jù)智算科技董事長孫躍介紹,公司正在推進“算電協(xié)同”戰(zhàn)略,通過擴大綠色電力應用、采用液冷技術降低能耗指標(PUE),并探索利用海上風電驅動數(shù)據(jù)中心。同時,依托YI CLOUD平臺及生態(tài)協(xié)同體系,推動國產(chǎn)算力在人工智能與產(chǎn)業(yè)融合領域實現(xiàn)全面賦能,助力數(shù)字經(jīng)濟高質量發(fā)展。











