在上海松江的儀電智算中心內,一個由上萬張GPU設備組成的龐大算力網絡正在高效運轉。每張芯片每秒可完成數十萬億次運算,其兩天內的總算力輸出,足以媲美三峽水電站單機組一小時的發電量。這一驚人的算力規模,為人工智能模型的訓練提供了強大的底層支撐。
為確保這一萬卡集群的穩定運行,上海儀電智算科技團隊攻克了高故障率芯片協同的技術難題。通過算法優化與并行調度策略,團隊將系統可用性提升至99.99%,全年故障時間被嚴格控制在1小時以內。這一突破不僅保障了多模態大模型在全球范圍內的領先訓練進度,更避免了因算力中斷可能導致的重大損失。
該集群在國產化適配方面同樣取得顯著進展。團隊成功將多種國產算力卡融入系統,實現了異構算力的深度融合與優化調度,設備使用率接近100%。更值得關注的是,團隊首創的“動態感知調度方案”使訓練效率大幅提升91%,年節省的算力成本相當于新建3個數據中心。目前,該集群已具備快速部署萬卡規模的能力,為大規模AI應用落地奠定了基礎。
據智算科技董事長孫躍介紹,公司正在推進“算電協同”戰略,通過擴大綠色電力應用、采用液冷技術降低能耗(PUE值),并探索利用海上風電為數據中心供電。同時,公司打造的YI CLOUD平臺正與產業生態深度協同,推動國產算力在“AI+”場景中的全面賦能,助力各行業智能化轉型。











