在上海松江的儀電智算中心,巨大的機房內,上萬張GPU設備整齊排列,伴隨著持續的風扇轟鳴聲,它們與高速網絡線纜共同構建起一張龐大的算力網絡。每張芯片每秒可完成數十萬億次運算,僅需兩天時間,這些芯片匯聚的計算能量便足以媲美三峽水電站一臺機組一小時的發電量,彰顯出算力在人工智能發展中的核心地位。
要讓如此龐大的GPU集群高效協同運轉,絕非易事。上海儀電旗下的智算科技團隊,憑借著卓越的技術實力,成功實現了集群99.99%的超高可用性,這意味著全年總故障時間被壓縮至1小時以內。這一突破,為AI大模型的訓練提供了堅實的算力保障,避免了因算力中斷可能帶來的巨大損失。
智算科技董事長孫躍表示,算力集群的搭建遠非簡單的加速卡堆疊,它需要復雜的高速網絡和強大的調度軟件作為支撐。他比喻道,算力集群與AI大模型的關系,就如同電與發電機一般,缺一不可。要讓近萬張算力芯片通過高效的通訊網絡和存儲設備,像一臺電腦一樣整體高效運轉,其難度可想而知。而更難的是,這個由1萬張卡組成的集群,還需7×24小時不間斷地提供算力服務。
面對萬卡級GPU集群穩定運行的挑戰,智算科技團隊展現出了非凡的戰斗力。這支平均年齡僅32歲的團隊,曾連續79天駐守機房,為了0.1%的性能提升,他們日夜奮戰,反復打磨代碼。在緊急任務面前,他們打破常規,采用“并行施工+邊測邊調”的方式,搶抓每一秒進度。正是這樣的努力,讓他們成功攻克了萬卡級GPU集群穩定運行的難題。
除了穩定運行,智算科技還在融合異構芯片方面取得了顯著成果。他們的萬卡集群已成功適配多種國產算力卡,實現了多元異構算力的融合與優化調度。孫躍介紹,不同業務、不同行業對芯片的需求各不相同,而各類國產算力芯片在細分領域也各具優勢。通過異構算力的融合,他們成功將國產算力用起來,滿足了不同垂類客戶對算力基礎設施的差異化需求。
目前,智算科技的萬卡集群使用率已接近100%,基本實現了建成即滿負荷運轉。在某新型科研機構項目中,他們僅用一周時間便完成了近千卡集群的建設與交付,隨后又成功部署了萬卡集群算力,為國家重點科研任務的推進提供了有力保障。他們還首創了“動態感知調度方案”,使訓練效率提升了91%,每年為國家節省的算力成本相當于新建3個數據中心。
在“算電協同”成為國家級戰略性新基建工程的背景下,智算科技也在積極探索這一領域。孫躍透露,他們在基礎設施和機房建設過程中,進一步擴大了綠電的使用比例,并通過液冷集群提高了能源使用效率,降低了PUE值。同時,他們還在與上下游合作伙伴進行探索,如結合淞滬地區海上風電資源,實現風電直接驅動的海底數據中心,以降低算力成本。
隨著新一代人工智能的快速發展,算力需求持續激增。孫躍表示,上海儀電將一方面提高算力基礎設施的建設效率和使用效率,另一方面打造開放、靈活、彈性的智算云服務平臺。他們發布的智算平臺YI CLOUD,旨在面向各類不同領域的用戶提供更普惠、更便捷的算力服務。這種服務不僅提供算力,還包括行業所需的語料、模型、智能體等能力的適配,幫助用戶在單一垂直領域更高效地使用算力。
上海儀電還在生態建設上發力。作為一家平臺型的鏈主企業,他們希望發揮生態鏈接的作用,牽引產業鏈上下游軟硬件廠商,包括GPU企業、網絡通訊、模型企業、智能體企業等,共同實現國產算力生態協同的創新方案,以賦能國產大模型以及相關AI+應用。











