在近期舉辦的GTC大會上,英偉達宣布推出三款全新系統架構,涵蓋推理加速、CPU密度優化及存儲編排領域,標志著其從GPU算力供應商向全棧AI基礎設施平臺的戰略轉型邁出關鍵一步。此次發布的Groq LPX推理機架、Vera ETL256 CPU集群與STX存儲參考架構,通過整合第三方技術專利與自研芯片,構建起覆蓋AI計算全鏈條的硬件生態。
Groq LPX系統的推出尤為引人注目。該系統基于英偉達對Groq團隊的知識產權收購,將第三代LPU架構的LP30芯片與自家GPU深度融合。LP30采用三星SF4制程工藝,集成500MB片上SRAM,在FP8精度下可提供1.2 PFLOPS算力。其設計突破在于通過"注意力與前饋網絡解耦"技術,將大模型推理中的動態計算部分交由GPU處理,而靜態計算任務則由LPU承擔。這種分工使系統在保持低延遲特性的同時,HBM容量利用率提升30%,單次解碼步驟的輸出token數增加至1.5-2倍。
在硬件架構層面,LPX機架采用模塊化設計,32個1U計算托盤通過銅纜背板實現全互聯,單節點內16塊LP30芯片構成Mesh拓撲網絡。每個托盤配備的Altera FPGA承擔協議轉換與內存擴展功能,提供最高256GB DDR5緩存空間。這種設計使機架整體規模擴展帶寬達到640TB/s,較傳統架構提升4倍以上。值得關注的是,LP30芯片采用單芯片設計,無需依賴先進封裝技術,從而規避了臺積電3nm產能的限制。
針對AI訓練中日益突出的CPU瓶頸問題,Vera ETL256系統通過極端密度設計實現突破。該機架在42U空間內集成256顆Vera CPU,采用液冷技術與對稱式銅纜布線方案,將機架內網絡延遲控制在100納秒以內。每個計算托盤搭載8顆CPU,通過Spectrum-X交換機實現200Gb/s全互聯。這種設計使單個機架即可支持大規模強化學習訓練所需的仿真環境運行,較傳統分布式方案減少70%的CPU資源浪費。
存儲領域的創新體現在STX參考架構的推出。該架構與英偉達此前發布的CMX上下文存儲平臺形成互補,詳細規定了磁盤驅動器、Vera CPU、BlueField-4 DPU及Spectrum-X交換機的配置比例。每個STX機架包含16個計算單元,共配備32顆Vera CPU與64塊CX-9網卡,通過SOCAMM模塊實現存儲與計算的解耦。包括DDN、戴爾、HPE在內的七家主流存儲廠商已承諾支持該標準,這為英偉達滲透存儲基礎設施市場奠定基礎。
行業分析指出,這三款系統的協同效應將重塑AI硬件供應鏈格局。LPX系統通過差異化技術路徑開辟了推理優化新賽道;Vera ETL256解決了GPU集群擴張中的CPU配比難題;STX架構則使英偉達得以將控制力延伸至存儲層。特別值得注意的是,LP30芯片采用非HBM內存方案,為英偉達在存儲資源緊張的市場環境下創造了獨特的競爭優勢。隨著這些系統逐步投入商用,AI基礎設施市場的集中度預計將進一步提升。











