當地時間3月16日,在年度開發者大會NVIDIA GTC 2026上,黃仁勛再次展示了英偉達對于人工智能產業未來的整體構想。
從新一代AI計算架構、推理時代的數據中心商業模式,到圍繞Agent構建的軟件生態和產業聯盟,本屆大會呈現的已經不僅是單一硬件產品的升級,而是一套圍繞算力展開的完整AI基礎設施體系。
在演講中,黃仁勛大膽給出了一個預測:到2027年,圍繞AI芯片與基礎設施的市場規模可能達到1萬億美元。
隨著AI應用從模型訓練逐漸轉向大規模推理與Agent系統,英偉達正在嘗試重新定義整個產業的技術路徑與商業邏輯。
從GPU到AI系統:Vera Rubin架構登場
本屆大會最重要的技術發布,是英偉達下一代AI計算平臺NVIDIA Vera Rubin。與過去推出單一GPU不同,這一次英偉達強調的是系統級架構:從GPU、CPU到網絡互聯與軟件框架全部進行垂直整合。
黃仁勛在舞臺上展示的不是一塊芯片,而是一整套機架級計算系統,其設計目標是把整個數據中心視為一臺超級計算機進行優化。
核心計算組件Rubin GPU采用臺積電3nm工藝和雙芯片封裝設計,擁有3360億晶體管,配備288GB HBM4顯存和22TB/s帶寬,AI推理性能達到約50 PFLOPs。
配套的Vera CPU則采用定制Arm架構,擁有88個核心和176線程,并在數據中心環境中首次采用LPDDR5內存,針對AI Agent場景下的高單線程性能和數據處理需求進行了優化。
英偉達表示,這一CPU如果單獨銷售也有可能成為一個數十億美元規模的業務。
Groq加入:為AI推理設計的新型芯片
隨著生成式AI進入應用階段,推理計算成為新的性能瓶頸。GPU在高吞吐并行計算方面具有優勢,但在極高速度的token生成階段效率會下降。
而Groq的LPU采用完全不同的設計思路:確定性數據流架構以及大量SRAM存儲,通過編譯階段完成調度,從而顯著降低運行時延遲。
這種結構非常適合token生成,但SRAM容量有限,單顆芯片只有約500MB,無法直接容納大型模型。
英偉達提出的解決方案是將推理任務拆分:GPU負責prefill和attention等需要大算力和大內存的部分,而LPU負責decode與token生成。這種架構被稱為disaggregated inference(解耦推理),兩種處理器通過高速網絡協同工作,從而在高吞吐和低延遲之間取得平衡。
Agent時代的軟件生態
除了硬件層面的升級,英偉達在軟件生態方面也提出新的戰略。
隨著AI Agent技術迅速發展,黃仁勛將開源框架OpenClaw定義為一種新的計算平臺,并將其與Windows、Linux和Kubernetes等基礎軟件相提并論。在這一框架之上,英偉達推出NemoClaw,為企業部署Agent系統提供安全與管理能力,包括策略控制接口、網絡訪問邊界以及數據隱私保護機制。
英偉達將這一關系類比為CUDA與GPU生態之間的關系:OpenClaw提供Agent操作系統,而NemoClaw則提供企業級開發平臺和工具鏈。與此同時,英偉達還宣布成立Nemotron Coalition,推動多種AI模型的發展,包括語言模型、機器人模型、自動駕駛模型以及氣候模擬系統等。
數據中心成為“Token工廠”
在技術之外,黃仁勛還提出了一種新的AI產業敘事:未來的數據中心將成為生產Token的工廠。
“數據中心是生產token的工廠;推理是工作負載,token是新商品,算力等于營收;未來每個CEO都要盯著自己token工廠的效能看。”
在他看來,AI的發展正經歷新的拐點。從聊天機器人到具備推理能力的系統,再到能夠執行任務的Agent,每一次能力躍遷都會顯著增加單次推理所需的算力,同時也推動整體使用量快速增長。基于這一趨勢,英偉達提出了新的AI服務分層模型,從免費層到Ultra層,對應不同模型規模、上下文長度和響應速度,同時也對應不同的token價格。
在這一體系下,算力基礎設施直接決定了AI服務的經濟可行性,而更高端的AI服務則需要更強大的計算平臺。
AI進入太空
在GTC大會上,英偉達還公布了一項更加前瞻性的計劃:將AI計算能力擴展到軌道數據中心。
公司發布了NVIDIA Space-1 Vera Rubin模塊,其AI計算能力據稱可達到NVIDIA H100GPU 的約25倍。黃仁勛在聲明中表示:“太空計算,這片最后的疆域,已經到來。隨著我們部署衛星星座并深入探索太空,智能必須存在于數據產生的任何地方。”
目前,包括Axiom Space、Planet Labs和Kepler Communications等企業已經在使用英偉達計算平臺執行空間任務。隨著衛星網絡和軌道數據處理需求增加,太空計算將是未來AI基礎設施中重要的一環。
AI進入更多產業場景
圍繞AI基礎設施,英偉達在多個產業領域也宣布了新的合作。例如IBM將把GPU加速能力整合到其AI數據平臺watsonx.data中,通過GPU原生數據分析提升企業數據處理效率。在測試案例中,數據查詢時間從傳統CPU環境下的約15分鐘縮短至約3分鐘,同時顯著降低成本。
同時,Amazon也宣布與英偉達合作,將NVIDIA DRIVE AGX車載計算平臺與Amazon Alexa Custom Assistant結合,用于打造能夠理解自然語言和環境語境的車載AI助手。
在計算機圖形領域,英偉達還發布了NVIDIA DLSS 5技術,通過神經渲染模型增強游戲畫面質量,使實時渲染更接近電影級視覺效果。黃仁勛稱其為“圖形技術的GPT時刻”。
Feynman架構提前曝光
根據規劃,Blackwell架構之后將是2026年的Vera Rubin,隨后在2027年推出Rubin Ultra,而2028年則會迎來全新的NVIDIA Feynman架構。
Feynman將對整個系統進行全面升級,包括新GPU、LP40 LPU、Rosa CPU以及下一代NVLink互聯。與此同時,新一代Kyber機架結構也將改變計算節點的布局方式,以支持更高密度的GPU部署。這種按年度更新的節奏顯示出英偉達試圖以更快速度推動AI基礎設施迭代。
本屆GTC展示的并不僅是新芯片,而是一套新的AI產業邏輯。











