英偉達近日宣布,其最新推出的Blackwell Ultra AI架構(GB300 NVL72)在能效與成本優化方面取得重大進展。基于DeepSeek-R1模型的測試數據顯示,該架構每兆瓦吞吐量較前代Hopper GPU提升50倍,百萬tokens處理成本降至原來的1/35。這一突破主要得益于技術架構的全面升級,其中NVLink技術將72個GPU整合為統一計算單元,互聯帶寬達130TB/s,較Hopper時代的8芯片設計實現質的飛躍。
在AI推理成本優化領域,Blackwell Ultra展現出顯著優勢。與Hopper架構相比,新平臺將每百萬token成本壓縮至原有水平的1/35;即便與上一代Blackwell(GB200)相比,GB300在長上下文任務中的token成本也降低至1/1.5,同時注意力機制處理速度翻倍。這種性能提升使其特別適用于代碼庫維護等高負載場景,有效降低了企業級AI應用的運營門檻。
技術細節方面,全新NVFP4精度格式與協同設計結構的結合,成為鞏固吞吐性能優勢的關鍵。通過硬件與軟件的深度優化,英偉達團隊成功突破傳統架構的性能瓶頸。例如,TensorRT-LLM庫的迭代升級使GB200在低延遲工作負載中的性能四個月內提升5倍,Dynamo團隊的優化工作則進一步釋放了混合專家模型(MoE)的推理潛力。
市場趨勢顯示,AI推理需求正呈現結構性變化。OpenRouter最新報告指出,與軟件編程相關的AI查詢量在過去一年間從11%激增至約50%。這類應用要求AI代理具備跨代碼庫推理的長上下文處理能力,并在多步工作流中保持實時響應。英偉達的技術升級恰好契合這一市場需求,通過提升推理吞吐量和降低延遲,為開發者提供了更高效的工具鏈支持。
下一代技術布局已初現端倪。英偉達預告的Rubin平臺預計將每兆瓦吞吐量較Blackwell再提升10倍,持續推動AI基礎設施的能效革命。這種代際躍遷不僅體現在硬件性能上,更通過軟件生態的協同優化形成完整解決方案。隨著AI應用場景的不斷拓展,能效比與成本控制的雙重突破將成為決定技術普及速度的核心因素。












