英偉達近日宣布,其最新推出的Blackwell Ultra AI架構(GB300 NVL72)在能效與成本優(yōu)化方面取得重大進展。通過DeepSeek-R1模型測試驗證,該架構每兆瓦吞吐量較前代Hopper GPU提升50倍,單百萬token處理成本降至前者的1/35。這一突破性進展源于技術架構的全面升級,其中NVLink技術將72個GPU整合為統一計算單元,實現130TB/s的互聯帶寬,相較Hopper時代的8芯片設計實現質的飛躍。
在硬件協同設計層面,全新NVFP4精度格式與系統架構的深度優(yōu)化形成合力。測試數據顯示,即便與上一代Blackwell架構(GB200)相比,GB300在處理長上下文任務時,token成本降低至1/1.5,注意力機制處理速度實現翻倍。這種性能提升使系統在代碼庫維護等高負載場景中表現出色,特別適用于需要跨代碼庫推理的復雜工作流。
成本優(yōu)化成果在AI推理領域引發(fā)連鎖反應。OpenRouter最新發(fā)布的《推理狀態(tài)報告》顯示,軟件編程相關AI查詢量在過去12個月內從11%激增至近50%。這類應用要求AI代理在多步驟工作流中保持實時響應能力,對長上下文處理提出嚴苛要求。英偉達通過TensorRT-LLM庫的持續(xù)改進,使GB200在低延遲工作負載中的性能四個月內提升5倍,有效應對了市場需求的轉變。
技術迭代呈現加速態(tài)勢,英偉達同步預告的Rubin平臺將能效比推向新高度。該平臺預計每兆瓦吞吐量較Blackwell架構再提升10倍,通過架構創(chuàng)新持續(xù)降低AI基礎設施運營成本。這種演進路徑與行業(yè)需求形成共振,當前混合專家模型(MoE)的推理吞吐量優(yōu)化已成為技術競爭焦點,Dynamo團隊等研發(fā)力量的持續(xù)投入正在重塑AI算力格局。
市場分析指出,能效比與成本控制的雙重突破正在重構AI產業(yè)生態(tài)。當單百萬token處理成本下降至分位級別,大規(guī)模AI應用部署的門檻顯著降低。這種變化不僅影響云計算服務商的采購決策,更將推動生成式AI在工業(yè)設計、藥物研發(fā)等領域的深度滲透,形成技術進步與商業(yè)落地的良性循環(huán)。









