2 月 13 日消息,英偉達昨日(2 月 12 日)發布博文,宣布在 AI 推理領域的“token 經濟學”(Tokenomics)方面,其 Blackwell 架構取得里程碑式進展。
英偉達在博文中指出,通過推行“極致軟硬件協同設計”策略,優化硬件在處理復雜 AI 推理負載時的效率,解決了隨著模型參數膨脹帶來的算力成本激增問題。數據顯示相比上一代 Hopper 架構,Blackwell 平臺將單位 Token 生成成本降低至十分之一。
行業落地方面,包括 Baseten、DeepInfra、Fireworks AI 及 Together AI 在內的多家推理服務提供商已開始利用 Blackwell 平臺托管開源模型。
援引博文介紹,英偉達指出,通過結合開源前沿智能模型、Blackwell 的硬件優勢以及各廠商自研的優化推理棧,這些企業成功實現了跨行業的成本縮減。
例如,專注于多智能體(Multi-agent)工作流的 Sentient Labs 反饋,其成本效率相比 Hopper 時代提升了 25% 至 50%;而游戲領域的 Latitude 等公司也借此實現了更低的延遲和更可靠的響應。
Blackwell 的高效能核心在于其旗艦級系統 GB200 NVL72。該系統采用 72 個芯片互聯的配置,并配備了高達 30TB 的高速共享內存。這種設計完美契合了當前主流的“混合專家(MoE)”架構需求,能夠將 Token 批次高效地拆分并分散到各個 GPU 上并行處理。
在 Blackwell 大獲成功的同時,英偉達已將目光投向下一代代號為“Vera Rubin”的平臺。據悉,Rubin 架構計劃通過引入針對預填充(Prefill)階段的 CPX 等專用機制,進一步推高基礎設施的效率天花板。







