在近期舉辦的GTC(GPU技術(shù)大會)上,英偉達首席執(zhí)行官黃仁勛宣布,全球人工智能(AI)競爭的焦點正從模型訓(xùn)練轉(zhuǎn)向推理環(huán)節(jié),標(biāo)志著AI產(chǎn)業(yè)進入“推理時代”。他指出,隨著AI從簡單的對話工具升級為能夠自主執(zhí)行復(fù)雜任務(wù)的智能體,持續(xù)生成海量Token(AI處理的最小數(shù)據(jù)單元)已成為行業(yè)核心需求。這場變革中,誰能以最低成本高效生成token,誰就能主導(dǎo)未來市場。
黃仁勛在演講中重申了“AI Token工廠”概念,強調(diào)數(shù)據(jù)中心的角色已從傳統(tǒng)“成本中心”轉(zhuǎn)變?yōu)椤皟r值創(chuàng)造中心”。他比喻道:“過去工廠將水轉(zhuǎn)化為電,如今數(shù)據(jù)中心將數(shù)據(jù)和電力轉(zhuǎn)化為高價值的token。”基于這一邏輯,英偉達推出新一代Vera Rubin計算平臺,宣稱其每瓦特推理性能較前代提升10倍,可將token生成成本降低90%。該平臺通過整合Groq公司的低延遲處理器(LPU),采用GPU與LPU混合架構(gòu),分別處理高吞吐量任務(wù)與最終token生成,實現(xiàn)推理性能最高35倍的提升。
英偉達的野心不止于硬件創(chuàng)新。黃仁勛展示了一套覆蓋芯片、存儲、網(wǎng)絡(luò)到液冷系統(tǒng)的全棧解決方案,并推出數(shù)字孿生平臺NVIDIA DSX,幫助客戶在虛擬環(huán)境中模擬AI工廠運行,優(yōu)化能源效率。他直言:“加速計算是系統(tǒng)級工程,必須垂直整合。”這一戰(zhàn)略旨在將英偉達從芯片供應(yīng)商升級為AI基礎(chǔ)設(shè)施的“架構(gòu)師”與“規(guī)則制定者”。
然而,就在英偉達描繪技術(shù)藍圖時,中國AI廠商已憑借成本優(yōu)勢在全球推理市場占據(jù)主導(dǎo)地位。數(shù)據(jù)顯示,2026年2月以來,隨著智能體應(yīng)用OpenClaw等引發(fā)token消耗量激增,中國大模型憑借僅為國外競品1/6至1/10的token價格,在全球最大AI API平臺OpenRouter上連續(xù)多周超越美國同行。例如,Minimax M2.5模型運行一輪測試成本僅125美元,而Claude Opus 4.6和GPT-5.2-Codex分別高達4970美元和3244美元。
中國廠商的性價比優(yōu)勢源于兩方面:一是技術(shù)架構(gòu)創(chuàng)新。DeepSeek等企業(yè)通過多頭潛在注意力(MLA)、專家混合(MoE)架構(gòu)等技術(shù)壓縮計算資源需求,使模型在受限GPU環(huán)境下仍能保持高性能。二是電力成本優(yōu)勢。據(jù)測算,使用中國數(shù)據(jù)中心電力,單張英偉達B200芯片每年可節(jié)省900美元電費,全球范圍內(nèi)每年潛在節(jié)省空間達百億美元。
市場分析指出,推理環(huán)節(jié)更依賴用戶生態(tài)、電力效率與系統(tǒng)調(diào)度能力,而非單純追求芯片算力。這一趨勢正在縮小中美在AI基礎(chǔ)設(shè)施領(lǐng)域的差距。隨著全球token生成市場規(guī)模預(yù)計在2027年突破萬億美元,這場關(guān)于成本與效率的競爭將愈發(fā)激烈。











