全球AI芯片市場(chǎng)正經(jīng)歷一場(chǎng)深刻變革,以GPU為主導(dǎo)的算力格局面臨前所未有的挑戰(zhàn)。OpenAI、Anthropic等科技巨頭紛紛調(diào)整技術(shù)路線,將目光投向更具能效優(yōu)勢(shì)的非GPU架構(gòu)芯片,一場(chǎng)關(guān)于算力未來的爭(zhēng)奪戰(zhàn)已悄然打響。
英偉達(dá)雖在2026財(cái)年交出亮眼成績(jī)單——年收入突破2159億美元,數(shù)據(jù)中心業(yè)務(wù)三年增長(zhǎng)13倍,但市場(chǎng)反應(yīng)卻出乎意料。財(cái)報(bào)發(fā)布后股價(jià)先漲后跌,最終收跌5.46%,市值蒸發(fā)數(shù)千億美元。這一反常現(xiàn)象背后,折射出行業(yè)對(duì)算力發(fā)展路徑的深刻分歧。華爾街分析師指出,單純依靠算力規(guī)模擴(kuò)張的時(shí)代已經(jīng)結(jié)束,能效比與延遲指標(biāo)正成為決定芯片商業(yè)價(jià)值的核心要素。
傳統(tǒng)GPU架構(gòu)的固有缺陷日益凸顯。由于計(jì)算單元與外部顯存間的數(shù)據(jù)搬運(yùn)路徑長(zhǎng)、次數(shù)多,導(dǎo)致能耗居高不下、延遲難以降低。路透社披露,OpenAI多次對(duì)英偉達(dá)芯片的響應(yīng)速度表達(dá)不滿,尤其在代碼生成產(chǎn)品Codex上體驗(yàn)尤為明顯。圖靈獎(jiǎng)得主David Patterson的研究證實(shí),大模型每次token生成過程中,數(shù)據(jù)搬運(yùn)消耗的能量遠(yuǎn)超實(shí)際計(jì)算所需。
在這場(chǎng)變革中,谷歌TPU成為最引人注目的挑戰(zhàn)者。這款原本專供內(nèi)部使用的芯片,自2025年推出第七代產(chǎn)品后開始走向商用市場(chǎng)。TPU v7單芯片峰值算力達(dá)4614 TFLOPS(FP8精度),在同等算力輸出下功耗僅為英偉達(dá)B200的40%-50%。更關(guān)鍵的是,谷歌自研的光電路交換機(jī)技術(shù)使萬卡級(jí)集群實(shí)現(xiàn)近乎線性的加速比,徹底解決了傳統(tǒng)GPU集群規(guī)模擴(kuò)大導(dǎo)致的通信損耗問題。
市場(chǎng)數(shù)據(jù)印證著TPU的崛起勢(shì)頭。摩根大通報(bào)告顯示,谷歌計(jì)劃在2027年部署600至700萬顆TPU,其中大部分將供給Anthropic、OpenAI、meta等外部客戶。高盛預(yù)測(cè),全球AI服務(wù)器中非GPU芯片出貨占比將從2024年的36%升至2027年的45%;IDC則指出,到2028年中國(guó)非GPU服務(wù)器市場(chǎng)規(guī)模占比將接近50%。
實(shí)際部署效果為TPU贏得更多訂單。在TPU上訓(xùn)練的Gemini 3模型在多個(gè)權(quán)威基準(zhǔn)測(cè)試中位居榜首,證明其性能已可與頂級(jí)GPU媲美。成本優(yōu)勢(shì)更是顯著——TPU的能效比帶來2-4倍優(yōu)勢(shì),使大模型推理綜合成本較GPU降低50%以上。這種優(yōu)勢(shì)直接反映在采購(gòu)決策中:Anthropic向谷歌下達(dá)210億美元訂單,meta簽下數(shù)十億美元TPU租賃協(xié)議,蘋果和xAI也成為潛在客戶。
面對(duì)挑戰(zhàn),英偉達(dá)展開激烈反擊。2025年底,公司以200億美元溢價(jià)三倍收購(gòu)AI芯片創(chuàng)企Groq,獲取其核心技術(shù)和團(tuán)隊(duì)。Groq創(chuàng)始人Jonathan Ross作為谷歌TPU核心設(shè)計(jì)者之一,開創(chuàng)了"軟件定義硬件"的數(shù)據(jù)流處理新范式。其TSP架構(gòu)通過功能切片化微架構(gòu)設(shè)計(jì)和靜態(tài)調(diào)度機(jī)制,在保持可編程性的同時(shí)實(shí)現(xiàn)接近ASIC的極致性能,在相同推理任務(wù)中首token延遲比TPU v7降低20%-50%,每token成本降低10%-30%。
技術(shù)創(chuàng)新的浪潮正在重塑整個(gè)行業(yè)生態(tài)。清微智能、Cerebras等企業(yè)從不同維度突破傳統(tǒng)架構(gòu)限制:3D Chiplet技術(shù)構(gòu)建三維立體數(shù)據(jù)流架構(gòu),算力網(wǎng)格技術(shù)實(shí)現(xiàn)靈活數(shù)據(jù)流計(jì)算范式,晶圓級(jí)芯片技術(shù)將數(shù)據(jù)流架構(gòu)優(yōu)勢(shì)發(fā)揮到極致。以Cerebras為例,其CS-3系統(tǒng)推理性能比英偉達(dá)旗艦DGX B200快21倍,成本與功耗均降低三分之一。OpenAI實(shí)測(cè)顯示,基于該系統(tǒng)的Codex-Spark代碼生成速度突破每秒1000 token,首次實(shí)現(xiàn)實(shí)時(shí)交互體驗(yàn)。











