岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

谷歌TPU與英偉達(dá)GPU的“算力對(duì)決”:前工程師深度剖析未來格局

   時(shí)間:2026-03-25 07:29:14 來源:快訊編輯:快訊 IP:北京 發(fā)表評(píng)論無障礙通道
 

在人工智能算力競爭愈發(fā)激烈的當(dāng)下,英偉達(dá)憑借GPU在市場中占據(jù)主導(dǎo)地位,然而如今其地位正受到挑戰(zhàn)。近期,蘋果披露其Apple Intelligence全部由TPU訓(xùn)練;Anthropic簽下數(shù)十億美元訂單采購TPU訓(xùn)練Claude;meta也與谷歌簽署數(shù)十億美元協(xié)議租用TPU運(yùn)行Llama。這一系列動(dòng)態(tài)表明,谷歌的TPU正逐漸在市場中嶄露頭角。

TPU作為谷歌的“秘密武器”,在過去十年驅(qū)動(dòng)著谷歌幾乎所有核心產(chǎn)品。直到TPU訓(xùn)練的Gemini 3取得出色成果,人們才開始重新審視這款從搜索推薦系統(tǒng)中誕生的定制芯片。前谷歌TPU工程師Henry深度參與了三代TPU的研發(fā),見證了大模型時(shí)代TPU的關(guān)鍵轉(zhuǎn)型。他從硬件架構(gòu)、軟件生態(tài)、生產(chǎn)供應(yīng)鏈博弈三個(gè)維度,揭開了TPU的神秘面紗。

TPU與GPU在設(shè)計(jì)哲學(xué)上截然不同。Henry用“流水線”與“大廚們”來比喻兩者架構(gòu)差異:GPU起源于圖形處理,采用SIMT架構(gòu),如同廚房里眾多獨(dú)立思考的大廚并行處理多種任務(wù);而TPU是專為機(jī)器學(xué)習(xí)矩陣計(jì)算定制的加速器,通過芯片間互聯(lián)構(gòu)建3D Torus網(wǎng)絡(luò),讓數(shù)千張芯片協(xié)同工作,如同一張芯片,減少了調(diào)度和調(diào)控,提高了計(jì)算單元使用率。

在大規(guī)模部署場景中,TPU展現(xiàn)出獨(dú)特優(yōu)勢(shì)。Henry表示,在軟硬件深度協(xié)同下,TPU能對(duì)整顆TPU Pod進(jìn)行全局算子融合與內(nèi)存管理優(yōu)化,將硬件性能“榨干”到極致,實(shí)現(xiàn)比GPU更低的推理成本。例如,谷歌的Ironwood芯片在物理參數(shù)上接近英偉達(dá)的GB200,在訓(xùn)練Gemini模型時(shí),若谷歌為其他大模型公司定制,性價(jià)比(TCO)可能更高。因?yàn)門PU可根據(jù)已知任務(wù)負(fù)載進(jìn)行物理芯片和軟件層面的定制,保證每個(gè)計(jì)算單元都有任務(wù),提高利用率。

然而,TPU也存在明顯短板。在軟件生態(tài)方面,盡管TPU已向外部客戶開放,但其編譯工具XLA仍是一個(gè)“黑盒”,外部團(tuán)隊(duì)難以獨(dú)立完成調(diào)優(yōu)。開發(fā)者使用TPU時(shí),上層可選用PyTorch、JAX和TensorFlow等語言,XLA將其轉(zhuǎn)化為TPU指令,但外部開發(fā)者很難獨(dú)立處理或修補(bǔ)bug,需依賴谷歌工程師或其專門對(duì)接外部客戶的軟件組。

產(chǎn)能方面,TPU面臨諸多挑戰(zhàn)。HBM(高帶寬內(nèi)存)生產(chǎn)被SK hynix、三星和Micron三家公司壟斷,英偉達(dá)是HBM最大客戶,TPU作為次要客戶,此前難以獲得優(yōu)質(zhì)訂單。同時(shí),CoWoS是臺(tái)積電的核心產(chǎn)能,TPU的HBM內(nèi)存芯片和計(jì)算芯片需通過2.5D stacking封裝成集成芯片,此過程谷歌和博通都無法完成,只能依賴臺(tái)積電。良率也是問題,TPU主打芯片間通信,失敗率高于GPU,且作為定制芯片,良率不佳則芯片報(bào)廢,而GPU可降級(jí)使用。

在定制芯片領(lǐng)域,TPU需提前預(yù)測模型走向。以MoE(混合專家模型)為例,此前在TPU和GPU上運(yùn)行效果不佳,直到TPU V4推出3D torus架構(gòu)和OCS(光交換機(jī)),通過軟件更改通信路徑,解決了MoE的痛點(diǎn)。但芯片設(shè)計(jì)流程漫長,從設(shè)計(jì)到量產(chǎn)最快需兩年到兩年半、三年,而模型每6個(gè)月就變化一次,TPU需在兩年前預(yù)測模型方向。雖然目前V7押對(duì)了方向,但未來若模型范式變化,TPU的先發(fā)優(yōu)勢(shì)可能被蠶食。

供應(yīng)鏈方面,博通在TPU生產(chǎn)中扮演關(guān)鍵角色。博通負(fù)責(zé)TPU的通信ICI設(shè)計(jì),將芯片物理連接并布局拓?fù)渚W(wǎng)絡(luò)。谷歌與博通的合作可爭取到更好的CoWoS和HBM產(chǎn)能,但博通議價(jià)權(quán)逐漸增大,對(duì)谷歌成本控制不利。同時(shí),HBM產(chǎn)能被英偉達(dá)壟斷,未來幾年HBM可能決定芯片訓(xùn)練效率上限。

回顧TPU的發(fā)展歷程,其最初是針對(duì)內(nèi)部CNN大模型的加速器,第一代僅為推理芯片。Jeff Dean和圖靈獎(jiǎng)獲得者David Patterson深度參與了第一代架構(gòu)設(shè)計(jì)。第二代成為旗艦訓(xùn)練模型,用于AlphaGo、PaLM等訓(xùn)練。此后,針對(duì)推薦和排序算法加入Sparse Core,V5、V6進(jìn)入大模型時(shí)代,針對(duì)Transformer進(jìn)行優(yōu)化并推出推理版本。

英偉達(dá)收購的Groq公司也值得關(guān)注。Groq踩準(zhǔn)了推理、ASIC和Agent元年三個(gè)時(shí)間點(diǎn),其芯片主做推理,針對(duì)低延遲場景,是編譯器的公司而非芯片公司。創(chuàng)始人Jonathan Ross曾是TPU編譯器團(tuán)隊(duì)成員,將TPU編譯器經(jīng)驗(yàn)帶到Groq。Groq的LPU通過編譯器精準(zhǔn)確定每個(gè)計(jì)算單元任務(wù),確定性高,適合Agent、實(shí)時(shí)語音和高頻交易等對(duì)延遲要求高的場景。

隨著人工智能發(fā)展,推理芯片市場將分層并分應(yīng)用場景。谷歌和TPU將占據(jù)大規(guī)模部署的高層市場,中間和下層市場將有更多參與者。未來,TPU和GPU將并存,形成定制與通用、垂類場景相結(jié)合的健康生態(tài),為用戶帶來成本降低后的無限可能。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 精品中文视频 | 中文字幕69| 欧洲美女与动交zozzo | 国产天堂网 | 91成人精品一区在线播放 | 超碰网址 | 国产精品视频网 | 中文天堂在线视频 | 成人h片在线观看 | 国产精品91在线 | 免费av观看网站 | 亚洲精品欧美精品 | 国产福利不卡 | 四虎影院www | 无套暴操| 久久99国产综合精品免费 | 九九少妇| 成人夜间视频 | 久久草视频在线 | 欧美视频亚洲视频 | 人人草在线 | 免费黄色国产 | 久久bb| 第一页国产 | 美女三级黄色片 | 美女黄色av| 国产黄色av| 偷拍欧美亚洲 | 女人高潮特级毛片 | 一区二区三区在线免费观看 | 欧美日韩毛片 | 国产精品久久久久久久成人午夜 | 国产视频在线观看一区二区 | 亚洲欧洲中文字幕 | 精品免费在线视频 | 亚洲视频一二三区 | 天天操网| 亚洲伊人影院 | 久久精品国产亚洲7777 | 中文字幕日本一区 | 日韩高清不卡 |