離春節(jié)不到一周,過去兩年的經(jīng)驗(yàn)告訴我們,國(guó)產(chǎn)AI新產(chǎn)品的爆發(fā)期又要來了。
Kimi K2.5在OpenRouter上一騎絕塵,Minimax也在官網(wǎng)上隱隱約約透露出M2.2的版本代號(hào)。
大家等得很焦急,智譜和DeepSeek年前是不是也得來點(diǎn)大動(dòng)作?
這不,短短48小時(shí)內(nèi),三個(gè)獨(dú)立的技術(shù)平臺(tái)接連出現(xiàn)了與智譜新模型GLM-5相關(guān)的線索,形成了一條完整的信息鏈。
01 線索浮現(xiàn):三平臺(tái)齊曝 GLM-5 蹤跡
2月7日,OpenRouter平臺(tái)悄悄上線了一款代號(hào)為“pony-alpha”的模型。
根據(jù)實(shí)際測(cè)試的結(jié)果,它的思維鏈風(fēng)格與智譜的GLM系列高度吻合,比如:
遇到常規(guī)回答,它會(huì)以“嗯,......”為開頭進(jìn)行思考;
遇到知識(shí)檢索任務(wù),就分點(diǎn)列出“1.分析請(qǐng)求:...”;
遇到代碼任務(wù),則會(huì)明確標(biāo)注“用戶要求......”。
而技術(shù)社區(qū)在把這個(gè)模型投入實(shí)際開發(fā)后,發(fā)現(xiàn)它在貪吃蛇、Minecraft等復(fù)雜的代碼生成任務(wù)中表現(xiàn)相當(dāng)穩(wěn)健,但缺乏圖像等多模態(tài)輸入支持。
接下來的2月9日,vLLM推理框架倉庫出現(xiàn)了編號(hào)為34124的pull request,在代碼中首次明確出現(xiàn)了“GLM-5”標(biāo)識(shí)。
更重要的是,代碼表明其實(shí)現(xiàn)邏輯直接復(fù)用了DeepSeek-V3系列模型采用的DSA(DeepSeek Sparse Attention,稀疏注意力)機(jī)制,并集成了MTP(Multi-Token Prediction,多標(biāo)記預(yù)測(cè))技術(shù)。
幾乎同時(shí), Hugging Face transformers倉庫合并了編號(hào)為43858的pull request,正式引入了智譜的GlmMoeDsa架構(gòu)。
代碼顯示,GLM-5采用了78層Transformer解碼器,前三層為稠密(Dense)結(jié)構(gòu),第四層及以后采用混合專家(MoE)架構(gòu),共配置256個(gè)專家網(wǎng)絡(luò),處理單個(gè)token激活其中8個(gè),并輔以1個(gè)共享專家以保證基礎(chǔ)能力穩(wěn)定。
GLM-5的上下文窗口進(jìn)一步擴(kuò)展到了202K,詞表規(guī)模為154880,相比前代GLM-4.7提升有限。
02 架構(gòu)解析:效率與規(guī)模的平衡
在過去兩年里,規(guī)模化法則(Scaling Law)的正確性已經(jīng)得到充分驗(yàn)證。
前段時(shí)間廣受好評(píng)的Kimi-K2.5也憑借國(guó)產(chǎn)模型中少見的1T參數(shù)量證明了“大就是好”。
不過,智譜創(chuàng)始人唐杰卻在2026年的AGI Next峰會(huì)上提出了一個(gè)不同的看法:
單純的模型擴(kuò)展雖然是提升智能的有效路徑,但本質(zhì)上是“人類最輕松的偷懶方式”。
回過頭來看即將誕生的GLM-5,若是按照社區(qū)揭曉的現(xiàn)有信息來看,其技術(shù)路線已經(jīng)呈現(xiàn)出明顯的“效率優(yōu)先”導(dǎo)向,而非繼續(xù)堆砌參數(shù)。
首先是混合專家(MoE)架構(gòu),這個(gè)詞在如今的AI時(shí)代應(yīng)該已經(jīng)不再陌生,它將模型參數(shù)分散至多個(gè)專業(yè)化的子網(wǎng)絡(luò),也就是我們所說的“專家”,推理時(shí)可以只調(diào)用與任務(wù)最相關(guān)的少數(shù)專家。
GLM-5采用“256專家+8激活”的配置,在維持更大規(guī)模參數(shù)總量的同時(shí),單次推理只需調(diào)用約3%的參數(shù),對(duì)計(jì)算成本和響應(yīng)延遲都實(shí)現(xiàn)了有效控制。
前3層保留稠密結(jié)構(gòu)則是為了確保模型具備基礎(chǔ)語言理解能力的穩(wěn)定性,以避免稀疏化帶來的表征斷裂風(fēng)險(xiǎn)。
然后是智譜選擇了已被DeepSeek驗(yàn)證的稀疏注意力機(jī)制(DSA),而非自行研發(fā)同類機(jī)制。
前面已經(jīng)提過,GLM-5對(duì)DSA的集成屬于架構(gòu)復(fù)用,代碼中明確顯示GLM-5中的“GlmMoeDsaForCausalLM”類直接繼承自“DeepseekV2ForCausalLM”。
論文地址: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf
DSA機(jī)制是DeepSeek在五個(gè)月前開源的算法。
傳統(tǒng)大模型在處理長(zhǎng)文本時(shí),自注意力機(jī)制決定了每個(gè)詞都要與前面的所有詞計(jì)算一次注意力關(guān)系,計(jì)算量隨文本長(zhǎng)度呈平方級(jí)增長(zhǎng),這就導(dǎo)致長(zhǎng)文本的推理成本居高不下。
DSA提出了用精準(zhǔn)篩選來代替全文掃描的新思路:對(duì)于每個(gè)詞,篩選出與之最相關(guān)的一部分詞并進(jìn)行深度計(jì)算。
模型需要為每一個(gè)當(dāng)前詞配備一個(gè)輕量級(jí)的索引器,用極簡(jiǎn)的計(jì)算方式來快速評(píng)估當(dāng)前詞與歷史詞之間的相關(guān)性,并輸出一個(gè)相關(guān)性分?jǐn)?shù)。
由于使用ReLU代替Softmax作為激活函數(shù)能夠避免指數(shù)運(yùn)算開銷,這個(gè)流程只需要消耗自注意力機(jī)制約5%的計(jì)算資源。
在得到相關(guān)性分?jǐn)?shù)后,模型就可以僅選取最相關(guān)的k個(gè)歷史詞進(jìn)行自注意力計(jì)算。論文中以128K上下文場(chǎng)景為例,取k=2048,計(jì)算量可以足足減少98%。
為了確保篩選詞匯的質(zhì)量,DeepSeek當(dāng)時(shí)就采用了分兩階段的訓(xùn)練策略:先讓索引器在稠密注意力模式下學(xué)習(xí)“哪些詞更值得被關(guān)注”,等到輸出分布與自注意力對(duì)齊后再切換到稀疏注意力模式。
實(shí)際測(cè)試下來,在H800 GPU上處理長(zhǎng)文本時(shí)使用DSA能夠降低約40%至50%的推理成本,而核心任務(wù)上的性能損失還不到1%。
因此,DSA機(jī)制不是簡(jiǎn)單的跳過信息,而是用低成本的路由實(shí)現(xiàn)了計(jì)算資源的精準(zhǔn)“按需分配”,使模型兼顧長(zhǎng)上下文場(chǎng)景下的能力和效率。
最后則是多標(biāo)記預(yù)測(cè)(MTP)技術(shù),又是DeepSeek的經(jīng)典代表技術(shù)之一。
這項(xiàng)推理加速機(jī)制從根本上改變了大模型token生成的模式。標(biāo)準(zhǔn)Transformer架構(gòu)采用嚴(yán)格的自回歸方式:模型每次前向計(jì)算只會(huì)預(yù)測(cè)下一個(gè)詞,長(zhǎng)文本場(chǎng)景下所需的計(jì)算次數(shù)可想而知。
MTP則允許模型在前向計(jì)算中一次預(yù)測(cè)多個(gè)連續(xù)的詞,以此減少迭代次數(shù)并提升計(jì)算效率。
單純把預(yù)測(cè)目標(biāo)從一個(gè)詞變成多個(gè)詞肯定會(huì)提高出錯(cuò)的概率,因此MTP的實(shí)現(xiàn)依賴于訓(xùn)練階段的特殊設(shè)計(jì):模型同時(shí)預(yù)測(cè)當(dāng)前詞和后續(xù)多個(gè)詞的聯(lián)合分布,損失函數(shù)也被調(diào)整為覆蓋多個(gè)未來位置的預(yù)測(cè)目標(biāo),讓模型學(xué)會(huì)局部詞序列的生成規(guī)律。
聽起來有些抽象,用一個(gè)簡(jiǎn)單的例子來說明:
在Python編程時(shí),模型識(shí)別到用戶輸入了函數(shù)定義關(guān)鍵字“def”,傳統(tǒng)方式需要逐個(gè)字符預(yù)測(cè)后續(xù)的內(nèi)容。
若是使用MTP,模型可能直接輸出“ calculate_sum(a, b)”這個(gè)完整代碼語句。
原因很簡(jiǎn)單:代碼具有強(qiáng)語法規(guī)律性,函數(shù)名后必然跟隨括號(hào)和參數(shù)。模型在訓(xùn)練中早已學(xué)會(huì)這種語法結(jié)構(gòu),所以才能安全地一次預(yù)測(cè)多個(gè)token。
實(shí)際測(cè)試結(jié)果顯示,在代碼、JSON、SQL等結(jié)構(gòu)化文本生成任務(wù)中,MTP能夠?qū)oken生成速度提升2-3倍。
03 產(chǎn)業(yè)洞察:技術(shù)復(fù)用的趨勢(shì)不可阻擋
基于社區(qū)測(cè)試和技術(shù)架構(gòu)推演的結(jié)果,我們大致可以確認(rèn):
GLM-5在代碼生成和邏輯推理兩個(gè)場(chǎng)景具有優(yōu)勢(shì)和競(jìng)爭(zhēng)力。
pony-alpha在Minecraft這個(gè)復(fù)雜項(xiàng)目中展現(xiàn)出的代碼能力,再加上對(duì)DSA等DeepSeek經(jīng)典技術(shù)的復(fù)用實(shí)現(xiàn)了對(duì)長(zhǎng)序列的高效處理,GLM-5有望在軟件開發(fā)輔助、算法設(shè)計(jì)等垂直領(lǐng)域形成差異化價(jià)值。
但短板也不容忽視。社區(qū)測(cè)試已經(jīng)明確指出GLM-5暫無多模態(tài)能力,無法處理圖像、音頻等非文本輸入。
在當(dāng)前國(guó)內(nèi)主流大模型普遍向視覺語言聯(lián)合理解演進(jìn)的背景下,這一缺失必然會(huì)限制GLM-5在AIGC創(chuàng)作場(chǎng)景中的適用性,并在春節(jié)期間進(jìn)一步被放大。
更有趣的是,現(xiàn)有的幾條消息表面上是關(guān)注GLM-5帶來的新突破,實(shí)則句句離不開DeepSeek的經(jīng)典技術(shù)。
希望幾天之后智譜能給我們帶來新的驚喜。
智譜AI選擇直接集成開源技術(shù)體現(xiàn)對(duì)研發(fā)效率重視的同時(shí),也反映出國(guó)產(chǎn)大模型研發(fā)路徑的轉(zhuǎn)變:“開源+優(yōu)化”比“閉源+自研”更務(wù)實(shí)。
AI行業(yè)即將告別參數(shù)規(guī)模的軍備競(jìng)賽,專注于推理效率上的精細(xì)化運(yùn)營(yíng)。在控制計(jì)算成本的前提下,如何提升垂直表現(xiàn)將成為下一階段競(jìng)爭(zhēng)的關(guān)鍵維度。











