岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

<pre id="8ey7c"></pre>

<td id="8ey7c"></td>

<address id="8ey7c"></address>

ITBear旗下自媒體矩陣：

滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

GLM-5架構(gòu)細(xì)節(jié)浮出水面：DeepSeek仍是繞不開的門檻

時(shí)間：2026-02-11 19:54:54 來源：硅基星芒編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

離春節(jié)不到一周，過去兩年的經(jīng)驗(yàn)告訴我們，國(guó)產(chǎn)AI新產(chǎn)品的爆發(fā)期又要來了。

Kimi K2.5在OpenRouter上一騎絕塵，Minimax也在官網(wǎng)上隱隱約約透露出M2.2的版本代號(hào)。

大家等得很焦急，智譜和DeepSeek年前是不是也得來點(diǎn)大動(dòng)作？

這不，短短48小時(shí)內(nèi)，三個(gè)獨(dú)立的技術(shù)平臺(tái)接連出現(xiàn)了與智譜新模型GLM-5相關(guān)的線索，形成了一條完整的信息鏈。

01 線索浮現(xiàn)：三平臺(tái)齊曝 GLM-5 蹤跡

2月7日，OpenRouter平臺(tái)悄悄上線了一款代號(hào)為“pony-alpha”的模型。

根據(jù)實(shí)際測(cè)試的結(jié)果，它的思維鏈風(fēng)格與智譜的GLM系列高度吻合，比如：

遇到常規(guī)回答，它會(huì)以“嗯，......”為開頭進(jìn)行思考；

遇到知識(shí)檢索任務(wù)，就分點(diǎn)列出“1.分析請(qǐng)求：...”；

遇到代碼任務(wù)，則會(huì)明確標(biāo)注“用戶要求......”。

而技術(shù)社區(qū)在把這個(gè)模型投入實(shí)際開發(fā)后，發(fā)現(xiàn)它在貪吃蛇、Minecraft等復(fù)雜的代碼生成任務(wù)中表現(xiàn)相當(dāng)穩(wěn)健，但缺乏圖像等多模態(tài)輸入支持。

接下來的2月9日，vLLM推理框架倉庫出現(xiàn)了編號(hào)為34124的pull request，在代碼中首次明確出現(xiàn)了“GLM-5”標(biāo)識(shí)。

更重要的是，代碼表明其實(shí)現(xiàn)邏輯直接復(fù)用了DeepSeek-V3系列模型采用的DSA（DeepSeek Sparse Attention，稀疏注意力）機(jī)制，并集成了MTP（Multi-Token Prediction，多標(biāo)記預(yù)測(cè)）技術(shù)。

幾乎同時(shí)， Hugging Face transformers倉庫合并了編號(hào)為43858的pull request，正式引入了智譜的GlmMoeDsa架構(gòu)。

代碼顯示，GLM-5采用了78層Transformer解碼器，前三層為稠密（Dense）結(jié)構(gòu)，第四層及以后采用混合專家（MoE）架構(gòu)，共配置256個(gè)專家網(wǎng)絡(luò)，處理單個(gè)token激活其中8個(gè)，并輔以1個(gè)共享專家以保證基礎(chǔ)能力穩(wěn)定。

GLM-5的上下文窗口進(jìn)一步擴(kuò)展到了202K，詞表規(guī)模為154880，相比前代GLM-4.7提升有限。

02 架構(gòu)解析：效率與規(guī)模的平衡

在過去兩年里，規(guī)模化法則（Scaling Law）的正確性已經(jīng)得到充分驗(yàn)證。

前段時(shí)間廣受好評(píng)的Kimi-K2.5也憑借國(guó)產(chǎn)模型中少見的1T參數(shù)量證明了“大就是好”。

不過，智譜創(chuàng)始人唐杰卻在2026年的AGI Next峰會(huì)上提出了一個(gè)不同的看法：

單純的模型擴(kuò)展雖然是提升智能的有效路徑，但本質(zhì)上是“人類最輕松的偷懶方式”。

回過頭來看即將誕生的GLM-5，若是按照社區(qū)揭曉的現(xiàn)有信息來看，其技術(shù)路線已經(jīng)呈現(xiàn)出明顯的“效率優(yōu)先”導(dǎo)向，而非繼續(xù)堆砌參數(shù)。

首先是混合專家（MoE）架構(gòu)，這個(gè)詞在如今的AI時(shí)代應(yīng)該已經(jīng)不再陌生，它將模型參數(shù)分散至多個(gè)專業(yè)化的子網(wǎng)絡(luò)，也就是我們所說的“專家”，推理時(shí)可以只調(diào)用與任務(wù)最相關(guān)的少數(shù)專家。

GLM-5采用“256專家+8激活”的配置，在維持更大規(guī)模參數(shù)總量的同時(shí)，單次推理只需調(diào)用約3%的參數(shù)，對(duì)計(jì)算成本和響應(yīng)延遲都實(shí)現(xiàn)了有效控制。

前3層保留稠密結(jié)構(gòu)則是為了確保模型具備基礎(chǔ)語言理解能力的穩(wěn)定性，以避免稀疏化帶來的表征斷裂風(fēng)險(xiǎn)。

然后是智譜選擇了已被DeepSeek驗(yàn)證的稀疏注意力機(jī)制（DSA），而非自行研發(fā)同類機(jī)制。

前面已經(jīng)提過，GLM-5對(duì)DSA的集成屬于架構(gòu)復(fù)用，代碼中明確顯示GLM-5中的“GlmMoeDsaForCausalLM”類直接繼承自“DeepseekV2ForCausalLM”。

論文地址： https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DSA機(jī)制是DeepSeek在五個(gè)月前開源的算法。

傳統(tǒng)大模型在處理長(zhǎng)文本時(shí)，自注意力機(jī)制決定了每個(gè)詞都要與前面的所有詞計(jì)算一次注意力關(guān)系，計(jì)算量隨文本長(zhǎng)度呈平方級(jí)增長(zhǎng)，這就導(dǎo)致長(zhǎng)文本的推理成本居高不下。

DSA提出了用精準(zhǔn)篩選來代替全文掃描的新思路：對(duì)于每個(gè)詞，篩選出與之最相關(guān)的一部分詞并進(jìn)行深度計(jì)算。

模型需要為每一個(gè)當(dāng)前詞配備一個(gè)輕量級(jí)的索引器，用極簡(jiǎn)的計(jì)算方式來快速評(píng)估當(dāng)前詞與歷史詞之間的相關(guān)性，并輸出一個(gè)相關(guān)性分?jǐn)?shù)。

由于使用ReLU代替Softmax作為激活函數(shù)能夠避免指數(shù)運(yùn)算開銷，這個(gè)流程只需要消耗自注意力機(jī)制約5%的計(jì)算資源。

在得到相關(guān)性分?jǐn)?shù)后，模型就可以僅選取最相關(guān)的k個(gè)歷史詞進(jìn)行自注意力計(jì)算。論文中以128K上下文場(chǎng)景為例，取k=2048，計(jì)算量可以足足減少98%。

為了確保篩選詞匯的質(zhì)量，DeepSeek當(dāng)時(shí)就采用了分兩階段的訓(xùn)練策略：先讓索引器在稠密注意力模式下學(xué)習(xí)“哪些詞更值得被關(guān)注”，等到輸出分布與自注意力對(duì)齊后再切換到稀疏注意力模式。

實(shí)際測(cè)試下來，在H800 GPU上處理長(zhǎng)文本時(shí)使用DSA能夠降低約40%至50%的推理成本，而核心任務(wù)上的性能損失還不到1%。

因此，DSA機(jī)制不是簡(jiǎn)單的跳過信息，而是用低成本的路由實(shí)現(xiàn)了計(jì)算資源的精準(zhǔn)“按需分配”，使模型兼顧長(zhǎng)上下文場(chǎng)景下的能力和效率。

最后則是多標(biāo)記預(yù)測(cè)（MTP）技術(shù)，又是DeepSeek的經(jīng)典代表技術(shù)之一。

這項(xiàng)推理加速機(jī)制從根本上改變了大模型token生成的模式。標(biāo)準(zhǔn)Transformer架構(gòu)采用嚴(yán)格的自回歸方式：模型每次前向計(jì)算只會(huì)預(yù)測(cè)下一個(gè)詞，長(zhǎng)文本場(chǎng)景下所需的計(jì)算次數(shù)可想而知。

MTP則允許模型在前向計(jì)算中一次預(yù)測(cè)多個(gè)連續(xù)的詞，以此減少迭代次數(shù)并提升計(jì)算效率。

單純把預(yù)測(cè)目標(biāo)從一個(gè)詞變成多個(gè)詞肯定會(huì)提高出錯(cuò)的概率，因此MTP的實(shí)現(xiàn)依賴于訓(xùn)練階段的特殊設(shè)計(jì)：模型同時(shí)預(yù)測(cè)當(dāng)前詞和后續(xù)多個(gè)詞的聯(lián)合分布，損失函數(shù)也被調(diào)整為覆蓋多個(gè)未來位置的預(yù)測(cè)目標(biāo)，讓模型學(xué)會(huì)局部詞序列的生成規(guī)律。

聽起來有些抽象，用一個(gè)簡(jiǎn)單的例子來說明：

在Python編程時(shí)，模型識(shí)別到用戶輸入了函數(shù)定義關(guān)鍵字“def”，傳統(tǒng)方式需要逐個(gè)字符預(yù)測(cè)后續(xù)的內(nèi)容。

若是使用MTP，模型可能直接輸出“ calculate_sum(a, b)”這個(gè)完整代碼語句。

原因很簡(jiǎn)單：代碼具有強(qiáng)語法規(guī)律性，函數(shù)名后必然跟隨括號(hào)和參數(shù)。模型在訓(xùn)練中早已學(xué)會(huì)這種語法結(jié)構(gòu)，所以才能安全地一次預(yù)測(cè)多個(gè)token。

實(shí)際測(cè)試結(jié)果顯示，在代碼、JSON、SQL等結(jié)構(gòu)化文本生成任務(wù)中，MTP能夠?qū)oken生成速度提升2-3倍。

03 產(chǎn)業(yè)洞察：技術(shù)復(fù)用的趨勢(shì)不可阻擋

基于社區(qū)測(cè)試和技術(shù)架構(gòu)推演的結(jié)果，我們大致可以確認(rèn)：

GLM-5在代碼生成和邏輯推理兩個(gè)場(chǎng)景具有優(yōu)勢(shì)和競(jìng)爭(zhēng)力。

pony-alpha在Minecraft這個(gè)復(fù)雜項(xiàng)目中展現(xiàn)出的代碼能力，再加上對(duì)DSA等DeepSeek經(jīng)典技術(shù)的復(fù)用實(shí)現(xiàn)了對(duì)長(zhǎng)序列的高效處理，GLM-5有望在軟件開發(fā)輔助、算法設(shè)計(jì)等垂直領(lǐng)域形成差異化價(jià)值。

但短板也不容忽視。社區(qū)測(cè)試已經(jīng)明確指出GLM-5暫無多模態(tài)能力，無法處理圖像、音頻等非文本輸入。

在當(dāng)前國(guó)內(nèi)主流大模型普遍向視覺語言聯(lián)合理解演進(jìn)的背景下，這一缺失必然會(huì)限制GLM-5在AIGC創(chuàng)作場(chǎng)景中的適用性，并在春節(jié)期間進(jìn)一步被放大。

更有趣的是，現(xiàn)有的幾條消息表面上是關(guān)注GLM-5帶來的新突破，實(shí)則句句離不開DeepSeek的經(jīng)典技術(shù)。

希望幾天之后智譜能給我們帶來新的驚喜。

智譜AI選擇直接集成開源技術(shù)體現(xiàn)對(duì)研發(fā)效率重視的同時(shí)，也反映出國(guó)產(chǎn)大模型研發(fā)路徑的轉(zhuǎn)變：“開源+優(yōu)化”比“閉源+自研”更務(wù)實(shí)。

AI行業(yè)即將告別參數(shù)規(guī)模的軍備競(jìng)賽，專注于推理效率上的精細(xì)化運(yùn)營(yíng)。在控制計(jì)算成本的前提下，如何提升垂直表現(xiàn)將成為下一階段競(jìng)爭(zhēng)的關(guān)鍵維度。

更多>同類資訊

螞蟻開源新一代全模態(tài)大模型Ming-Flash-Omni 2.0

02-11

阿維塔AVATR.OS 5.0.0版本推送：MoLA大模型助手上線

02-11

千問DAU達(dá)到7352萬，逼平豆包

02-11

電商AI客服擅自承諾顧客巨額折扣：商家面臨法律糾紛

02-11

DeepSeek突然測(cè)試新模型，上下文已到百萬級(jí)

02-11

螞蟻集團(tuán)開源 Ming-Flash-Omni 2.0

02-11

螞蟻集團(tuán)開源 Ming-flash-omni 2.0

02-11

Runway完成3.15億美元E輪融資，估值飆升至53億美元，推動(dòng)下一代AI世界模型

02-11

螞蟻集團(tuán)開源全模態(tài)大模型Ming-flash-omni 2.0 性能對(duì)標(biāo)Gemini 2.5 Pro

02-11

臺(tái)積電將向員工發(fā)放450億元高額獎(jiǎng)金人均超過50萬

02-11

2025年小微企業(yè)筑基、新興賽道發(fā)力、文旅升溫天眼查數(shù)據(jù)解碼經(jīng)濟(jì)活力

02-11

瓜子二手車創(chuàng)始人楊浩涌：從互聯(lián)網(wǎng)“老將”到投資高手，斬獲超2億回報(bào)

02-11

眾擎啟動(dòng)全球首個(gè)人形機(jī)器人格斗聯(lián)賽，以賽促研加速技術(shù)落地與人才孵化

02-11

具身智能“ChatGPT時(shí)刻”何時(shí)來？產(chǎn)業(yè)長(zhǎng)跑考驗(yàn)系統(tǒng)耐力

02-11

偉創(chuàng)電氣：以工控為基，憑一體化優(yōu)勢(shì)領(lǐng)跑機(jī)器人核心零部件賽道

02-11

點(diǎn)擊查看更多 +

全站最新

48小時(shí)！xAI連失兩根“頂梁柱”

48小時(shí)！xAI連失兩根“頂梁柱”

別只盯著AI，這個(gè)賽道即將加速

別只盯著AI，這個(gè)賽道即將加速

微軟探索高溫超導(dǎo)重構(gòu)數(shù)據(jù)中心供電直指AI算力“電力瓶頸”

微軟探索高溫超導(dǎo)重構(gòu)數(shù)據(jù)中心供電直指AI算力“電力瓶頸”

麥格理：首予文遠(yuǎn)知行"跑贏大市"評(píng)級(jí)，目標(biāo)價(jià)46港元/17.5美元

麥格理：首予文遠(yuǎn)知行"跑贏大市"評(píng)級(jí)，目標(biāo)價(jià)46港元/17.5美元

港股異動(dòng)丨裕元集團(tuán)跌超9%，1月經(jīng)營(yíng)收益同比跌12.5%

港股異動(dòng)丨裕元集團(tuán)跌超9%，1月經(jīng)營(yíng)收益同比跌12.5%

中國(guó)飛鶴春節(jié)獻(xiàn)映《東北真行》新篇章講述匠心與守護(hù)的時(shí)代故事

中國(guó)飛鶴春節(jié)獻(xiàn)映《東北真行》新篇章講述匠心與守護(hù)的時(shí)代故事

熱門內(nèi)容

本欄最新

長(zhǎng)城魏牌V9X來襲！近5米3大身軀，2.0T插混續(xù)航超千公里，實(shí)力幾何？

長(zhǎng)城魏牌V9X來襲！近5米3大身軀，2.0T插混續(xù)航超千公里，實(shí)力幾何？

央視聚焦東風(fēng)汽車：以創(chuàng)新智造引領(lǐng)，驅(qū)動(dòng)中國(guó)汽車產(chǎn)業(yè)穩(wěn)健邁向新征程

央視聚焦東風(fēng)汽車：以創(chuàng)新智造引領(lǐng)，驅(qū)動(dòng)中國(guó)汽車產(chǎn)業(yè)穩(wěn)健邁向新征程

閔行新春沙龍：網(wǎng)絡(luò)創(chuàng)作者共探優(yōu)質(zhì)內(nèi)容創(chuàng)作，共繪閔行發(fā)展新畫卷

閔行新春沙龍：網(wǎng)絡(luò)創(chuàng)作者共探優(yōu)質(zhì)內(nèi)容創(chuàng)作，共繪閔行發(fā)展新畫卷

理想汽車新突破：全新L9馬赫100雙芯片有效算力遠(yuǎn)超英偉達(dá)Thor U

理想汽車新突破：全新L9馬赫100雙芯片有效算力遠(yuǎn)超英偉達(dá)Thor U

問界星光之夜余承東解讀品牌命名，大模型AI將升級(jí)老車主，銷量目標(biāo)再?zèng)_刺

問界星光之夜余承東解讀品牌命名，大模型AI將升級(jí)老車主，銷量目標(biāo)再?zèng)_刺

長(zhǎng)城補(bǔ)齊產(chǎn)品短板！魏牌V9X官圖曝光，攜新技術(shù)入局綠牌全尺寸SUV賽道

長(zhǎng)城補(bǔ)齊產(chǎn)品短板！魏牌V9X官圖曝光，攜新技術(shù)入局綠牌全尺寸SUV賽道

網(wǎng)站首頁 | 關(guān)于我們 | 聯(lián)系方式 | 版權(quán)聲明 | 爭(zhēng)議稿件處理 | English Version

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

主站蜘蛛池模板：国产视频精品在线 | 麻豆亚洲一区 | 日本高清视频免费看 | 国产日韩欧美在线 | 亚洲国产精品视频一区 | 自拍偷拍视频在线 | 中文字幕一区av | 五月婷在线视频 | 美女免费毛片 | 日本黄色免费网站 | 国产福利精品在线 | 免费黄色大片 | 欧美大片黄 | 久久亚洲国产精品 | 欧美bbbbbbbbbbbb精品 | 亚洲日本香蕉视频 | 人人揉人人 | 久久视频免费观看 | 成人免费黄色大片 | 91日韩中文字幕 | 日本黄色三级网站 | 中文免费视频 | 99国产视频| 黄色片入口 | 潘金莲一级淫片aaaaaa播放1 | 国产成人精品视频 | 日韩中文一区二区 | 亚洲天堂视频网 | 特黄特色免费视频 | 精品乱子伦 | 亚洲最新| 日本在线精品视频 | 日韩精品在线观看一区 | 精品国产亚洲一区二区麻豆 | 亚洲欧美日本一区 | 日韩黄色免费网站 | 国产美女免费观看 | 国产成人小视频 | 国产一级免费av | 成人午夜视频在线播放 | 一区二区三区不卡视频 |

<sup id="mnm2c"></sup><object id="mnm2c"></object>

<address id="mnm2c"></address><object id="mnm2c"></object>

<td id="mnm2c"></td>