岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

DeepSeek開(kāi)源Engram新架構(gòu):梁文鋒合著,或成V4核心技術(shù)基礎(chǔ)

   時(shí)間:2026-01-13 07:23:58 來(lái)源:互聯(lián)網(wǎng)編輯:快訊 IP:北京 發(fā)表評(píng)論無(wú)障礙通道
 

人工智能領(lǐng)域迎來(lái)一項(xiàng)突破性進(jìn)展,DeepSeek團(tuán)隊(duì)在GitHub平臺(tái)開(kāi)源了名為Engram的創(chuàng)新技術(shù)模塊,并同步發(fā)布題為《通過(guò)可擴(kuò)展查找實(shí)現(xiàn)條件記憶:大語(yǔ)言模型稀疏性的新維度》的學(xué)術(shù)論文。這項(xiàng)研究通過(guò)解耦知識(shí)存儲(chǔ)與邏輯推理兩大核心功能,為提升模型效率開(kāi)辟了全新路徑。

傳統(tǒng)大語(yǔ)言模型普遍采用Transformer與專家混合(MoE)架構(gòu),通過(guò)動(dòng)態(tài)激活部分參數(shù)實(shí)現(xiàn)計(jì)算成本控制。但研究發(fā)現(xiàn),現(xiàn)有架構(gòu)在處理事實(shí)性記憶(如固定知識(shí)問(wèn)答)與邏輯推理(如代碼調(diào)試)時(shí)存在顯著效率差異。以DeepSeek系列模型為例,盡管MoE架構(gòu)有效緩解了參數(shù)量激增帶來(lái)的計(jì)算壓力,但在處理需要精確記憶的任務(wù)時(shí)仍存在優(yōu)化空間。

Engram技術(shù)的核心創(chuàng)新在于構(gòu)建了獨(dú)立的記憶處理通道。該模塊通過(guò)哈希算法將輸入文本切分為N-gram片段,并映射至可學(xué)習(xí)的查找表,實(shí)現(xiàn)O(1)時(shí)間復(fù)雜度的確定性檢索。這種設(shè)計(jì)使模型在保持參數(shù)規(guī)模的同時(shí),將記憶存儲(chǔ)與邏輯計(jì)算徹底分離——靜態(tài)記憶通道負(fù)責(zé)快速檢索已知模式,動(dòng)態(tài)計(jì)算通道專注處理復(fù)雜推理任務(wù)。

技術(shù)實(shí)現(xiàn)層面,Engram模塊被嵌入Transformer架構(gòu)的早期階段。當(dāng)輸入文本進(jìn)入模型時(shí),該模塊首先進(jìn)行模式重建,將相關(guān)背景知識(shí)檢索出來(lái)作為后續(xù)計(jì)算的輸入素材。與傳統(tǒng)自注意力機(jī)制不同,這種條件化記憶檢索機(jī)制會(huì)根據(jù)上下文隱狀態(tài)動(dòng)態(tài)調(diào)整檢索策略,確保提取的記憶片段與當(dāng)前任務(wù)高度相關(guān)。

實(shí)驗(yàn)數(shù)據(jù)顯示,在270億參數(shù)規(guī)模的測(cè)試模型中,Engram模塊可占用高達(dá)60%的參數(shù)用于記憶存儲(chǔ),但在實(shí)際推理過(guò)程中僅消耗極少量計(jì)算資源。這種參數(shù)分配策略使模型在知識(shí)調(diào)用、數(shù)學(xué)推理等任務(wù)上的表現(xiàn)顯著提升,同時(shí)保持了與全參數(shù)模型相當(dāng)?shù)挠?jì)算效率。研究團(tuán)隊(duì)特別指出,Engram與MoE架構(gòu)形成互補(bǔ)關(guān)系:前者處理記憶檢索的"已知已知",后者專注邏輯推理的"未知未知",二者協(xié)同構(gòu)成更高效的雙系統(tǒng)架構(gòu)。

技術(shù)社區(qū)對(duì)這項(xiàng)創(chuàng)新給予高度關(guān)注。Reddit平臺(tái)上的開(kāi)發(fā)者討論指出,Engram通過(guò)引入靜態(tài)記憶維度,解決了MoE架構(gòu)在模式重建方面的固有缺陷。有評(píng)論認(rèn)為,這種確定性尋址機(jī)制使得模型可以將龐大記憶表卸載至主機(jī)內(nèi)存,在幾乎不增加推理開(kāi)銷的情況下擴(kuò)展知識(shí)容量。另有開(kāi)發(fā)者指出,該技術(shù)與傳統(tǒng)NLP中的n-gram嵌入存在理念相通之處,但通過(guò)現(xiàn)代化改造實(shí)現(xiàn)了質(zhì)的飛躍。

關(guān)于技術(shù)落地,社區(qū)猜測(cè)Engram可能成為DeepSeek下一代模型的核心組件。X平臺(tái)上的技術(shù)分析認(rèn)為,這種記憶-推理分離架構(gòu)預(yù)示著大模型發(fā)展將進(jìn)入新階段,未來(lái)可能出現(xiàn)更多針對(duì)特定任務(wù)優(yōu)化的專業(yè)化模塊。有開(kāi)發(fā)者調(diào)侃,這項(xiàng)來(lái)自中國(guó)團(tuán)隊(duì)的創(chuàng)新或?qū)⒏淖冃袠I(yè)技術(shù)路線,甚至引發(fā)新的"抄襲"競(jìng)賽。

目前,Engram的完整代碼與論文已在GitHub公開(kāi),開(kāi)發(fā)者可自由訪問(wèn)實(shí)現(xiàn)細(xì)節(jié)。這項(xiàng)研究不僅為大模型架構(gòu)設(shè)計(jì)提供了新思路,其開(kāi)源特性也將推動(dòng)整個(gè)領(lǐng)域的技術(shù)進(jìn)步。隨著更多研究者參與優(yōu)化,基于查算分離原理的新型模型架構(gòu)有望在不久的將來(lái)實(shí)現(xiàn)更廣泛的應(yīng)用突破。

 
 
更多>同類資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭(zhēng)議稿件處理  |  English Version
 
主站蜘蛛池模板: 国产在线日韩 | 国产一区在线观看免费 | 天天综合色 | 日韩av一区二区三区在线观看 | 国产一区二区不卡 | 婷婷综合激情网 | 国内外成人免费视频 | 中国毛片在线观看 | avtt香蕉久久 | 成人吃奶视频 | 欧美一级生活片 | 国产在线观看免费视频软件 | 久久久久久一区二区三区 | 五月婷婷六月天 | 成人av在线网站 | 日韩在线欧美在线 | 亚洲天堂一区 | 中文字幕在线观看亚洲 | 六月丁香啪啪 | 亚洲视频一区在线观看 | 天堂在线视频免费 | 国产精品1区2区3区 黄色日韩 | 国产一区二区免费 | 黄色片一区二区三区 | 九九久久免费视频 | 亚洲成人精品久久久 | 国产一区二区三区高清 | 欧美性生活一区 | 奇米网av | aaa欧美 | 黄色av网站在线观看 | 日韩av在线免费播放 | 国产一区二区自拍视频 | 日韩中文字幕免费视频 | 91亚洲综合 | 丁香激情五月 | 日本黄色小视频在线观看 | 国产精品第六页 | 日韩一级在线观看 | а中文在线天堂 | 伊人春色在线观看 |