人工智能領(lǐng)域迎來(lái)一項(xiàng)突破性進(jìn)展,DeepSeek團(tuán)隊(duì)在GitHub平臺(tái)開(kāi)源了名為Engram的創(chuàng)新技術(shù)模塊,并同步發(fā)布題為《通過(guò)可擴(kuò)展查找實(shí)現(xiàn)條件記憶:大語(yǔ)言模型稀疏性的新維度》的學(xué)術(shù)論文。這項(xiàng)研究通過(guò)解耦知識(shí)存儲(chǔ)與邏輯推理兩大核心功能,為提升模型效率開(kāi)辟了全新路徑。
傳統(tǒng)大語(yǔ)言模型普遍采用Transformer與專家混合(MoE)架構(gòu),通過(guò)動(dòng)態(tài)激活部分參數(shù)實(shí)現(xiàn)計(jì)算成本控制。但研究發(fā)現(xiàn),現(xiàn)有架構(gòu)在處理事實(shí)性記憶(如固定知識(shí)問(wèn)答)與邏輯推理(如代碼調(diào)試)時(shí)存在顯著效率差異。以DeepSeek系列模型為例,盡管MoE架構(gòu)有效緩解了參數(shù)量激增帶來(lái)的計(jì)算壓力,但在處理需要精確記憶的任務(wù)時(shí)仍存在優(yōu)化空間。
Engram技術(shù)的核心創(chuàng)新在于構(gòu)建了獨(dú)立的記憶處理通道。該模塊通過(guò)哈希算法將輸入文本切分為N-gram片段,并映射至可學(xué)習(xí)的查找表,實(shí)現(xiàn)O(1)時(shí)間復(fù)雜度的確定性檢索。這種設(shè)計(jì)使模型在保持參數(shù)規(guī)模的同時(shí),將記憶存儲(chǔ)與邏輯計(jì)算徹底分離——靜態(tài)記憶通道負(fù)責(zé)快速檢索已知模式,動(dòng)態(tài)計(jì)算通道專注處理復(fù)雜推理任務(wù)。
技術(shù)實(shí)現(xiàn)層面,Engram模塊被嵌入Transformer架構(gòu)的早期階段。當(dāng)輸入文本進(jìn)入模型時(shí),該模塊首先進(jìn)行模式重建,將相關(guān)背景知識(shí)檢索出來(lái)作為后續(xù)計(jì)算的輸入素材。與傳統(tǒng)自注意力機(jī)制不同,這種條件化記憶檢索機(jī)制會(huì)根據(jù)上下文隱狀態(tài)動(dòng)態(tài)調(diào)整檢索策略,確保提取的記憶片段與當(dāng)前任務(wù)高度相關(guān)。
實(shí)驗(yàn)數(shù)據(jù)顯示,在270億參數(shù)規(guī)模的測(cè)試模型中,Engram模塊可占用高達(dá)60%的參數(shù)用于記憶存儲(chǔ),但在實(shí)際推理過(guò)程中僅消耗極少量計(jì)算資源。這種參數(shù)分配策略使模型在知識(shí)調(diào)用、數(shù)學(xué)推理等任務(wù)上的表現(xiàn)顯著提升,同時(shí)保持了與全參數(shù)模型相當(dāng)?shù)挠?jì)算效率。研究團(tuán)隊(duì)特別指出,Engram與MoE架構(gòu)形成互補(bǔ)關(guān)系:前者處理記憶檢索的"已知已知",后者專注邏輯推理的"未知未知",二者協(xié)同構(gòu)成更高效的雙系統(tǒng)架構(gòu)。
技術(shù)社區(qū)對(duì)這項(xiàng)創(chuàng)新給予高度關(guān)注。Reddit平臺(tái)上的開(kāi)發(fā)者討論指出,Engram通過(guò)引入靜態(tài)記憶維度,解決了MoE架構(gòu)在模式重建方面的固有缺陷。有評(píng)論認(rèn)為,這種確定性尋址機(jī)制使得模型可以將龐大記憶表卸載至主機(jī)內(nèi)存,在幾乎不增加推理開(kāi)銷的情況下擴(kuò)展知識(shí)容量。另有開(kāi)發(fā)者指出,該技術(shù)與傳統(tǒng)NLP中的n-gram嵌入存在理念相通之處,但通過(guò)現(xiàn)代化改造實(shí)現(xiàn)了質(zhì)的飛躍。
關(guān)于技術(shù)落地,社區(qū)猜測(cè)Engram可能成為DeepSeek下一代模型的核心組件。X平臺(tái)上的技術(shù)分析認(rèn)為,這種記憶-推理分離架構(gòu)預(yù)示著大模型發(fā)展將進(jìn)入新階段,未來(lái)可能出現(xiàn)更多針對(duì)特定任務(wù)優(yōu)化的專業(yè)化模塊。有開(kāi)發(fā)者調(diào)侃,這項(xiàng)來(lái)自中國(guó)團(tuán)隊(duì)的創(chuàng)新或?qū)⒏淖冃袠I(yè)技術(shù)路線,甚至引發(fā)新的"抄襲"競(jìng)賽。
目前,Engram的完整代碼與論文已在GitHub公開(kāi),開(kāi)發(fā)者可自由訪問(wèn)實(shí)現(xiàn)細(xì)節(jié)。這項(xiàng)研究不僅為大模型架構(gòu)設(shè)計(jì)提供了新思路,其開(kāi)源特性也將推動(dòng)整個(gè)領(lǐng)域的技術(shù)進(jìn)步。隨著更多研究者參與優(yōu)化,基于查算分離原理的新型模型架構(gòu)有望在不久的將來(lái)實(shí)現(xiàn)更廣泛的應(yīng)用突破。










