近日,人工智能領(lǐng)域迎來一項重要突破——DeepSeek團隊提出了一種名為Engram的新型“條件記憶”機制,為混合專家模型(MoE)的發(fā)展開辟了新路徑。該機制旨在讓MoE模型在保持海量參數(shù)的同時,更高效地處理語言信息,實現(xiàn)性能與成本的雙重優(yōu)化。
傳統(tǒng)MoE模型通過稀疏激活機制擴展模型容量,但存在路由成本高、訓練不穩(wěn)定等問題。DeepSeek團隊觀察到,現(xiàn)有Transformer架構(gòu)缺乏真正的知識檢索機制,導致模型不得不重復計算常見的事實性內(nèi)容,如固定表達、歷史名詞等,造成計算資源的浪費。為此,他們提出將靜態(tài)知識存儲與動態(tài)計算解耦,通過外接記憶庫提升模型效率。
Engram架構(gòu)的核心創(chuàng)新在于引入條件記憶模塊,該模塊通過分詞器壓縮、多頭哈希、上下文感知門控等技術(shù),構(gòu)建了可擴展的靜態(tài)知識庫。實驗表明,在相同算力條件下,Engram-27B模型在32768個token的長上下文任務(wù)中,RULER基準測試性能超越同參數(shù)量MoE模型,且訓練計算量減少18%。更引人注目的是,其1000億參數(shù)記憶表卸載后,H800硬件推理吞吐量降幅不足3%,展現(xiàn)了極高的系統(tǒng)效率。
研究團隊通過大量實驗驗證了Engram與MoE的互補性。當資源分配比例為75%-80%給MoE、20%-25%給Engram時,模型性能達到最優(yōu)。進一步擴展記憶容量發(fā)現(xiàn),驗證損失持續(xù)穩(wěn)定下降,且性能提升嚴格遵循冪律分布,這為模型的可預測擴展提供了新思路。相比傳統(tǒng)記憶方法,Engram在知識密集型任務(wù)和通用推理任務(wù)中均表現(xiàn)出更顯著的優(yōu)勢。
機制分析顯示,Engram模塊在模型淺層效果最佳,能夠盡早卸載局部模式重建任務(wù),使深層網(wǎng)絡(luò)專注于復雜推理。功能敏感性測試表明,關(guān)閉Engram會導致事實性知識任務(wù)性能災(zāi)難性下降,而閱讀理解任務(wù)幾乎不受影響,這驗證了其作為知識存儲主要倉庫的角色。門控機制激活分析進一步揭示,Engram在處理多詞實體、固定短語等靜態(tài)模式時自動啟用,與注意力機制形成有機互補。
與外部記憶檢索增強(RAG)相比,Engram將知識內(nèi)化于參數(shù)化記憶表中,實現(xiàn)了更低的延遲和更強的知識一致性。該架構(gòu)還支持高效的硬件優(yōu)化,通過預取和層次化存儲策略,能夠擴展至超大規(guī)模記憶而保持系統(tǒng)穩(wěn)定性。研究團隊認為,這種解耦設(shè)計為知識蒸餾提供了新范式,未來可通過單獨更新記憶表來修正模型知識,無需昂貴的微調(diào)過程。











