岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

DeepSeek開源新架構(gòu)Engram:梁文鋒領(lǐng)銜,實習生參與,或推動AGI發(fā)展

   時間:2026-01-14 19:35:41 來源:快訊編輯:快訊 IP:北京 發(fā)表評論無障礙通道
 

近日,人工智能領(lǐng)域迎來一項重要突破——DeepSeek團隊提出了一種名為Engram的新型“條件記憶”機制,為混合專家模型(MoE)的發(fā)展開辟了新路徑。該機制旨在讓MoE模型在保持海量參數(shù)的同時,更高效地處理語言信息,實現(xiàn)性能與成本的雙重優(yōu)化。

傳統(tǒng)MoE模型通過稀疏激活機制擴展模型容量,但存在路由成本高、訓練不穩(wěn)定等問題。DeepSeek團隊觀察到,現(xiàn)有Transformer架構(gòu)缺乏真正的知識檢索機制,導致模型不得不重復計算常見的事實性內(nèi)容,如固定表達、歷史名詞等,造成計算資源的浪費。為此,他們提出將靜態(tài)知識存儲與動態(tài)計算解耦,通過外接記憶庫提升模型效率。

Engram架構(gòu)的核心創(chuàng)新在于引入條件記憶模塊,該模塊通過分詞器壓縮、多頭哈希、上下文感知門控等技術(shù),構(gòu)建了可擴展的靜態(tài)知識庫。實驗表明,在相同算力條件下,Engram-27B模型在32768個token的長上下文任務(wù)中,RULER基準測試性能超越同參數(shù)量MoE模型,且訓練計算量減少18%。更引人注目的是,其1000億參數(shù)記憶表卸載后,H800硬件推理吞吐量降幅不足3%,展現(xiàn)了極高的系統(tǒng)效率。

研究團隊通過大量實驗驗證了Engram與MoE的互補性。當資源分配比例為75%-80%給MoE、20%-25%給Engram時,模型性能達到最優(yōu)。進一步擴展記憶容量發(fā)現(xiàn),驗證損失持續(xù)穩(wěn)定下降,且性能提升嚴格遵循冪律分布,這為模型的可預測擴展提供了新思路。相比傳統(tǒng)記憶方法,Engram在知識密集型任務(wù)和通用推理任務(wù)中均表現(xiàn)出更顯著的優(yōu)勢。

機制分析顯示,Engram模塊在模型淺層效果最佳,能夠盡早卸載局部模式重建任務(wù),使深層網(wǎng)絡(luò)專注于復雜推理。功能敏感性測試表明,關(guān)閉Engram會導致事實性知識任務(wù)性能災(zāi)難性下降,而閱讀理解任務(wù)幾乎不受影響,這驗證了其作為知識存儲主要倉庫的角色。門控機制激活分析進一步揭示,Engram在處理多詞實體、固定短語等靜態(tài)模式時自動啟用,與注意力機制形成有機互補。

與外部記憶檢索增強(RAG)相比,Engram將知識內(nèi)化于參數(shù)化記憶表中,實現(xiàn)了更低的延遲和更強的知識一致性。該架構(gòu)還支持高效的硬件優(yōu)化,通過預取和層次化存儲策略,能夠擴展至超大規(guī)模記憶而保持系統(tǒng)穩(wěn)定性。研究團隊認為,這種解耦設(shè)計為知識蒸餾提供了新范式,未來可通過單獨更新記憶表來修正模型知識,無需昂貴的微調(diào)過程。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 日韩免费大片 | 久热精品在线视频 | 国产精品久久久久久久久久久久久久久久久 | 欧美在线黄色 | 肉丝av | 国产欧美一区二区精品性色超碰 | 激情九月婷婷 | 日韩亚洲一区二区 | 97视频在线看| 四虎com | 91麻豆精品国产 | 天天操综合网 | 日本丰满少妇黄大片在线观看 | 国内成人在线 | 波多野结衣一区二区 | 视频在线一区二区 | 国产精品自拍一区 | 四虎综合 | 亚洲第一成人av | 成人av免费看 | 国产午夜视频在线观看 | 麻豆映画在线观看 | 午夜av一区 | 黄色大片在线播放 | 中文字幕三区 | 黄色av免费| 都市激情中文字幕 | 亚洲女同av | 欧美日韩激情在线 | 欧美专区在线 | 亚洲综合在线观看视频 | 日韩av一区在线 | 91国内精品视频 | 97色在线视频 | 中文字幕av免费观看 | 亚洲精品91 | 激情视频网站在线观看 | 精品久久国产字幕高潮 | 国产欧美高清 | 成年人视频在线观看免费 | 爽爽窝窝午夜精品一区二区 |