近日,AI領域傳來新動態,有消息稱DeepSeek計劃在今年2月中旬農歷新年期間發布新一代旗艦AI模型——DeepSeek V4,這一模型預計將展現出更為強大的代碼編寫能力,引發行業廣泛關注。
在1月20日,恰逢DeepSeek - R1發布一周年之際,開發者群體有了新發現。他們在GitHub上注意到,DeepSeek更新了一系列FlashMLA代碼,在橫跨114個文件中,有28處都出現了未知的“MODEL1”大模型標識符。這個標識符與已知的現有模型“V32”(即DeepSeek - V3.2)在代碼中并列或區別提及,這引起了開發者們的濃厚興趣。
通過對代碼上下文的深入分析,開發者們推測“MODEL1”很可能代表著一種與現有架構截然不同的新模型。進一步的研究表明,“MODEL1”與“V32”在關鍵技術層面存在明顯差異。具體體現在鍵值(KV)緩存的布局方式、稀疏性處理手段以及對FP8數據格式的解碼支持等方面。這些技術差異暗示著新架構或許在內存優化和計算效率方面進行了專門的優化設計。
值得一提的是,此前DeepSeek研究團隊已陸續發布了兩篇技術論文。其中一篇介紹了名為“優化殘差連接(mHC)”的新型訓練方法,另一篇則闡述了一種受生物學啟發的“AI記憶模塊(Engram)”。這兩項研究成果的公布,不禁讓外界猜測,DeepSeek正在開發的新模型很可能會整合這些最新的技術成果,為AI領域帶來新的突破。











