摘要:
早在2025年11月,DeepSeek還開放過行政招聘,據相關人士表述“是因為團隊大了,需要更多的行政伙伴”。
鳳凰網科技 出品
作者|姜凡
編輯|董雨晴
雖然距離春節還有些時日,但國內科技圈的節奏似乎已經提前進入了假期模式,唯獨 DeepSeek 是個例外。
就在昨天,DeepSeek 毫無預兆地在 GitHub 上開源了新模塊 Engram 的相關代碼,并發布了一篇題為《Conditional Memory via Scalable Lookup》的論文。更早一點,在元旦當天,他們還甩出了一篇關于模型架構穩定性的《mHC》。
這兩篇硬核論文的作者列表中,都赫然出現了 DeepSeek 創始人梁文鋒的名字。這種高密度的技術輸出,顯然不是為了湊年底的 KPI,而是在向外界傳遞一個明確的信號:在沉默的這段時間里,DeepSeek 并沒有休息,他們在為下一代模型積攢彈藥。
旺盛的招聘需求似乎印證了這個觀點。鳳凰網科技在檢索社交媒體信息后發現,DeepSeek近期正在大量招人,放出了多個技術核心崗位招聘,包括深度學習研究員(負責LLM各個方向的前沿探索,如預訓練、alignment、codemath、backbone、multimodal等)、深度學習研發工程師(LLM預訓練數據/搜索策略相關)、大模型全棧工程師(算法與工程并重,歸屬于各個前沿探索方向,除了實現還會參與一些環境的部署和搭建)、全棧開發工程師、核心系統研發工程署。且據招聘者表述,校招、社招、實習均開放,另有產品、設計、數據百曉生等崗位開放。
值得一提的是,根據此前梁文鋒署名的論文作者名單,整個DeepSeek的人員穩定性極高,證明此次招聘主要是擴招需求。另據表述,大部分崗位都可以駐扎在北京或杭州。和此前多數崗位需要去杭州已有不同。早在2025年11月,DeepSeek還開放過行政招聘,據相關人士表述“是因為團隊大了,需要更多的行政伙伴”。
現在,彈藥已備好,或許真的該梁文鋒上場了。
梁文鋒已提前開啟“春節檔”
DeepSeek的這個“春節檔”已提前開啟。就在全行業都在盤點 2025 年應用層得失的時候,DeepSeek把目光鎖在了架構層。
最新發布的Engram研究是與北京大學合作完成的。這項研究直指當前Transformer 架構的一個痛點:大模型雖然通過 MoE 實現了“條件計算”,但缺乏原生的“條件記憶”。現在的模型記東西太笨,只能靠計算來模擬檢索。DeepSeek提出的 Engram 模塊,要給大模型裝上一個外掛式的“硬盤”,讓它能像查字典一樣,以 O(1) 的時間復雜度調取知識,而不是靠算力硬抗。
在元旦發布的《mHC:流形約束超連接》中,梁文鋒和他的團隊解決的是另一個問題——超大規模模型的訓練穩定性。隨著模型越來越大,傳統的殘差連接開始失效,訓練容易崩潰。DeepSeek 用一套數學方法,把神經網絡的連接方式約束在特定的流形空間里,恢復了信息傳遞的穩定性。
實驗表明,在 27B 參數的混合專家模型上,mHC 展現出穩定的訓練曲線,最終損失相比基線有降低。
DeepSeek 團隊還為 mHC 架構開發了一系列基礎設施優化。他們使用 TileLang 框架實現了多個融合內核,將原本分散的操作合并執行以減少內存訪問次數。針對 Sinkhorn-Knopp 算法,他們設計了專門的前向和反向內核,在芯片上重新計算中間結果以避免存儲開銷。在流水線并行方面,團隊擴展了 DualPipe 調度策略,通過將 MLP 層的特定內核放在高優先級計算流上執行,實現了計算與通信的重疊。這些優化讓 mHC 在保持性能優勢的同時,減少了額外開銷。
回看過去一年,DeepSeek 究竟在做什么?如果說 V2 和 V3 是證明了“團隊能把 MoE 做得很好”,那么 DeepSeek 的這一年,則是在試圖回答“除了 MoE,大模型還需要什么”。
首先是記憶機制的重構。在 Engram 的設計中,DeepSeek 發現了一個驚人的 U 型擴展規律。他們通過實驗證明,純粹的 MoE 并不是最優解。在同等參數量和計算量(Iso-FLOPs)的限制下,如果把 20%-25% 的資源分給靜態記憶(Engram),剩下的分給神經計算(MoE),模型的效果才是最好的。這是一個反直覺的發現:有時候,少算一點,多記一點,反而更聰明。
數據支撐了這一理論。DeepSeek 將 Engram 擴展到了 270 億參數規模。結果顯示,這個外掛記憶模塊不僅讓模型背書能力變強了(MMLU 提升 3.4),更意外的是,它讓模型變聰明了,BBH 推理能力提升 5.0,數學能力提升 2.4。甚至在“大海撈針”這種長文本測試中,準確率直接從 84.2% 飆升到了 97.0%。這說明,當模型不需要耗費腦力去死記硬背時,它就能騰出更多的注意力去處理復雜的邏輯推理。
其次是底層連接的修補。在 mHC 的研究中,DeepSeek 團隊展現了極強的工程與數學結合能力。他們不只是提出了理論,還針對硬件做了一系列“變態”級的優化:擴展 DualPipe 調度策略,重新設計 Sinkhorn-Knopp 算法的內核,甚至為了減少顯存訪問,把分散的操作強行融合。這些優化讓 mHC 架構在 27B 規模的模型上,訓練損失比基線降低了 0.021,推理能力提升 2.1%。
這一年,DeepSeek 并沒有在應用層的紅海里戀戰,而是退回到了那個最枯燥、最硬核的角落,試圖把 Transformer 這座大廈的地基再夯實一點。Engram 解決了“記不住”和“推理慢”的問題,mHC 解決了“長不大”和“練不穩”的問題。
這讓一年時間過去,DeepSeek還在神壇之上。用一位行業人士的話說,“DeepSeek這家公司始終在創新”。
V4真的要來了?
現在高潮或許快來了,所有的線索都指向了同一個方向:DeepSeek V4。
如果我們把這兩篇論文疊加在一起看,V4的輪廓已經呼之欲出。它極大概率不會是一個單純堆砌參數的龐然大物,而是一個架構極其精巧的“縫合怪”:它將擁有MoE帶來的極致計算效率,同時集成了Engram帶來的海量低成本記憶,底層則由 mHC架構支撐其在超大規模下的訓練穩定性。
Engram的論文中提到了一個細節:這種架構支持“預取-重疊”策略,可以利用CPU內存來存知識,GPU專心算邏輯。這意味著,V4極有可能在保持推理成本低廉的同時,擁有遠超當前一代模型的知識容量和長上下文處理能力。這對于目前受困于顯存成本的行業來說,可能又是一次降維打擊。
mHC的成功驗證意味著DeepSeek已經掌握了訓練更大規模多模態模型、甚至萬億參數模型的“穩定器”。對于算力資源本就不富裕的國內 AI 圈,這種算法層面的效率提升,比單純購買幾千張英偉達芯片更有戰略意義。
技術拼圖已經湊齊,基礎設施的優化代碼也已上傳GitHub。梁文鋒在這個時間點連續拋出硬核研究,顯然不僅僅是為了學術交流。這更像是一場發布會前的“技術路演”。
春節將至,萬物閉藏,但這往往也是驚雷孕育的時刻。DeepSeek V4的發令槍,或許已經握在了梁文鋒的手中,只等那最后一聲槍響。











