滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

DeepSeek大量招人，該梁文鋒上場了

時間：2026-01-14 21:08:37 來源：鳳凰網科技編輯：快訊 IP：北京 發表評論無障礙通道

摘要：

早在2025年11月，DeepSeek還開放過行政招聘，據相關人士表述“是因為團隊大了，需要更多的行政伙伴”。

鳳凰網科技出品

作者｜姜凡

編輯｜董雨晴

雖然距離春節還有些時日，但國內科技圈的節奏似乎已經提前進入了假期模式，唯獨 DeepSeek 是個例外。

就在昨天，DeepSeek 毫無預兆地在 GitHub 上開源了新模塊 Engram 的相關代碼，并發布了一篇題為《Conditional Memory via Scalable Lookup》的論文。更早一點，在元旦當天，他們還甩出了一篇關于模型架構穩定性的《mHC》。

這兩篇硬核論文的作者列表中，都赫然出現了 DeepSeek 創始人梁文鋒的名字。這種高密度的技術輸出，顯然不是為了湊年底的 KPI，而是在向外界傳遞一個明確的信號：在沉默的這段時間里，DeepSeek 并沒有休息，他們在為下一代模型積攢彈藥。

旺盛的招聘需求似乎印證了這個觀點。鳳凰網科技在檢索社交媒體信息后發現，DeepSeek近期正在大量招人，放出了多個技術核心崗位招聘，包括深度學習研究員（負責LLM各個方向的前沿探索，如預訓練、alignment、codemath、backbone、multimodal等）、深度學習研發工程師（LLM預訓練數據/搜索策略相關）、大模型全棧工程師（算法與工程并重，歸屬于各個前沿探索方向，除了實現還會參與一些環境的部署和搭建）、全棧開發工程師、核心系統研發工程署。且據招聘者表述，校招、社招、實習均開放，另有產品、設計、數據百曉生等崗位開放。

值得一提的是，根據此前梁文鋒署名的論文作者名單，整個DeepSeek的人員穩定性極高，證明此次招聘主要是擴招需求。另據表述，大部分崗位都可以駐扎在北京或杭州。和此前多數崗位需要去杭州已有不同。早在2025年11月，DeepSeek還開放過行政招聘，據相關人士表述“是因為團隊大了，需要更多的行政伙伴”。

現在，彈藥已備好，或許真的該梁文鋒上場了。

梁文鋒已提前開啟“春節檔”

DeepSeek的這個“春節檔”已提前開啟。就在全行業都在盤點 2025 年應用層得失的時候，DeepSeek把目光鎖在了架構層。

最新發布的Engram研究是與北京大學合作完成的。這項研究直指當前Transformer 架構的一個痛點：大模型雖然通過 MoE 實現了“條件計算”，但缺乏原生的“條件記憶”。現在的模型記東西太笨，只能靠計算來模擬檢索。DeepSeek提出的 Engram 模塊，要給大模型裝上一個外掛式的“硬盤”，讓它能像查字典一樣，以 O(1) 的時間復雜度調取知識，而不是靠算力硬抗。

在元旦發布的《mHC：流形約束超連接》中，梁文鋒和他的團隊解決的是另一個問題——超大規模模型的訓練穩定性。隨著模型越來越大，傳統的殘差連接開始失效，訓練容易崩潰。DeepSeek 用一套數學方法，把神經網絡的連接方式約束在特定的流形空間里，恢復了信息傳遞的穩定性。

實驗表明，在 27B 參數的混合專家模型上，mHC 展現出穩定的訓練曲線，最終損失相比基線有降低。

DeepSeek 團隊還為 mHC 架構開發了一系列基礎設施優化。他們使用 TileLang 框架實現了多個融合內核，將原本分散的操作合并執行以減少內存訪問次數。針對 Sinkhorn-Knopp 算法，他們設計了專門的前向和反向內核，在芯片上重新計算中間結果以避免存儲開銷。在流水線并行方面，團隊擴展了 DualPipe 調度策略，通過將 MLP 層的特定內核放在高優先級計算流上執行，實現了計算與通信的重疊。這些優化讓 mHC 在保持性能優勢的同時，減少了額外開銷。

回看過去一年，DeepSeek 究竟在做什么？如果說 V2 和 V3 是證明了“團隊能把 MoE 做得很好”，那么 DeepSeek 的這一年，則是在試圖回答“除了 MoE，大模型還需要什么”。

首先是記憶機制的重構。在 Engram 的設計中，DeepSeek 發現了一個驚人的 U 型擴展規律。他們通過實驗證明，純粹的 MoE 并不是最優解。在同等參數量和計算量（Iso-FLOPs）的限制下，如果把 20%-25% 的資源分給靜態記憶（Engram），剩下的分給神經計算（MoE），模型的效果才是最好的。這是一個反直覺的發現：有時候，少算一點，多記一點，反而更聰明。

數據支撐了這一理論。DeepSeek 將 Engram 擴展到了 270 億參數規模。結果顯示，這個外掛記憶模塊不僅讓模型背書能力變強了（MMLU 提升 3.4），更意外的是，它讓模型變聰明了，BBH 推理能力提升 5.0，數學能力提升 2.4。甚至在“大海撈針”這種長文本測試中，準確率直接從 84.2% 飆升到了 97.0%。這說明，當模型不需要耗費腦力去死記硬背時，它就能騰出更多的注意力去處理復雜的邏輯推理。

其次是底層連接的修補。在 mHC 的研究中，DeepSeek 團隊展現了極強的工程與數學結合能力。他們不只是提出了理論，還針對硬件做了一系列“變態”級的優化：擴展 DualPipe 調度策略，重新設計 Sinkhorn-Knopp 算法的內核，甚至為了減少顯存訪問，把分散的操作強行融合。這些優化讓 mHC 架構在 27B 規模的模型上，訓練損失比基線降低了 0.021，推理能力提升 2.1%。

這一年，DeepSeek 并沒有在應用層的紅海里戀戰，而是退回到了那個最枯燥、最硬核的角落，試圖把 Transformer 這座大廈的地基再夯實一點。Engram 解決了“記不住”和“推理慢”的問題，mHC 解決了“長不大”和“練不穩”的問題。

這讓一年時間過去，DeepSeek還在神壇之上。用一位行業人士的話說，“DeepSeek這家公司始終在創新”。

V4真的要來了？

現在高潮或許快來了，所有的線索都指向了同一個方向：DeepSeek V4。

如果我們把這兩篇論文疊加在一起看，V4的輪廓已經呼之欲出。它極大概率不會是一個單純堆砌參數的龐然大物，而是一個架構極其精巧的“縫合怪”：它將擁有MoE帶來的極致計算效率，同時集成了Engram帶來的海量低成本記憶，底層則由 mHC架構支撐其在超大規模下的訓練穩定性。

Engram的論文中提到了一個細節：這種架構支持“預取-重疊”策略，可以利用CPU內存來存知識，GPU專心算邏輯。這意味著，V4極有可能在保持推理成本低廉的同時，擁有遠超當前一代模型的知識容量和長上下文處理能力。這對于目前受困于顯存成本的行業來說，可能又是一次降維打擊。

mHC的成功驗證意味著DeepSeek已經掌握了訓練更大規模多模態模型、甚至萬億參數模型的“穩定器”。對于算力資源本就不富裕的國內 AI 圈，這種算法層面的效率提升，比單純購買幾千張英偉達芯片更有戰略意義。

技術拼圖已經湊齊，基礎設施的優化代碼也已上傳GitHub。梁文鋒在這個時間點連續拋出硬核研究，顯然不僅僅是為了學術交流。這更像是一場發布會前的“技術路演”。

春節將至，萬物閉藏，但這往往也是驚雷孕育的時刻。DeepSeek V4的發令槍，或許已經握在了梁文鋒的手中，只等那最后一聲槍響。

01-25

硅谷瘋傳“7×24h全能AI助手”！退休工程師讓Mac mini成新寵

01-25

蘋果iOS 27系統Siri大升級：深度嵌入產品，變身完整聊天機器人

01-25

九號公司立下十年目標：智能電動車將成全球摩托車行業主流

01-25

紡織垂類模型與智能體簽約福建，自動配棉等助力行業提質增效

。模型整合紡織通識與專業術語，結合高質量及細分場景數據，構建自動配棉、新工助手等行業應用智能體。自動配棉智能體破解人工配棉低效耗料、易出錯痛點，幫助實現智能決策。新工助手有效幫助企業提高決策響應速度和生產效…

01-25

意優科技全球首條機器人關節自動化產線投產，規劃擴容助力人形機器人普及

據浦東發布消息，近日，意優科技“全球首條機器人關節自動化產線”在浦東投產。這是具身智能產業從技術研發邁向規模化制造的關鍵跨越，標志著人形機器人核心部件量產瓶頸的突破，為人形機器人的大規模推廣應用按下“加速鍵”…

01-25

AI賦能供應鏈新變革：美云智數智能體方案，引領企業“智慧運營”新篇

近日，在“智造進化，全域AI——美擎AIGC3.1暨智能體工廠解決方案發布會”上，美云智數發布了供應鏈AI智能體解決方案，試圖把“發現—決策—執行”三個動作變成可持續運轉的業務閉環。在美的集團內部實踐中…

01-25

佐治亞理工團隊新突破：讓AI“專業技師”變“全能選手”成現實

然而，當研究人員嘗試用現有的方法來合并這些通過強化學習訓練的智能體時，卻發現了一個令人頭疼的問題：合并后的智能體不僅沒有變得更強大，反而在各個方面的表現都變差了。例如，在代碼編寫任務中，融合后的智能體在L…

01-25

蘋果Siri將迎重大升級：iOS 27變身完整聊天機器人，深度融入系統不獨立

據報道，蘋果計劃在未來一年內對 Siri 進行兩次重大升級：首先在 iOS 26.4 中加入個性化功能，隨后在 iOS 27 內將 Siri徹底轉變為完整的聊天機器人。不出意外的話，我們最快將在今年 6 …

01-25

上海交大Optics GPT問世：為光學教學科研與工業設計注入AI新動能

為客觀評估 Optics GPT在光學專業能力上的實際水平，上海交大的大模型團隊構建了涵蓋光物理、光量子、光學設計、非線性光學、光計算與光通信六大方向的光領域專業評測集，并將Optics GPT 與多款…

01-25

利用 AI 偽造視頻冒充王室騙錢，比利時對一犯罪團伙展開調查

01-25

蘋果iOS 27系統Siri將升級為完整聊天機器人

01-25

九號公司CEO放話：未來十年電動車要超越燃油車

01-25

復旦團隊新突破：AI教學中“匹配度”成關鍵，合適比優秀更重要

01-25

斯坦福大學新研究：AI大模型推理機制與人類思維有何異同？

01-25

點擊查看更多 +

全站最新

雷軍談小米熔巖橙：色彩驚艷卻遇冷，個性與實用如何權衡成新課題

百度文庫與網盤重組PSIG事業群王穎直報李彥宏強化AI協同創新

從質疑到領跑：百度AI十四年深耕，終迎系統性優勢爆發期

雷軍談小米汽車熔巖橙：視覺驚艷卻遇冷，個性配色如何平衡市場？

重磅丨中國房地產深圳頭部新媒體年度頒獎典禮！

2026學習機怎么選？五款熱門機型大比拼，讓孩子學習更高效家長更安心！

熱門內容

本欄最新

每87秒下線一臺車身東風商用車D600智慧工廠開啟全球最大中重型商用車智造新篇

1月收官新機來襲：旗艦芯+大電池+直屏設計，1月底重磅登場

長安汽車牽手美的集團，長安啟源Q05“車控家”開啟智慧生活新體驗

吉利控股2030年藍圖：年銷650萬輛躋身全球前五，技術生態雙驅動領航未來

2026年新能源車迎三大升級！續航、智能、安全齊提升，購車好時機來了

九號智能電動車國內出貨量破千萬臺，以用戶為核心開啟新征程

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

DeepSeek大量招人，該梁文鋒上場了