岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

DeepSeek大量招人,該梁文鋒上場了

   時間:2026-01-14 21:08:37 來源:鳳凰網科技編輯:快訊 IP:北京 發表評論無障礙通道
 

摘要:

早在2025年11月,DeepSeek還開放過行政招聘,據相關人士表述“是因為團隊大了,需要更多的行政伙伴”。

鳳凰網科技 出品

作者|姜凡

編輯|董雨晴

雖然距離春節還有些時日,但國內科技圈的節奏似乎已經提前進入了假期模式,唯獨 DeepSeek 是個例外。

就在昨天,DeepSeek 毫無預兆地在 GitHub 上開源了新模塊 Engram 的相關代碼,并發布了一篇題為《Conditional Memory via Scalable Lookup》的論文。更早一點,在元旦當天,他們還甩出了一篇關于模型架構穩定性的《mHC》。

這兩篇硬核論文的作者列表中,都赫然出現了 DeepSeek 創始人梁文鋒的名字。這種高密度的技術輸出,顯然不是為了湊年底的 KPI,而是在向外界傳遞一個明確的信號:在沉默的這段時間里,DeepSeek 并沒有休息,他們在為下一代模型積攢彈藥。

旺盛的招聘需求似乎印證了這個觀點。鳳凰網科技在檢索社交媒體信息后發現,DeepSeek近期正在大量招人,放出了多個技術核心崗位招聘,包括深度學習研究員(負責LLM各個方向的前沿探索,如預訓練、alignment、codemath、backbone、multimodal等)、深度學習研發工程師(LLM預訓練數據/搜索策略相關)、大模型全棧工程師(算法與工程并重,歸屬于各個前沿探索方向,除了實現還會參與一些環境的部署和搭建)、全棧開發工程師、核心系統研發工程署。且據招聘者表述,校招、社招、實習均開放,另有產品、設計、數據百曉生等崗位開放。

值得一提的是,根據此前梁文鋒署名的論文作者名單,整個DeepSeek的人員穩定性極高,證明此次招聘主要是擴招需求。另據表述,大部分崗位都可以駐扎在北京或杭州。和此前多數崗位需要去杭州已有不同。早在2025年11月,DeepSeek還開放過行政招聘,據相關人士表述“是因為團隊大了,需要更多的行政伙伴”。

現在,彈藥已備好,或許真的該梁文鋒上場了。

梁文鋒已提前開啟“春節檔”

DeepSeek的這個“春節檔”已提前開啟。就在全行業都在盤點 2025 年應用層得失的時候,DeepSeek把目光鎖在了架構層。

最新發布的Engram研究是與北京大學合作完成的。這項研究直指當前Transformer 架構的一個痛點:大模型雖然通過 MoE 實現了“條件計算”,但缺乏原生的“條件記憶”。現在的模型記東西太笨,只能靠計算來模擬檢索。DeepSeek提出的 Engram 模塊,要給大模型裝上一個外掛式的“硬盤”,讓它能像查字典一樣,以 O(1) 的時間復雜度調取知識,而不是靠算力硬抗。

在元旦發布的《mHC:流形約束超連接》中,梁文鋒和他的團隊解決的是另一個問題——超大規模模型的訓練穩定性。隨著模型越來越大,傳統的殘差連接開始失效,訓練容易崩潰。DeepSeek 用一套數學方法,把神經網絡的連接方式約束在特定的流形空間里,恢復了信息傳遞的穩定性。

實驗表明,在 27B 參數的混合專家模型上,mHC 展現出穩定的訓練曲線,最終損失相比基線有降低。

DeepSeek 團隊還為 mHC 架構開發了一系列基礎設施優化。他們使用 TileLang 框架實現了多個融合內核,將原本分散的操作合并執行以減少內存訪問次數。針對 Sinkhorn-Knopp 算法,他們設計了專門的前向和反向內核,在芯片上重新計算中間結果以避免存儲開銷。在流水線并行方面,團隊擴展了 DualPipe 調度策略,通過將 MLP 層的特定內核放在高優先級計算流上執行,實現了計算與通信的重疊。這些優化讓 mHC 在保持性能優勢的同時,減少了額外開銷。

回看過去一年,DeepSeek 究竟在做什么?如果說 V2 和 V3 是證明了“團隊能把 MoE 做得很好”,那么 DeepSeek 的這一年,則是在試圖回答“除了 MoE,大模型還需要什么”。

首先是記憶機制的重構。在 Engram 的設計中,DeepSeek 發現了一個驚人的 U 型擴展規律。他們通過實驗證明,純粹的 MoE 并不是最優解。在同等參數量和計算量(Iso-FLOPs)的限制下,如果把 20%-25% 的資源分給靜態記憶(Engram),剩下的分給神經計算(MoE),模型的效果才是最好的。這是一個反直覺的發現:有時候,少算一點,多記一點,反而更聰明。

數據支撐了這一理論。DeepSeek 將 Engram 擴展到了 270 億參數規模。結果顯示,這個外掛記憶模塊不僅讓模型背書能力變強了(MMLU 提升 3.4),更意外的是,它讓模型變聰明了,BBH 推理能力提升 5.0,數學能力提升 2.4。甚至在“大海撈針”這種長文本測試中,準確率直接從 84.2% 飆升到了 97.0%。這說明,當模型不需要耗費腦力去死記硬背時,它就能騰出更多的注意力去處理復雜的邏輯推理。

其次是底層連接的修補。在 mHC 的研究中,DeepSeek 團隊展現了極強的工程與數學結合能力。他們不只是提出了理論,還針對硬件做了一系列“變態”級的優化:擴展 DualPipe 調度策略,重新設計 Sinkhorn-Knopp 算法的內核,甚至為了減少顯存訪問,把分散的操作強行融合。這些優化讓 mHC 架構在 27B 規模的模型上,訓練損失比基線降低了 0.021,推理能力提升 2.1%。

這一年,DeepSeek 并沒有在應用層的紅海里戀戰,而是退回到了那個最枯燥、最硬核的角落,試圖把 Transformer 這座大廈的地基再夯實一點。Engram 解決了“記不住”和“推理慢”的問題,mHC 解決了“長不大”和“練不穩”的問題。

這讓一年時間過去,DeepSeek還在神壇之上。用一位行業人士的話說,“DeepSeek這家公司始終在創新”。

V4真的要來了?

現在高潮或許快來了,所有的線索都指向了同一個方向:DeepSeek V4。

如果我們把這兩篇論文疊加在一起看,V4的輪廓已經呼之欲出。它極大概率不會是一個單純堆砌參數的龐然大物,而是一個架構極其精巧的“縫合怪”:它將擁有MoE帶來的極致計算效率,同時集成了Engram帶來的海量低成本記憶,底層則由 mHC架構支撐其在超大規模下的訓練穩定性。

Engram的論文中提到了一個細節:這種架構支持“預取-重疊”策略,可以利用CPU內存來存知識,GPU專心算邏輯。這意味著,V4極有可能在保持推理成本低廉的同時,擁有遠超當前一代模型的知識容量和長上下文處理能力。這對于目前受困于顯存成本的行業來說,可能又是一次降維打擊。

mHC的成功驗證意味著DeepSeek已經掌握了訓練更大規模多模態模型、甚至萬億參數模型的“穩定器”。對于算力資源本就不富裕的國內 AI 圈,這種算法層面的效率提升,比單純購買幾千張英偉達芯片更有戰略意義。

技術拼圖已經湊齊,基礎設施的優化代碼也已上傳GitHub。梁文鋒在這個時間點連續拋出硬核研究,顯然不僅僅是為了學術交流。這更像是一場發布會前的“技術路演”。

春節將至,萬物閉藏,但這往往也是驚雷孕育的時刻。DeepSeek V4的發令槍,或許已經握在了梁文鋒的手中,只等那最后一聲槍響。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 国产精品欧美综合 | 美国黑人一级大黄 | 福利一区二区 | 天堂在线亚洲 | 免费在线观看日韩av | 黄色片欧美 | 国内精品免费视频 | 黄色片免费视频 | 中文字幕综合在线 | 欧美区在线 | 免费一级片在线观看 | 国产xxx在线观看 | 国产一级淫片a视频免费观看 | 亚洲色图片区 | 永久免费网站视频在线观看 | 欧美视频亚洲视频 | 九九精品在线播放 | 久久免费在线观看视频 | 日本一区二区精品视频 | 成年人视频网址 | 国产精品第十页 | 色就是色欧美色图 | 在线观看免费黄视频 | 成人免费在线播放 | 国内精品久久久久久久 | 黄色小视频在线 | 伊人精品影院 | 久久国产香蕉视频 | 中文字幕精品三区 | 四虎影院久久 | 九九综合网 | 午夜资源| 国产又色又爽又黄又免费 | 日本欧美三级 | 日韩www视频 | 黄色成人小视频 | 丁香六月av | 亚洲视频在线观看免费 | 蜜臀久久99精品久久久久久宅男 | 一区二区欧美日韩 | 精品伊人久久 |