不發一言,全網卻在時刻盯梢。
3月29日晚至30日上午,DeepSeek經歷了一場大規模服務中斷。據環球時報,29日22時開始,網頁端與App全面卡頓,頻繁彈出“服務器繁忙”提示,相關功能無法正常使用。至30日清晨,仍有用戶反饋無法正常使用。
而后,“DeepSeek崩了”相關話題迅速沖上百度、微博、今日頭條等多個平臺的熱搜榜前十。海外科技圈也在關注,除了媒體報道,更有不少專業用戶進行實測,對比前后同一任務的執行結果。
對比外界的高度關注和推測,DeepSeek官方沒有進度通報,也沒有解釋原因。3月30日上午,官網發布公告:DeepSeek網頁/APP性能異常,服務狀態顯示“正常”。
3月中上旬,更是因為 OpenRouter上出現的一款名為Hunter Alpha神秘模型,而引發了猜測。當時,不少開發者認為這可能是V4的隱身測試版。后來,證明該神秘模型并非V4,是小米旗艦模型MiMo-V2-Pro的內部測試版本。而DeepSeek對該推測并未發聲。
一動一靜,微妙的張力來自梁文鋒:“箭”已上弦,但遲遲未發。
2024年年底V3,隨后的2025年年初R1發布,DeepSeek瞬間比肩OpenAI等巨頭,登頂中美等國App Store榜首。產品技術之外,因極低的算力成本,引發美股半導體板塊劇烈震蕩。現如今,行業正屏息以待梁文鋒的下一個大招——DeepSeek V4。然而,原本業內預期在今年一季度就會亮相的 V4,卻一再推遲。
2月、春節前后、3月初、最早4月,外界對DeepSeek V4發布的時間猜測一路后移。除此,V4的定位、架構、性能、上下文窗口、定價、供應鏈等情況也在高度關注中,傳聞不斷。
其中,一條供應鏈相關的報道,更是在技術之外引發了各種猜想。據路透社報道,兩位了解情況的消息人士表示,DeepSeek在即將進行重大模型更新之前,未向美國芯片制造商展示其即將推出的旗艦模型,這打破了行業標準做法。
短短幾行字,透露的是一個“釜底抽薪”的鏈路。
英偉達能撐起這萬億市值,靠的不僅僅是GPU硬件本身,還有其打磨了十幾年的CUDA軟件生態。CUDA就像是給全球AI開發者鋪好的一條路,沿著走總能“大力出奇跡”。但如真和上述報道透露的一樣,DeepSeek要做的便是鋪好了一條“繞過CUDA”的高速公路。
而更戲劇性的是,從2025年12月至今DeepSeek相關方面陸續發布的論文和開源項目來看,這些推測并非空穴來風。
拿著放大鏡找變化
當地時間3月29日傍晚,X平臺上,名為“AiBattle”的用戶發了一條推文。
The DeepSeek model that they serve on the WEB/APP may have been updated again
The model does seem to consistently identify itself as V3 now
The zero-shot coding outputs I’m getting now also seem different in style from the ones I got a few days ago
It needs more testing to be completely sure
翻譯過來,大概的意思就是:網頁和APP端上,DeepSeek模型可能已經再次更新。現在,這個模型似乎始終將其自身標識為V3版本。做了一些測試,發現零提示能力大漲,輸出的風格和幾天前不太一樣。但還需要進行更多測試才能完全確定結論。
配圖則是兩張鵜鶘騎自行車的前后對比圖。
通過這張對比圖,明顯能看到其空間與圖形代碼能力大幅提升。在畫面構圖、色彩搭配以及元素邏輯上,肉眼可見地碾壓一周前的版本。截至3月31日18:47,該條推文累計獲得162.8K個Views。
用SVG(可縮放矢量圖形)畫一只騎自行車的鵜鶘,常被視為大模型空間與渲染能力“試金石”的極限測試題。
這道測試題,來自全球知名的開源開發者、Django框架聯合創始人Simon Willison。他認為現在大模型刷榜的數據水分太大,而SVG本質上是由無數的坐標、曲線公式和顏色代碼組成的純代碼。讓一個沒有真手真眼的“純文本 AI”用代碼去精確描繪“一只鵜鶘”的生物特征和“一輛自行車”機械結構,能直接暴露出大模型的空間想象能力和代碼邏輯能力。
一天后,該用戶補充發布了“更多測試”的結果。
“AiBattle”表示,在7小時的宕機之后,DeepSeek可能再次對模型進行了修改。在停機之前,該模型自稱為V3版本。現在它又變回自稱“最新版本”。SVG的質量似乎也變得更差,回到了以前的狀態。
如“AiBattle”這樣的開發者并不是少數。AI圈如同被DeepSeek“斷更”,他們拿著放大鏡,試圖找到蛛絲馬跡,以證明V4已在弦上。
例如,他們發現知識庫截止日期可能悄悄延后了。有用戶發現,DeepSeek不開啟聯網搜索的前提下,知道2025年美國選舉結果,但對2026年2月的大事則一無所知,這使得外界推測新版本的知識截止日期可能是2026年1月。
例如,上下文token方面。2月11日,DeepSeek悄悄把現有模型的上下文窗口從128K擴到1M tokens,并將知識截止更新到2025年5月。社區很多人把這理解為V4相關基礎設施正在上線前測試。
底層技術論文,往往是新一代大模型的預告片和說明書。
對比外界的推測和社區的測試,更確定的是自2025年年底以來,DeepSeek發布的論文和開源的項目。
2025年12月31日,梁文鋒上傳發布了一篇名為《mHC: Manifold-Constrained Hyper-Connections》的論文。
這篇文章解決了傳統Hyper-Connections在大規模訓練中信號指數放大(最高可達3000×)導致的訓練崩潰問題,以及通過將HC的殘差空間投影到特定流形,恢復恒等映射(identity mapping)屬性,保證信息守恒。
論文中,梁文鋒的名字出現在作者一欄中。
2026年1月,DeepSeek在GitHub上發布了一項名為“Engram”的研究成果,并同步上傳了名為《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models(基于可擴展查找的條件記憶:大語言模型稀疏性的新維度)》的論文。
這一研究成果,被業內稱為“用哈希表替代大模型死記硬背”的神器。
這或許是梁文鋒準備的三支利箭。
有的放矢,想要榨干硬件的每一滴性能
如今的大模型軍備競賽中,頂級AI公司發布底層技術論文,早就不是傳統意義上的“秀肌肉”了。
這三支箭,自然也是有的放矢。
先看,mHC(Manifold-Constrained Hyper-Connections)。類似一個穩定的骨架,解決“練得出來”的問題。
當模型參數飆升到幾千億甚至萬億時,傳統的殘差連接會成為信息流通的“窄門”,但隨意增加跨層連接又會導致訓練崩潰。mHC通過將這些連接約束在特定的數學流形(雙隨機矩陣)上,保證了超大模型在極深、極寬的架構下依然能穩定訓練。
怎么直白的理解?
這種新型的連接結構,就相當于花一點點小錢,換來團隊高效率。就好像,在AI內部稍微調整了一下“部門間的溝通機制”,雖然增加了6-7%的溝通成本,但讓整個模型在學習時再也不會出現“配合混亂”的問題,變得更穩定、更聰明。
而Engram(條件記憶模塊),就像是外掛的硬盤,解決“記得住且夠聰明”的問題。
基于mHC搭好的超大模型骨架,Engram開始對“大腦”進行分區。過去的大模型把所有知識都死記硬背在昂貴的神經網絡權重里,導致“推理計算”和“記憶”搶占資源。Engram 引入了全新的稀疏性,把靜態知識打包成哈希表卸載到廉價的CPU內存里,通過O(1) 極速查找,從而把極其寶貴的GPU算力100%釋放出來,專門用于復雜的邏輯推理。
這種稀疏注意力,就相當于讓大模型學會“一目十行”和“抓重點”的能力。原本讓AI讀一篇長文,哪怕是廢話,也要逐字精讀。當AI獲得“一目十行”這一buff后,看長文的速度直接翻倍,計算壓力大大減輕。
更直白的理解,這種知識存儲,類似于把死記硬背變成了查字典。以前AI為了記住某本書是誰寫的、某國首都是哪這樣的固定知識,需要消耗大腦大量的算力去硬記。現在DeepSeek的做法是,把這些“死知識”拎出來單獨做成了一本“字典”。AI 遇到這種問題直接去“翻字典”,不用再耗費腦力,把算力全省下來用在“邏輯推理”和“思考”。
這三項技術看似解決不同問題,但背后的技術信仰完全一致:不迷信算力堆砌,通過極致的解耦,榨干硬件的每一滴性能。
但,這與硅谷所信奉的Scaling Law(規模法則)并不一致。Scaling Law的核心就是“大力出奇跡”,更多更先進的芯片,燒出更聰明的大模型。
這一路徑下,大模型越做越大,對算力的需求便是無底洞。這也是黃仁勛掛在嘴邊的“The more you buy,The more you save(買得越多,省得越多)”,讓人信奉的底層邏輯。
“算力溢價”的定價權是否會轉移
2025年GTC大會上,黃仁勛將他那句“買得越多,省得越多”,升級為了“The more you buy, the more you make(?買得越多,賺得越多)?”。
這句話的精妙之處,在于直接用超市打折區的標語,消解企業花幾十億美金采購顯卡的財務焦慮。在這套邏輯下,高昂的資本支出不知不覺成了極具性價比的投資。
但,如果奇跡不一定非要大力呢?
從行業慣例來看,過去幾年,全球大部分大模型在發布前,通常會和英偉達、AMD等芯片制造商共享主要模型的預發布版本,以確保其軟件在廣泛使用的硬件上高效運行。
底層技術論文在先,不確定的不利消息在后,心癢要撓未撓,利箭將射未射。
對于英偉達這樣體量的企業而言,自然并不擔心少賣了幾張卡。但,如果是開辟的路線被繞開呢?那關乎的是“算力溢價”的定價權是否會轉移?如果DeepSeek V4真的把多模態和Agent的成本打到極低,甚至讓手機或PC端側推理成為主流,那么硅谷奉為圭臬的“云端算力霸權”就會動搖。
當然,V4一天未發,以上這些都只是建立在“如果”之上的推測。
商業世界的殘酷在于,有想法有野心,并不意味著立刻就能鋪平新道。V4一直未發布,或許也有這類原因存在。











