滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

梁文鋒搭箭，黃仁勛難安

時間：2026-04-02 13:28:17 來源：飯盒財經編輯：快訊 IP：北京 發表評論無障礙通道

不發一言，全網卻在時刻盯梢。

3月29日晚至30日上午，DeepSeek經歷了一場大規模服務中斷。據環球時報，29日22時開始，網頁端與App全面卡頓，頻繁彈出“服務器繁忙”提示，相關功能無法正常使用。至30日清晨，仍有用戶反饋無法正常使用。

而后，“DeepSeek崩了”相關話題迅速沖上百度、微博、今日頭條等多個平臺的熱搜榜前十。海外科技圈也在關注，除了媒體報道，更有不少專業用戶進行實測，對比前后同一任務的執行結果。

對比外界的高度關注和推測，DeepSeek官方沒有進度通報，也沒有解釋原因。3月30日上午，官網發布公告：DeepSeek網頁/APP性能異常，服務狀態顯示“正常”。

3月中上旬，更是因為 OpenRouter上出現的一款名為Hunter Alpha神秘模型，而引發了猜測。當時，不少開發者認為這可能是V4的隱身測試版。后來，證明該神秘模型并非V4，是小米旗艦模型MiMo-V2-Pro的內部測試版本。而DeepSeek對該推測并未發聲。

一動一靜，微妙的張力來自梁文鋒：“箭”已上弦，但遲遲未發。

2024年年底V3，隨后的2025年年初R1發布，DeepSeek瞬間比肩OpenAI等巨頭，登頂中美等國App Store榜首。產品技術之外，因極低的算力成本，引發美股半導體板塊劇烈震蕩。現如今，行業正屏息以待梁文鋒的下一個大招——DeepSeek V4。然而，原本業內預期在今年一季度就會亮相的 V4，卻一再推遲。

2月、春節前后、3月初、最早4月，外界對DeepSeek V4發布的時間猜測一路后移。除此，V4的定位、架構、性能、上下文窗口、定價、供應鏈等情況也在高度關注中，傳聞不斷。

其中，一條供應鏈相關的報道，更是在技術之外引發了各種猜想。據路透社報道，兩位了解情況的消息人士表示，DeepSeek在即將進行重大模型更新之前，未向美國芯片制造商展示其即將推出的旗艦模型，這打破了行業標準做法。

短短幾行字，透露的是一個“釜底抽薪”的鏈路。

英偉達能撐起這萬億市值，靠的不僅僅是GPU硬件本身，還有其打磨了十幾年的CUDA軟件生態。CUDA就像是給全球AI開發者鋪好的一條路，沿著走總能“大力出奇跡”。但如真和上述報道透露的一樣，DeepSeek要做的便是鋪好了一條“繞過CUDA”的高速公路。

而更戲劇性的是，從2025年12月至今DeepSeek相關方面陸續發布的論文和開源項目來看，這些推測并非空穴來風。

拿著放大鏡找變化

當地時間3月29日傍晚，X平臺上，名為“AiBattle”的用戶發了一條推文。

The DeepSeek model that they serve on the WEB/APP may have been updated again

The model does seem to consistently identify itself as V3 now

The zero-shot coding outputs I’m getting now also seem different in style from the ones I got a few days ago

It needs more testing to be completely sure

翻譯過來，大概的意思就是：網頁和APP端上，DeepSeek模型可能已經再次更新。現在，這個模型似乎始終將其自身標識為V3版本。做了一些測試，發現零提示能力大漲，輸出的風格和幾天前不太一樣。但還需要進行更多測試才能完全確定結論。

配圖則是兩張鵜鶘騎自行車的前后對比圖。

通過這張對比圖，明顯能看到其空間與圖形代碼能力大幅提升。在畫面構圖、色彩搭配以及元素邏輯上，肉眼可見地碾壓一周前的版本。截至3月31日18:47，該條推文累計獲得162.8K個Views。

用SVG（可縮放矢量圖形）畫一只騎自行車的鵜鶘，常被視為大模型空間與渲染能力“試金石”的極限測試題。

這道測試題，來自全球知名的開源開發者、Django框架聯合創始人Simon Willison。他認為現在大模型刷榜的數據水分太大，而SVG本質上是由無數的坐標、曲線公式和顏色代碼組成的純代碼。讓一個沒有真手真眼的“純文本 AI”用代碼去精確描繪“一只鵜鶘”的生物特征和“一輛自行車”機械結構，能直接暴露出大模型的空間想象能力和代碼邏輯能力。

一天后，該用戶補充發布了“更多測試”的結果。

“AiBattle”表示，在7小時的宕機之后，DeepSeek可能再次對模型進行了修改。在停機之前，該模型自稱為V3版本。現在它又變回自稱“最新版本”。SVG的質量似乎也變得更差，回到了以前的狀態。

如“AiBattle”這樣的開發者并不是少數。AI圈如同被DeepSeek“斷更”，他們拿著放大鏡，試圖找到蛛絲馬跡，以證明V4已在弦上。

例如，他們發現知識庫截止日期可能悄悄延后了。有用戶發現，DeepSeek不開啟聯網搜索的前提下，知道2025年美國選舉結果，但對2026年2月的大事則一無所知，這使得外界推測新版本的知識截止日期可能是2026年1月。

例如，上下文token方面。2月11日，DeepSeek悄悄把現有模型的上下文窗口從128K擴到1M tokens，并將知識截止更新到2025年5月。社區很多人把這理解為V4相關基礎設施正在上線前測試。

底層技術論文，往往是新一代大模型的預告片和說明書。

對比外界的推測和社區的測試，更確定的是自2025年年底以來，DeepSeek發布的論文和開源的項目。

2025年12月31日，梁文鋒上傳發布了一篇名為《mHC: Manifold-Constrained Hyper-Connections》的論文。

這篇文章解決了傳統Hyper-Connections在大規模訓練中信號指數放大（最高可達3000×）導致的訓練崩潰問題，以及通過將HC的殘差空間投影到特定流形，恢復恒等映射（identity mapping）屬性，保證信息守恒。

論文中，梁文鋒的名字出現在作者一欄中。

2026年1月，DeepSeek在GitHub上發布了一項名為“Engram”的研究成果，并同步上傳了名為《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models（基于可擴展查找的條件記憶：大語言模型稀疏性的新維度）》的論文。

這一研究成果，被業內稱為“用哈希表替代大模型死記硬背”的神器。

這或許是梁文鋒準備的三支利箭。

有的放矢，想要榨干硬件的每一滴性能

如今的大模型軍備競賽中，頂級AI公司發布底層技術論文，早就不是傳統意義上的“秀肌肉”了。

這三支箭，自然也是有的放矢。

先看，mHC（Manifold-Constrained Hyper-Connections）。類似一個穩定的骨架，解決“練得出來”的問題。

當模型參數飆升到幾千億甚至萬億時，傳統的殘差連接會成為信息流通的“窄門”，但隨意增加跨層連接又會導致訓練崩潰。mHC通過將這些連接約束在特定的數學流形（雙隨機矩陣）上，保證了超大模型在極深、極寬的架構下依然能穩定訓練。

怎么直白的理解？

這種新型的連接結構，就相當于花一點點小錢，換來團隊高效率。就好像，在AI內部稍微調整了一下“部門間的溝通機制”，雖然增加了6-7%的溝通成本，但讓整個模型在學習時再也不會出現“配合混亂”的問題，變得更穩定、更聰明。

而Engram（條件記憶模塊），就像是外掛的硬盤，解決“記得住且夠聰明”的問題。

基于mHC搭好的超大模型骨架，Engram開始對“大腦”進行分區。過去的大模型把所有知識都死記硬背在昂貴的神經網絡權重里，導致“推理計算”和“記憶”搶占資源。Engram 引入了全新的稀疏性，把靜態知識打包成哈希表卸載到廉價的CPU內存里，通過O(1) 極速查找，從而把極其寶貴的GPU算力100%釋放出來，專門用于復雜的邏輯推理。

這種稀疏注意力，就相當于讓大模型學會“一目十行”和“抓重點”的能力。原本讓AI讀一篇長文，哪怕是廢話，也要逐字精讀。當AI獲得“一目十行”這一buff后，看長文的速度直接翻倍，計算壓力大大減輕。

更直白的理解，這種知識存儲，類似于把死記硬背變成了查字典。以前AI為了記住某本書是誰寫的、某國首都是哪這樣的固定知識，需要消耗大腦大量的算力去硬記。現在DeepSeek的做法是，把這些“死知識”拎出來單獨做成了一本“字典”。AI 遇到這種問題直接去“翻字典”，不用再耗費腦力，把算力全省下來用在“邏輯推理”和“思考”。

這三項技術看似解決不同問題，但背后的技術信仰完全一致：不迷信算力堆砌，通過極致的解耦，榨干硬件的每一滴性能。

但，這與硅谷所信奉的Scaling Law（規模法則）并不一致。Scaling Law的核心就是“大力出奇跡”，更多更先進的芯片，燒出更聰明的大模型。

這一路徑下，大模型越做越大，對算力的需求便是無底洞。這也是黃仁勛掛在嘴邊的“The more you buy，The more you save（買得越多，省得越多）”，讓人信奉的底層邏輯。

“算力溢價”的定價權是否會轉移

2025年GTC大會上，黃仁勛將他那句“買得越多，省得越多”，升級為了“The more you buy, the more you make（?買得越多，賺得越多）?”。

這句話的精妙之處，在于直接用超市打折區的標語，消解企業花幾十億美金采購顯卡的財務焦慮。在這套邏輯下，高昂的資本支出不知不覺成了極具性價比的投資。

但，如果奇跡不一定非要大力呢？

從行業慣例來看，過去幾年，全球大部分大模型在發布前，通常會和英偉達、AMD等芯片制造商共享主要模型的預發布版本，以確保其軟件在廣泛使用的硬件上高效運行。

底層技術論文在先，不確定的不利消息在后，心癢要撓未撓，利箭將射未射。

對于英偉達這樣體量的企業而言，自然并不擔心少賣了幾張卡。但，如果是開辟的路線被繞開呢？那關乎的是“算力溢價”的定價權是否會轉移？如果DeepSeek V4真的把多模態和Agent的成本打到極低，甚至讓手機或PC端側推理成為主流，那么硅谷奉為圭臬的“云端算力霸權”就會動搖。

當然，V4一天未發，以上這些都只是建立在“如果”之上的推測。

商業世界的殘酷在于，有想法有野心，并不意味著立刻就能鋪平新道。V4一直未發布，或許也有這類原因存在。

更多>同類資訊

剛剛！Seedance 2.0全面開放，不過限制明顯

04-02

字節推出「量原求索Labelease」，超5000名頂尖專家已入駐

04-02

商湯科技張震：以AI智能體重構漫短劇內容生產范式

04-02

京東集團副總裁被開除！涉業績不達標+合規問題

04-02

阿里云被執行210萬元

04-02

小米回應奧迪“喊話”：致敬quattro 祝沖刺挑戰成功

04-02

10萬筆低價單拒發貨盒馬商家稱運營失誤貨損超400萬

04-02

SpaceX已秘密提交IPO，融資規模史上最大

04-02

估值或超1.75萬億美元 SpaceX據報已秘密提交IPO文件

04-02

和解失敗馬斯克、美證監會將就推特欺詐案對簿公堂

04-02

聯想霸氣喊話：營收目標將超1000億美元 AI相收占總的1/3

04-02

消息稱亞馬遜洽購蘋果 iPhone 衛星供應商 Globalstar

04-02

馬斯克證實停產Model S/X、還剩不到600輛

04-02

2026米粉節今日開啟 10萬份特別禮與全渠道優惠上線

04-02

獲韶音投資，一家AI公司做了“硬件版OpenClaw”

04-02

點擊查看更多 +

全站最新

校企攜手育新才：具身智能機器人定向班開啟智能教育新篇章

宜賓市產業投資集團增資至59億

中國康富等在天津成立新能源投資合伙企業出資額38.36億

國軒高科旗下唐山電池公司增資至14.3億增幅約18%

蒙牛曾對優思益商標提出異議

中國國新等在廣東成立新公司注冊資本20億

熱門內容

本欄最新

特斯拉告別經典車型：馬斯克確認Model S與Model X停產全球庫存不足600輛

“益起同行·共筑美好”西雙版納茶山行：共赴茶園盛會助力茶產業新發展

《兒童陪伴機器人白皮書》發布三周年：以標準引領，為孩子打造貼心“機器人伙伴”

4月2日19點雷軍親上陣，直播拆解新SU7，揭秘核心技術升級亮點

中港跨境物流怎么選？友旗物流：20年經驗構建全場景服務網絡成優選

小紅書廣告預算分配秘籍：資源診斷、多維權衡與動態調整全解析

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

梁文鋒搭箭，黃仁勛難安