新智元報(bào)道
編輯:Aeneas kingHZ
DeepSeek V4,據(jù)說明天就要上線了?這是首個(gè)匹敵頂尖閉源模型的開源模型,被網(wǎng)友評(píng)為「一鯨落萬物生」。泄露的基準(zhǔn)測(cè)試顯示,它在SWE-bench Verified上取得了83.7%,已經(jīng)超越Opus 4.5和GPT-5.2!
就在剛剛,一張圖在全網(wǎng)瘋狂刷屏了!
據(jù)說,DeepSeek V4的基準(zhǔn)測(cè)試已經(jīng)泄露,整個(gè)AI圈都震了。
有大V總結(jié)道:AI編程大戰(zhàn),已經(jīng)達(dá)到了新的高峰。
泄露信息顯示,DeepSeek V4在SWE-bench Verified上取得了驚人的83.7%,超過了Claude Opus 4.5(80.9%)和GPT-5.2(80%)。
可以說,100萬+上下文長(zhǎng)度+Engram記憶機(jī)制=真正的全倉庫級(jí)推理能力。
他驚呼:閉源模型占據(jù)主導(dǎo)的時(shí)代,是否正在走向終結(jié)?
同時(shí)泄露的,還有下面這一張圖。
其中,它的SWE-Bench Verified得分,達(dá)到了83.7%。如果這個(gè)數(shù)字最終被確認(rèn),將直接改寫當(dāng)前「最強(qiáng)代碼模型」排名!
相比之下,其他模型的得分都比較落后——
DeepSeek V3.2 Thinking:73.1%
GPT-5.2 High:80.0%
Kimi K2.5 Thinking:76.8%
Gemini 3.0 Pro:76.2%
這不是小幅領(lǐng)先,而是直接躍升到第一梯隊(duì)頂端!
不僅如此,真正令人警惕的,并不只有編程能力,V4的其他分?jǐn)?shù)也很驚人。
AIME 2026:99.4%
IMO Answer Bench:88.4%
FrontierMath Tier 4:23.5% (直接達(dá)到GPT-5.2的11倍)
這意味著什么?
如果這些數(shù)據(jù)屬實(shí),DeepSeek V4不是「又一個(gè)強(qiáng)模型」,而是一次能力曲線的陡峭抬升!
它可能會(huì)同時(shí)在代碼、競(jìng)賽數(shù)學(xué)、前沿?cái)?shù)學(xué)推理三個(gè)高難度維度上,刷新現(xiàn)有天花板。
還有網(wǎng)友綜合了全網(wǎng)DeepSeek V4消息,不僅在Humaneval、SWE_bench、上下文和成本上刷新成績(jī),而且發(fā)布時(shí)間預(yù)計(jì)在春節(jié),也就是明天!
Humaneval:約90%(來自Reddit社區(qū)泄露 + Skywork AI總結(jié))
SWE-bench:進(jìn)入「>80%」區(qū)間(在Wavespeed對(duì)比帖中引用,根據(jù) Claude Opus 基準(zhǔn)推測(cè)得出)
上下文長(zhǎng)度:高達(dá) 100 萬 token(在Reddit AI Insider和博客總結(jié)帖中反復(fù)出現(xiàn)的傳聞)
成本:據(jù)稱比OpenAI便宜20到40倍(根據(jù)DeepSeek V3/R1 API 定價(jià)與前沿模型層級(jí)的對(duì)比推算)
預(yù)計(jì)發(fā)布時(shí)間:2月17日(農(nóng)歷新年期間,泄露文章中廣泛報(bào)道)
如果是真的,DeepSeek將又一次改變游戲規(guī)則。
總之,DeepSeek V4的發(fā)布時(shí)間,很可能是周一。據(jù)說,這是首個(gè)不落后于閉源頂尖模型,甚至能與之匹敵甚至超越的模型。
有人說,以DeeepSeek-V4為代表的開源模型需要跨越的差距越來越大了!
很期待,當(dāng)V4等中國開源模型發(fā)布后,這一差距會(huì)如何隨著時(shí)間演變。
被打假了?
不過,這幾張流傳出來的基準(zhǔn)測(cè)試,很快被懷疑是假的。
比如在官方評(píng)分系統(tǒng)下,不可能有模型達(dá)到99.4%的分?jǐn)?shù)。最高分只能是119/120(99.2%)或 120/120(100%)。
另一個(gè)證據(jù),就更加增加了這幾張基準(zhǔn)測(cè)試的可疑性。
Epoch AI也確認(rèn),F(xiàn)rontierMath的數(shù)據(jù)是偽造的,因?yàn)橹挥兴麄兒蚈penAI有權(quán)對(duì)該數(shù)據(jù)集進(jìn)行評(píng)估。至少有兩個(gè)基準(zhǔn)測(cè)試被打假,證明這些圖可信度確實(shí)不高。
而且,據(jù)說DeepSeek新模型的官方發(fā)布時(shí)間,已經(jīng)被推遲到了三月底。
如果模型本體還在封閉開發(fā)階段,那么所謂83.7%的 SWE-Bench Verified,是基于哪個(gè)版本跑出來的?是內(nèi)部原始checkpoint?還是已經(jīng)定型的最終權(quán)重?
另外,對(duì)于如今的大模型,分?jǐn)?shù)本身并不是終點(diǎn),「收據(jù)」才是關(guān)鍵。
這個(gè)83.7%的分?jǐn)?shù)是怎么跑出來的?是否做了pass@k報(bào)告?軟件工程實(shí)驗(yàn)臺(tái)的工具棧如何配置?使用了什么版本的harness?是否基于最新數(shù)據(jù)集版本評(píng)估?有沒有做污染檢查?失敗案例如何分解?
如果沒有這些細(xì)節(jié),所謂的第一名,也只是一個(gè)數(shù)字而已。
另外,就算泄露的分?jǐn)?shù)很驚人,但真正有說服力的,是可復(fù)現(xiàn)的運(yùn)行細(xì)節(jié)。
比如,精確的評(píng)測(cè)線束、配線組、不穩(wěn)定測(cè)試如何處理、SWE實(shí)驗(yàn)臺(tái)上工具調(diào)用失敗如何重試?基礎(chǔ)模型本身的能力貢獻(xiàn)有多少?代理框架又放大了多少性能?
否則,這種所謂的刷新排行榜,就只是更像一次市場(chǎng)營銷行為。
還有人提出,技術(shù)基準(zhǔn)測(cè)試得分提高,也不意味著能駕馭現(xiàn)實(shí)中混亂的代碼庫。很多所謂更聰明的模型,在上下文窗口被塞滿后,就迅速崩潰了。
有趣的是,即便是假的,這也說明DeepSeek的確「深得人心」,網(wǎng)上的夸大其詞的「泄露」就是DeepSeek成功最大的標(biāo)志。
不過,DeepSeek V4的上下文,一定是一個(gè)殺手锏。
100萬長(zhǎng)上下文來了,
其他還會(huì)遠(yuǎn)嗎?
最近,已經(jīng)沉寂已久的DeepSeek,忽然在官網(wǎng)和移動(dòng)應(yīng)用上推出了新模型的灰度測(cè)試。
根據(jù)流傳的信息,該默寫的參數(shù)可能僅為200B,且未采用DeepSeek與北大聯(lián)合開發(fā)的Engram條件記憶機(jī)制。
但只要通過簡(jiǎn)單的測(cè)試就會(huì)發(fā)現(xiàn),這個(gè)新版本有一個(gè)大突破——超長(zhǎng)的上下文窗口,包含100萬個(gè)token,可以一次性處理《三體》三部曲體量的長(zhǎng)文本。
奇怪的是,API文檔并沒有更新,上下文長(zhǎng)度依然為128K。
Hugging Face、GitHub上,DeepSeek完全沒有更新任何消息。
業(yè)內(nèi)普遍猜測(cè),DeepSeek很可能在測(cè)試V4-lite版。
在DeepSeek V3的基礎(chǔ)上,國產(chǎn)模型已經(jīng)刷新了開源最好成績(jī)。
深入研究代碼后,meta科學(xué)家Zhuokai Zhao得出觀察結(jié)論:
LLM架構(gòu)的前沿探索已基本收斂。
……
MLA + sigmoid =稀疏專家(MoE)+ 共享專家 + 無輔助損失 + DSA + MTP正成為前沿稀疏專家模型的標(biāo)準(zhǔn)配方。
……
設(shè)計(jì)空間已被充分探索。
而DeepSeek不僅更新了上下文,在V3.2版本之后,在模型架構(gòu)、記憶和視覺推理上,持續(xù)輸出,不斷創(chuàng)新:
100萬上下文長(zhǎng)度,很可能就是DeepSeek的另一個(gè)絕招。
這次的低調(diào)測(cè)試,或許就是DeepSeek大更新的「試點(diǎn)」,是招「妙手」。
100萬token上下文都來了,其他還會(huì)遠(yuǎn)嗎?
總之,大家對(duì)DeepSeek V4充滿期待:
DeepSeek V4,
全新編程之王!
另外,在一個(gè)overchat.ai的網(wǎng)站上,我們也發(fā)現(xiàn)了不少關(guān)于DeepSeek V4的蛛絲馬跡。
根據(jù)這個(gè)網(wǎng)站的信息,DeepSeek V4預(yù)計(jì)將在2026年2月17日發(fā)布,配合春節(jié)發(fā)布。(什么逆天操作)
DeepSeek員工的內(nèi)部測(cè)試顯示,V4 在編碼任務(wù)方面可能超越Anthropic的Claude和 OpenAI的GPT系列。關(guān)鍵的基準(zhǔn)是SWE-bench,Claude Opus 4.5目前以80.9%的得分領(lǐng)先。
DeepSeek預(yù)計(jì)將以開放權(quán)重模型形式發(fā)布V4,延續(xù)一貫的開源傳統(tǒng)。
DeepSeek V4提供倉庫層級(jí)推理——能夠理解一個(gè)文件中的變化如何影響項(xiàng)目中其他文件,這對(duì)處理大型代碼庫或復(fù)雜分布式系統(tǒng)的開發(fā)者尤其有價(jià)值。
另外,DeepSeek V4還引入了新的Engram條件存儲(chǔ)系統(tǒng),實(shí)現(xiàn)近乎無限的上下文檢索,使其能夠處理極長(zhǎng)的編碼提示,并在大型代碼庫中保持上下文。
網(wǎng)站介紹說,DeepSeek V4自詡為專業(yè)的“編程之王”挑戰(zhàn)者。
DeepSeek之前的模型,尤其是V3和R1,證明了開源AI模型可以以極低成本與專有模型競(jìng)爭(zhēng)。V4預(yù)計(jì)將在這一成功基礎(chǔ)上,擁有更令人印象深刻的編碼能力。
四大核心突破,成為游戲規(guī)則巔峰者
除了上下文更新外,DeepSeek手里還有這些牌——Engram、mHC、DAS 2.0……
不知道DeepSeek V4能帶來哪些新的驚喜!
上個(gè)月初,Information爆料稱,DeepSeek計(jì)劃在2月中旬,也正是春節(jié)前后,正式發(fā)布下一代V4模型。
V4的最大提升,就是在編程能力上。它的編碼實(shí)力,據(jù)說可以趕超Claude、ChatGPT等頂尖閉源模型。
而以下四個(gè)方向,就是它實(shí)現(xiàn)的核心突破,堪稱game changer的級(jí)別。
編程能力:劍指Claude王座
2025開年,Claude一夜之間成為公認(rèn)的編程之王。無論是代碼生成、調(diào)試還是重構(gòu),幾乎沒有對(duì)手。但現(xiàn)在,這個(gè)格局可能要變了。
知情人士透露,DeepSeek內(nèi)部的初步基準(zhǔn)測(cè)試顯示,V4在編程任務(wù)上的表現(xiàn)已經(jīng)超越了目前的主流模型,包括Claude系列、GPT系列。
如果消息屬實(shí),DeepSeek將從追趕者一步躍升為領(lǐng)跑者——至少在編程這個(gè)AI應(yīng)用最核心的賽道上。
超長(zhǎng)上下文代碼處理
V4的另一個(gè)技術(shù)突破在于,處理和解析極長(zhǎng)代碼提示詞的能力。
對(duì)于日常寫幾十行代碼的用戶來說,這可能感知不強(qiáng)。但對(duì)于真正在大型項(xiàng)目中工作的軟件工程師來說,這是一個(gè)革命性的能力。
想象一下:你有一個(gè)幾萬行代碼的項(xiàng)目,你需要AI理解整個(gè)代碼庫的上下文,然后在正確的位置插入新功能、修復(fù)bug或者進(jìn)行重構(gòu)。以前的模型往往會(huì)忘記之前的代碼,或者在長(zhǎng)上下文中迷失方向。
V4在這個(gè)維度上取得了技術(shù)突破,能夠一次性理解更龐大的代碼庫上下文。
這對(duì)于企業(yè)級(jí)開發(fā)來說,是真正的生產(chǎn)力革命。
算法提升,不易出現(xiàn)衰減
據(jù)透露,V4在訓(xùn)練過程的各個(gè)階段,對(duì)數(shù)據(jù)模式的理解能力也得到了提升,并且不容易出現(xiàn)衰減。
AI訓(xùn)練需要模型從海量數(shù)據(jù)集中反復(fù)學(xué)習(xí),但學(xué)到的模式/特征可能會(huì)在多輪訓(xùn)練中逐漸衰減。
通常來說,擁有大量AI芯片儲(chǔ)備的開發(fā)者可以通過增加訓(xùn)練輪次來緩解這一問題。
推理能力提升:更嚴(yán)密、更可靠
知情人士還透露了一個(gè)關(guān)鍵細(xì)節(jié):用戶會(huì)發(fā)現(xiàn)V4的輸出在邏輯上更加嚴(yán)密和清晰。
這不是一個(gè)小改進(jìn)。這意味著模型在整個(gè)訓(xùn)練流程中對(duì)數(shù)據(jù)模式的理解能力有了質(zhì)的提升,而且更重要的是——性能沒有出現(xiàn)退化。
在AI模型的世界里,沒有退化是一個(gè)非常高的評(píng)價(jià)。很多模型在提升某些能力時(shí),會(huì)不可避免地犧牲其他維度的表現(xiàn)。V4似乎找到了一個(gè)更優(yōu)的平衡點(diǎn)。









