格隆匯2月16日|據新智元,一張圖在全網瘋狂刷屏了!據說,DeepSeek V4的基準測試已經泄露,整個AI圈都震了。有大V總結道:AI編程大戰,已經達到了新的高峰。泄露信息顯示,DeepSeek V4在SWE-bench Verified上取得了驚人的83.7%,超過了Claude Opus 4.5(80.9%)和GPT-5.2(80%)。可以說,100萬+上下文長度+Engram記憶機制=真正的全倉庫級推理能力。
還有網友綜合了全網DeepSeek V4消息,不僅在Humaneval、SWE_bench、上下文和成本上刷新成績,而且發布時間預計在春節,也就是明天!成本:據稱比OpenAI便宜20到40倍,預計發布時間:2月17日。如果是真的,DeepSeek將又一次改變游戲規則。總之,DeepSeek V4的發布時間,很可能是周一。據說,這是首個不落后于閉源頂尖模型,甚至能與之匹敵甚至超越的模型。
不過,這幾張流傳出來的基準測試,很快被懷疑是假的。比如在官方評分系統下,不可能有模型達到99.4%的分數。最高分只能是99.2%或 100%。另Epoch AI也確認,FrontierMath的數據是偽造的,因為只有他們和OpenAI有權對該數據集進行評估。至少有兩個基準測試被打假,證明這些圖可信度確實不高。有趣的是,即便是假的,這也說明DeepSeek的確深得人心,網上的夸大其詞的泄露就是DeepSeek成功最大的標志。
還有網友綜合了全網DeepSeek V4消息,不僅在Humaneval、SWE_bench、上下文和成本上刷新成績,而且發布時間預計在春節,也就是明天!成本:據稱比OpenAI便宜20到40倍,預計發布時間:2月17日。如果是真的,DeepSeek將又一次改變游戲規則。總之,DeepSeek V4的發布時間,很可能是周一。據說,這是首個不落后于閉源頂尖模型,甚至能與之匹敵甚至超越的模型。
不過,這幾張流傳出來的基準測試,很快被懷疑是假的。比如在官方評分系統下,不可能有模型達到99.4%的分數。最高分只能是99.2%或 100%。另Epoch AI也確認,FrontierMath的數據是偽造的,因為只有他們和OpenAI有權對該數據集進行評估。至少有兩個基準測試被打假,證明這些圖可信度確實不高。有趣的是,即便是假的,這也說明DeepSeek的確深得人心,網上的夸大其詞的泄露就是DeepSeek成功最大的標志。








