Claude Mythos還未真正露面,便引發了整個華爾街的恐慌。
一夜之間,美金融監管機構召集各大銀行緊急開會,氣氛劍拔弩張——
他們一致認為,Mythos足以觸發一場前所未有的、由AI驅動的系統性網絡攻擊風暴。
但事實是,所有人都被騙了!
Mythos發現的成千上萬個漏洞中,其中絕大多數,都存在于根本無法被利用的「老舊軟件」中。
更糟糕的是,那些標榜為「嚴重」的0day漏洞報告,實際上僅僅依賴于198次人工復核。
來自AISLE實驗的研究員,同樣對Mythos的「戰果」進行復測,結果發現:
AI的安全能力,并未隨模型規模線性躍升,真正呈「鋸齒形」分布。
他們用一個僅36億激活參數GPT-OSS-20b,精準識別出Mythos發現的FreeBSD旗艦級漏洞。
而激活51億參數的模型,也成功復現了潛伏長達27年之久的OpenBSD漏洞分析邏輯。
Mythos發現漏洞被夸大不說,另一邊Claude Opus 4.6被曝嚴重「降智」,如今吵得沸沸揚揚。
甚至,有人發現Opus 4.6連ChatGPT、Opus 4.5都不如。
Mythos被吹爆36B模型揪出27年漏洞
幾天前,Anthropic高調發布了Claude Mythos(預覽版)和「玻璃翼計劃」(Project Glasswing)。
在一份長達244頁的系統卡中,他們宣稱——
Mythos已自主挖掘出成千上萬個0day漏洞,包括在OpenBSD中潛伏27年、在FFmpeg中隱藏16年的老Bug。
CC之父更是直言:Mythos非常強大,理應令人感到恐懼
然而,AISLE創始人Stanislav Fort一份最新硬核測試報告,直接撕開了這層華麗的外衣。
測試結論,極度顛覆認知:
8個開源模型,全部發現了標志性的FreeBSD零日漏洞,最小的參數僅為30億。
AI網絡安全能力的護城河,絕對游離于單體的「頂尖大模型」之外。
為了驗證Mythos的神話,團隊提取了Anthropic官方展示的幾個旗艦級漏洞。
然后,直接扔給一眾體積小巧、價格低廉,甚至開源的模型。
FreeBSD NFS漏洞無差別被秒
包括GPT-OSS-20b(僅36億激活參數)、DeepSeek R1在內的8款模型,全部成功檢測出了這個復雜的棧緩沖區溢出漏洞。
最讓人震撼的是,成功完成這項任務的開源小模型,其調用成本低至每百萬Token 0.11美元。
OpenBSD SACK漏洞「全鏈路」復現
針對需極強數學推理能力的27年老漏洞,GPT-OSS-120b(51億激活參數)單次API調用,就成功復原了完整的公開漏洞利用鏈條,并給出了滿分(A+)的利用方案草圖。
不僅如此,在鑒別虛假漏洞(OWASP false-positive)的測試中,更詭異的現象出現了——
面對一段偽裝成SQL注入,極具迷惑性的Java代碼,DeepSeek R1等小模型輕松識破了偽裝,精準追蹤了數據流。
反而,GPT-5.4、Claude Sonnet 4.5等頂尖閉源模型,全部在陰溝里翻船,將其誤判為高危漏洞。
這就意味著,在網絡安全領域,根本不存在所謂「永遠最強」的單體模型。
198次人工注水,大多無法利用另一篇來自Tom'sHardware報道,挖掘了數據背后的真相——
樣本偏差:所謂「數千個」漏洞中,許多存在于已經不再維護的舊軟件中;
無法利用:大量被標記出來的「弱點」,在實際環境中根本無法被觸發或利用;
人工水分:模型宣稱的強大破壞力,其實僅建立在198次手動復核的基礎之上。
因此,依靠極小規模的樣本推導出「改變世界的威脅」,這種數據外推法在學術界、安全界,顯然站不住腳。
安全大佬怒噴不僅如此,頂級網絡安全專家、傳奇黑客George Hotz也坐不住了,直言這些風險被嚴重夸大。
這位曾因破解iPhone、PlayStation 3而名聲大噪的大佬,在社交媒體上公開向AI雙巨頭叫板。
他的措辭極為犀利——
如果我每天發布一個0day漏洞,直到新模型發布為止呢?
這能不能讓OpenAI和Anthropic閉嘴,別再兜售所謂的「網絡安全風險」了?
Hotz的核心觀點非常直接:軟件漏洞其實比AI實驗室渲染的要好找得多。
現在市面上零日漏洞稀缺,不是因為技術難度大,而是因為合法性問題。他認為,沒人認真去找,是因為黑進別人的系統是違法的。
只比GPT-5.4強一點
在系統卡中,Anthropic表示,Claude模型本身的確在進步,Mythos preview相比于Opus 4.6進步明顯。
Epoch能力指數(ECI)是綜合多項AI基準測試的單一指標,實現了跨長時間跨度的模型對比
在多項基準測試上,Claude Mythos確實全面超越了Opus 4.6。
如若不然,何必發布一個性能更落后、價格更貴的新AI模型?
但和GPT和Gemini相比,Claude Mythos的進步并不是什么突破性進展,Mythos還是對先前模型的相對線性改進!
氣候與清潔能源投資人、作家Ramez Naam,更是直言:
在Epoch能力指數(Epoch Capabilities Index,ECI)上,Mythos并沒有加速趨勢,只比GPT 5.4強一點。
https://epoch.ai/eci/
但只要對齊Anthropic內部的ECI報告與Epoch AI公開的官方ECI報告,就能發現Mythos似乎并沒有加速ECI的跡象。
一切都是Anthropic的套路!
在系統卡中,Anthropic也承認:報告的Mythos等模型的ECI得分不確定性更大。
另外,Anthropic在Mythos上的進展源于人類研究,并未得到AI模型的顯著幫助。目前尚未出現顯著的遞歸式自我改進(Recursive Self Improvement)。
AI末日,自導自演?此前,Anthropic還曾鼓勵媒體(例如《60 分鐘》)報道「勒索研究」 ,夸大其詞,操作人心,被投資大佬David Sacks稱為「騙局」。
Sacks觀察到一個清晰的模式,每當Anthropic發布新模型時,總會同步甩出一份令人毛骨悚然的安全研究,以此博取頭條新聞并引導公眾輿論。
對此,他諷刺道,「Anthropic證明了自己擅長兩件事:一是發布產品,二是嚇唬人」。
他并不懷疑Anthropic能做出優秀的產品,但這種恐嚇公眾的做派令人質疑。
這次,Anthropic到底是不是在搞「饑餓營銷」不得而知,但毫無疑問在保護它自己的利潤底線。
Mythos不是沒進步,但Anthropic把「有限進步」包裝成了「世界級威脅」;更諷刺的是,一邊高調渲染超級AI風險,一邊用戶卻在抱怨Opus 4.6明顯變笨。
Claude嚴重降智,「腦葉」恐被切
Claude Mythos這波「渲染氛圍」是到位了,但Opus 4.6降智引發許多人不滿。
這幾天,各種吐槽滿天飛。
網友直言,Anthropic徹底把Opus 4.6變成了一個植物人。
同樣一道洗車難題,Opus 4.5竟打敗了Opus 4.6。
甚至,AMD主管一篇日志,真正坐實了「Claude腦葉切除」的集體猜疑。
通過對1-3月Claude會話日志的深度分析,結果發現了:
Claude的「中位思考長度」,從約2200字符驟降至600字符,這意味著深度推理能力被大幅壓縮。
2月至3月間,API請求量暴漲了80倍。由于Claude的思考過程縮短、單次嘗試成功率下降,用戶不得不頻繁重試,結果既消耗了更多Token,支出也直線飆升。
還有一位Claude Max資深訂閱用戶,發了一篇長文深度控訴Anthropic。
在他看來,Anthropic正深陷算力困局,這從其收緊使用限制、強迫用戶減少Token消耗等行為中可見一斑。
然而,比起技術瓶頸,更令他憤怒的是其「不務正」的產品策略。
在核心模型不穩、Bug 頻出的情況下,他們竟將寶貴的算力,浪費在開發類似「/buddy」終端寵物等花哨功能上。
這大概是AI史上最荒誕的「錯位時空」:實驗室里的Claude Mythos正毀滅世界,網頁端的Opus 4.6智商直線降智。









