人工智能領域近日迎來重大進展,Anthropic公司推出的新模型Mythos Preview引發全球關注。這款尚未公開的模型展現出驚人的網絡安全攻防能力,既可成為網絡攻擊的利器,也能構筑堅固的防御體系。出于安全考量,公司決定暫不對外發布完整模型,而是通過"玻璃之翼項目"向關鍵行業和開源社區提供受限訪問。
Mythos Preview的特殊之處在于其突破性的網絡安全特性。測試顯示,該模型不僅能自主發現復雜軟件漏洞,還能設計精準攻擊方案。在Mozilla Firefox的漏洞利用測試中,Mythos Preview成功識別并利用四個不同漏洞實現代碼執行,遠超前代模型的表現。更令人震驚的是,該模型在模擬企業網絡攻擊任務中,僅用數小時就完成需要專家十多個小時的工作,展現出自主實施端到端攻擊的潛在能力。
推動這項突破性研究的核心人物是華裔科學家Newton Cheng。這位斯坦福物理學優等生、UC伯克利量子信息博士,在2022年加入Anthropic后迅速成為網絡安全團隊負責人。他帶領的"前沿紅隊"采用非傳統路徑,將基礎科學訓練與AI安全研究結合,開創了模型安全評估的新范式。團隊通過構建Cybench、CyberGym等新型基準測試,發現傳統網絡安全評估體系已無法衡量前沿模型的真實能力。
前沿紅隊作為Anthropic的特殊安全部門,由隊長Logan Graham于2022年組建。這個11人精英團隊分為網絡安全、生物安全和自主系統三個小組,采用"紅隊對抗"模式全面測試模型風險。在網絡安全測試中,團隊會啟動上千個AI副本同時發起攻擊,模擬真實世界中的大規模網絡戰場景。這種極端測試方式幫助公司準確評估模型的安全等級,Mythos Preview因此被判定為ASL3級——具有顯著災難性誤用風險的系統。
Mythos Preview的系統卡文檔長達299頁,詳細記錄了紅隊的測試發現。文檔顯示,該模型在真實代碼庫漏洞定位測試中得分0.83,顯著高于前代模型的0.67。更關鍵的是,模型展現出"漏洞優先級判斷"能力,能自動識別最具攻擊價值的系統弱點。在沙箱逃逸測試中,Mythos Preview通過識別配置錯誤,成功突破限制環境,這對防御體系構成全新挑戰。
安全社區對Anthropic的謹慎態度表示理解。專家指出,當AI模型開始具備自主發現和利用未知漏洞的能力時,傳統的補丁發布模式將失效。Mythos Preview的測試數據表明,防御方必須建立動態防護機制,在攻擊發生前識別并加固系統。這正是"玻璃之翼項目"的核心目標——通過向防御方提供先進模型能力,建立新的網絡安全平衡。
Newton Cheng的團隊正在與關鍵基礎設施部門合作開發防御工具。他們將模型能力轉化為自動化的漏洞掃描系統,幫助防御方先于攻擊者發現弱點。這種能力轉移策略得到Mozilla等安全機構的支持,Firefox項目已成為驗證防御工具的重要試驗場。紅隊生物安全小組的測試顯示,模型對化學武器制造等敏感信息的輸出已大幅減少,表明安全評估體系正在產生實效。
這場AI安全革命正在重塑網絡攻防格局。Mythos Preview的測試數據證明,模型能力的增長已超越線性預期,防御體系必須同步進化。Anthropic的實踐表明,當AI進入未知領域,建立新的安全評估框架比單純提升模型性能更為重要。紅隊的工作模式為行業提供了重要參考——在追求技術突破的同時,必須建立與之匹配的安全邊界。











