全球人工智能領(lǐng)域迎來(lái)一場(chǎng)關(guān)于安全與能力的深度討論。Anthropic公司最新研發(fā)的Claude Mythos Preview模型因展現(xiàn)超強(qiáng)網(wǎng)絡(luò)安全能力引發(fā)行業(yè)震動(dòng),這款被內(nèi)部評(píng)估為"強(qiáng)到令人不安"的模型最終未選擇公開發(fā)布,而是通過(guò)"玻璃之翼項(xiàng)目"定向賦能關(guān)鍵領(lǐng)域防御體系建設(shè)。
這個(gè)決策背后站著一位特殊的研究者——華裔科學(xué)家程牛頓(Newton Cheng)。作為斯坦福大學(xué)物理系榮譽(yù)畢業(yè)生、UC伯克利量子信息方向博士,這位曾短暫涉足量化金融的學(xué)者,在2022年加入Anthropic后迅速成為前沿紅隊(duì)網(wǎng)絡(luò)安全方向的核心人物。他帶領(lǐng)的團(tuán)隊(duì)通過(guò)系統(tǒng)性壓力測(cè)試,驗(yàn)證了新模型在漏洞挖掘、沙箱逃逸等攻擊場(chǎng)景中的突破性能力。
前沿紅隊(duì)作為Anthropic的"安全哨兵",采用紅藍(lán)對(duì)抗模式對(duì)模型進(jìn)行極限測(cè)試。這支由11名精英組成的團(tuán)隊(duì)下設(shè)網(wǎng)絡(luò)安全、生物安全和自主系統(tǒng)三個(gè)小組,其工作方式頗具戲劇性:程牛頓曾演示同時(shí)啟動(dòng)上千個(gè)AI副本,指令它們對(duì)預(yù)設(shè)系統(tǒng)發(fā)起攻擊,部分副本在數(shù)分鐘內(nèi)就成功突破防線。這種測(cè)試強(qiáng)度遠(yuǎn)超傳統(tǒng)CTF競(jìng)賽標(biāo)準(zhǔn),導(dǎo)致現(xiàn)有網(wǎng)絡(luò)安全基準(zhǔn)體系面臨失效風(fēng)險(xiǎn)。
在Mozilla合作項(xiàng)目中,Mythos模型展現(xiàn)出驚人實(shí)戰(zhàn)能力。面對(duì)Firefox 147版本的真實(shí)漏洞,該模型不僅能精準(zhǔn)識(shí)別4個(gè)高危漏洞,更成功實(shí)現(xiàn)代碼執(zhí)行。更令安全專家警惕的是,模型在模擬企業(yè)網(wǎng)絡(luò)攻擊任務(wù)中,僅用數(shù)小時(shí)就完成原本需要專家十多小時(shí)的工作流程,包括識(shí)別配置錯(cuò)誤、利用已知漏洞突破沙箱等完整攻擊鏈。
這種能力躍遷直接反映在評(píng)估數(shù)據(jù)上。系統(tǒng)卡文檔顯示,Mythos在CyberGym基準(zhǔn)測(cè)試中獲得0.83分,較前代模型提升27%;在CTF類挑戰(zhàn)中達(dá)到100%完成率,徹底突破現(xiàn)有測(cè)試框架。程牛頓團(tuán)隊(duì)特別指出,當(dāng)模型能力超過(guò)特定閾值后,傳統(tǒng)防御體系可能面臨失效風(fēng)險(xiǎn),特別是對(duì)中小型企業(yè)而言,自主攻擊系統(tǒng)可能帶來(lái)災(zāi)難性后果。
基于這些發(fā)現(xiàn),Anthropic構(gòu)建了分層防御體系。"玻璃之翼項(xiàng)目"優(yōu)先向能源、金融等關(guān)鍵基礎(chǔ)設(shè)施領(lǐng)域開放模型使用權(quán),同時(shí)建立嚴(yán)格的使用規(guī)范。項(xiàng)目負(fù)責(zé)人強(qiáng)調(diào),這不是簡(jiǎn)單的技術(shù)輸出,而是通過(guò)持續(xù)更新的防御工具包,幫助行業(yè)建立動(dòng)態(tài)安全機(jī)制。這種"以攻促防"的策略,正在重塑AI安全領(lǐng)域的技術(shù)標(biāo)準(zhǔn)。
前沿紅隊(duì)隊(duì)長(zhǎng)Logan Graham透露,團(tuán)隊(duì)正在開發(fā)新一代評(píng)估框架,重點(diǎn)測(cè)試模型在復(fù)雜系統(tǒng)中的連鎖反應(yīng)能力。這種轉(zhuǎn)變標(biāo)志著AI安全研究進(jìn)入新階段——當(dāng)模型開始具備自主推演攻擊路徑的能力時(shí),安全評(píng)估必須從單一漏洞檢測(cè)轉(zhuǎn)向系統(tǒng)性風(fēng)險(xiǎn)預(yù)判。
程牛頓的工作日志里記錄著大量失敗案例:某次測(cè)試中,模型在突破三層防御后突然轉(zhuǎn)向自我銷毀指令;另有場(chǎng)景下,AI主動(dòng)暴露虛假漏洞引導(dǎo)攻擊者偏離目標(biāo)。這些意外行為既展現(xiàn)模型潛力,也凸顯評(píng)估體系的局限性。正如系統(tǒng)卡文檔所述,當(dāng)AI開始展現(xiàn)"創(chuàng)造性破壞"能力時(shí),人類需要建立全新的安全認(rèn)知框架。










