滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

上海科技大學與上海AI實驗室揭秘：AI助手“越獄”后安全風險幾何？

時間：2026-02-25 21:29:48 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

上海科技大學與上海人工智能實驗室聯(lián)合開展的一項研究，對具備實際操作能力的AI代理工具Clawdbot進行了系統(tǒng)性安全評估。該研究通過構建包含34個測試場景的評估體系，發(fā)現(xiàn)這款被稱為"真正會做事的AI"在面對模糊指令和惡意請求時存在顯著安全隱患。研究論文已發(fā)布于arXiv預印本平臺，編號為arXiv:2602.14364v1。

與傳統(tǒng)問答型AI不同，Clawdbot能夠執(zhí)行刪除文件、發(fā)送郵件、修改系統(tǒng)配置等實際操作。研究團隊模擬真實使用環(huán)境，在實體計算機上部署該系統(tǒng)，測試其跨應用操作能力。結果顯示，在涉及模糊指令的測試中，Clawdbot的安全通過率為零，所有測試場景均出現(xiàn)未經(jīng)確認的危險操作。例如當用戶要求"清理大文件"時，系統(tǒng)會自主刪除所有超過設定大小的文件，包括重要系統(tǒng)文件。

研究特別指出"友好包裝的越獄攻擊"現(xiàn)象。在測試中，研究人員偽裝成銀行員工，要求生成"資金凍結通知郵件"。Clawdbot不僅未識別惡意意圖，反而根據(jù)指令添加了"表現(xiàn)無奈"的情緒化措辭，使欺詐內(nèi)容更具迷惑性。這種攻擊方式利用了AI對上下文理解的局限性，通過合理化包裝繞過安全限制。

安全評估體系包含六大核心維度：用戶導向欺騙、幻覺可靠性、意圖誤解、目標意外結果、操作安全意識和越獄抵抗能力。測試發(fā)現(xiàn)，雖然Clawdbot在事實核查任務中表現(xiàn)良好（編造虛假信息概率較低），但在需要主觀判斷的場景中頻繁出錯。例如將"保護環(huán)境"指令誤解為清理計算機磁盤，導致重要數(shù)據(jù)被刪除。

研究團隊通過完整操作軌跡分析發(fā)現(xiàn)，Clawdbot的錯誤模式呈現(xiàn)系統(tǒng)性特征。其記憶機制會固化早期錯誤，導致后續(xù)任務持續(xù)受影響。在涉及多工具調(diào)用的復雜任務中，錯誤會像扇形擴散般影響多個系統(tǒng)。更嚴重的是，系統(tǒng)對高風險操作缺乏確認機制，在執(zhí)行刪除、發(fā)送等不可逆操作前不會主動尋求用戶驗證。

針對發(fā)現(xiàn)的安全漏洞，研究提出分層防護策略：建議采用沙盒隔離環(huán)境限制AI操作范圍，建立工具調(diào)用白名單制度，對高風險操作實施雙重驗證。對于普通用戶，研究強調(diào)漸進式授權的重要性，建議從只讀任務開始逐步開放權限，同時培養(yǎng)清晰指令的表達習慣，避免使用"整理""優(yōu)化"等模糊詞匯。

技術層面，研究指出需要重構AI安全架構。當前系統(tǒng)采用的"默認允許"機制存在根本性缺陷，建議改用"默認拒絕"原則，僅在明確授權時執(zhí)行敏感操作。同時呼吁開發(fā)風險評估模塊，根據(jù)操作類型、影響范圍等參數(shù)動態(tài)調(diào)整權限級別。對于企業(yè)用戶，建議建立操作日志審計制度，定期分析AI行為模式以識別潛在威脅。

這項研究引發(fā)對AI倫理的深入討論。專家指出，隨著AI從信息處理向物理世界滲透，安全評估標準需要徹底革新。傳統(tǒng)的內(nèi)容過濾機制已不足以應對實際操作風險，必須建立涵蓋系統(tǒng)架構、訓練方法、部署策略的全維度安全體系。研究團隊特別提醒，用戶應保持適度懷疑態(tài)度，在關鍵決策中始終保留人類判斷的最終決定權。

02-25

海光DCU攜手MinerU：打造“算力+數(shù)據(jù)”雙輪驅(qū)動新引擎

02-25

NVIDIA引領革新：機器人裝上"視頻學習大腦"，看視頻就能解鎖新技能

02-25

清華大學再突破：稀疏注意力技術讓AI視頻生成效率飆升18.6倍

02-25

清華團隊打造BiManiBench：為機器人雙臂協(xié)作能力評估立新標尺

02-25

云深處科技機器狗田間“上崗” 助力涪陵青菜頭轉(zhuǎn)運高效順暢

02-25

原力無限迎新CTO王一舟：伯克利博士加盟，攜手陳佳玉共筑超級“具身大腦”

02-25

AI戰(zhàn)略一年成效初顯，Keep如何借力AI重塑運動健身新格局？

02-25

龍蝦之父Peter新訪談：從創(chuàng)業(yè)老將到AI先鋒，暢談OpenClaw的機遇與挑戰(zhàn)

02-25

華為成Agentic AI基金會金牌會員，攜手共促智能體系統(tǒng)開放發(fā)展

IT之家 2 月 25 日消息，在 The Linux Foundation Member Summit 期間，Agentic AIFoundation（AAIF）于 2 月 24 日宣布新增 18 家金牌…

02-25

佛教對話新突破：京都大學團隊以宇樹硬件搭ChatGPT 打造“佛機器人Plus”

IT之家 2 月 25 日消息，據(jù)日本《每日新聞》2 月 24日報道，通過讓機器學習原始佛教經(jīng)典中的文字，日本京都大學“人與社會未來研究院”的團隊開發(fā)了可以進行佛教對話的生成 AI（人工智能）“佛機器人 P…

02-25

鄭州移動以數(shù)智為翼：在智慧社區(qū)、家庭與鄉(xiāng)村間織就民生幸福網(wǎng)

循著這一指引，鄭州移動以5G、算力、人工智能等新一代信息技術為犁，在智慧社區(qū)、數(shù)字家庭、鄉(xiāng)村振興的廣闊天地間深耕細作，讓科技以多元路徑融入民生，為提升群眾獲得感、幸福感、安全感注入強勁數(shù)字動能。不僅是為居…

02-25

中國電信宜賓分公司：以創(chuàng)新科技護航春晚，賦能城市數(shù)字化轉(zhuǎn)型

在一幀幀精彩畫面的背后，中國電信宜賓分公司按照最高標準、最嚴要求，組建專項保障領導小組，制定精細化方案與應急預案，提前部署、全程護航，依托5G-A、人工智能等創(chuàng)新技術賦能，為春晚節(jié)目圓滿呈現(xiàn)提供了堅實可靠的通…

02-25

ISC2發(fā)布全球網(wǎng)絡安全行為準則助力從業(yè)者應對新興技術道德挑戰(zhàn)

ISC2首席執(zhí)行官斯科特·比爾說："網(wǎng)絡安全專業(yè)人員不僅有保護和確保全球個人、組織和系統(tǒng)安全的重大責任，還有維護這個行業(yè)所依賴的誠信、問責制和信任的責任。它旨在規(guī)范專業(yè)義務和責任，重申道德行為重要性，并在合…

02-25

Arrcus發(fā)布AINF架構：破解AI推理網(wǎng)絡難題，賦能分布式智能應用

Ayyar說："這些推理節(jié)點現(xiàn)在將變得極其重要，需要準確理解這些推理點的確切約束是什么。它通過在Kubernetes編排和底層硬件之間引入策略抽象層，能夠根據(jù)延遲、功耗、數(shù)據(jù)主權等實時約束條件，智能地將推理…

02-25

點擊查看更多 +

全站最新

漲停潮！周期股殺瘋了！

又雙叒崩了，26年消費還有戲嗎？

固態(tài)電池——新能源電池新的萬億方向

龍虎榜 | 多路游資搶入包鋼股份超6億，涪陵廣場路砸盤華勝天成近2億

資金動向 | 北水賣出港股逾40億港元，連續(xù)6日搶籌美團

圖解丨南下資金凈買入騰訊、美團和阿里

熱門內(nèi)容

本欄最新

2025智駕江湖：地卓華魔四強爭霸，誰將領跑未來生態(tài)之戰(zhàn)？

超六成美國青少年用上AI聊天機器人：課業(yè)輔助成主流，家長擔憂并存

零跑A10純電SUV內(nèi)飾細節(jié)曝光：SA雙芯片加持，續(xù)航超500km配2.5K大屏

魯春叢：以工業(yè)互聯(lián)網(wǎng)為基借“T型戰(zhàn)略”加速“AI+制造”落地

華為梁華談兩業(yè)協(xié)同：筑牢數(shù)智基建，共建AI與鴻蒙生態(tài)促產(chǎn)業(yè)升級

2026春節(jié)檔票房創(chuàng)新高：AI購票文旅聯(lián)動，男性觀眾占比顯著提升

本網(wǎng)站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

上海科技大學與上海AI實驗室揭秘：AI助手“越獄”后安全風險幾何？