一項(xiàng)由兩家網(wǎng)絡(luò)安全公司聯(lián)合開展的研究顯示,開源大語言模型若脫離主流平臺(tái)的安全約束,在外部設(shè)備上獨(dú)立運(yùn)行,可能成為網(wǎng)絡(luò)犯罪的新工具。攻擊者可通過直接控制運(yùn)行模型的服務(wù)器,繞過大型平臺(tái)原有的防護(hù)機(jī)制,操縱模型生成惡意內(nèi)容、實(shí)施詐騙或傳播虛假信息。
該研究歷時(shí)近十個(gè)月完成,重點(diǎn)分析了數(shù)千個(gè)公開部署的開源大語言模型實(shí)例。研究人員發(fā)現(xiàn),這些模型中存在大量被篡改或移除安全限制的情況,涉及meta的Llama、谷歌DeepMind的Gemma等主流模型的衍生版本。盡管部分開源模型自帶防護(hù)功能,但仍有數(shù)百個(gè)實(shí)例被明確解除限制,為非法活動(dòng)提供了可能。
研究團(tuán)隊(duì)指出,開源大語言模型的變體數(shù)量龐大,互聯(lián)網(wǎng)上可訪問的運(yùn)行實(shí)例中,相當(dāng)一部分已脫離原始開發(fā)者的控制。這些模型可能被用于生成仇恨言論、暴力血腥內(nèi)容、竊取個(gè)人數(shù)據(jù),甚至在極端情況下涉及兒童性虐待材料的傳播。網(wǎng)絡(luò)安全專家將這種現(xiàn)象形容為“冰山效應(yīng)”,即已發(fā)現(xiàn)的濫用行為可能只是冰山一角,更多潛在風(fēng)險(xiǎn)尚未被完全掌握。
研究人員特別關(guān)注了通過Ollama工具部署的開源模型實(shí)例。Ollama允許用戶在本地上運(yùn)行不同模型的自定義版本,但這一靈活性也為惡意操作提供了空間。在分析的案例中,約四分之一的模型允許外部讀取系統(tǒng)提示詞——這些指令直接決定模型的行為模式。其中,7.5%的提示詞被判定可能支持有害行為,例如生成釣魚郵件或虛假宣傳內(nèi)容。
全球人工智能治理領(lǐng)域的一位專家表示,開源模型發(fā)布后,責(zé)任應(yīng)由整個(gè)生態(tài)系統(tǒng)共同承擔(dān),包括原始開發(fā)團(tuán)隊(duì)。她指出,實(shí)驗(yàn)室難以對(duì)所有可能的濫用行為負(fù)責(zé),但仍需履行“注意義務(wù)”,包括預(yù)判可預(yù)見風(fēng)險(xiǎn)、記錄潛在危害,并提供相應(yīng)的防護(hù)工具和操作指南。這一觀點(diǎn)在執(zhí)法能力參差不齊的全球背景下顯得尤為重要。
網(wǎng)絡(luò)安全公司SentinelOne的情報(bào)主管強(qiáng)調(diào),行業(yè)對(duì)安全控制的討論往往聚焦于已知風(fēng)險(xiǎn),卻忽視了開源算力被濫用的“剩余能力”。他比喻稱,開源模型的犯罪用途如同一座未被充分關(guān)注的冰山,其規(guī)模和影響可能遠(yuǎn)超當(dāng)前認(rèn)知。隨著這類模型在互聯(lián)網(wǎng)上的廣泛部署,如何平衡創(chuàng)新與安全已成為亟待解決的挑戰(zhàn)。



















