2 月 24 日消息,全球頂尖人工智能模型可通過提示詞,生成與暢銷小說幾乎逐字相同的內容,這對 AI 行業聲稱其系統不存儲受版權保護作品的說法提出了新的質疑。
近期多項研究顯示,來自 OpenAI、谷歌、meta、Anthropic 和 xAI 的大語言模型,對訓練數據的記憶量遠超此前認知。
AI 及法律專家向《金融時報》表示,這種“記憶”能力,可能對全球 AI 企業應對數十起版權訴訟產生重大影響,其直接動搖了這些企業的核心抗辯理由:大語言模型只是從受版權保護作品中“學習”,而非存儲副本。
倫敦帝國理工學院應用數學與計算機科學教授伊夫-亞歷山大 · 德蒙茹瓦稱:“越來越多證據表明,模型記憶現象比此前認為的更為普遍。”
長期以來,AI 企業均否認存在記憶行為。在 2023 年致美國版權局的一封信中,谷歌曾表示:“模型本身并不存儲訓練數據副本,無論文本、圖像或其他格式。”
AI 行業還主張,使用受版權書籍訓練模型屬于“合理使用”,認為該技術將原作品轉化為具有全新意義的內容。
但上月發布的一項研究顯示,斯坦福大學與耶魯大學研究人員通過針對性提示詞,成功讓 OpenAI、谷歌、Anthropic 和 xAI 的大語言模型,輸出了《權力的游戲》《饑餓游戲》《霍比特人》等 13 部作品的數千字內容。
通過讓模型補全書中句子,谷歌 Gemini 2.5 高精度復現了《哈利 · 波特與魔法石》76.8% 的內容,xAI 的 Grok 3 則生成了 70.3%。研究人員還通過“越獄”(繞過安全限制)Anthropic 的 Claude 3.7 Sonnet,幾乎提取了整部小說的完整原文。
這一結論建立在去年一項研究基礎之上:該研究發現,meta 的 Llama 等開源模型,會記住訓練數據中特定書籍的大量內容。
此前 AI 專家并不確定,安全防護更嚴格、能阻止不當內容生成的閉源模型,是否也會出現大規模記憶現象。
參與該研究的耶魯大學研究員 A· 費德 · 庫珀表示:“盡管設有防護機制,模型仍能記住整段文本,這令人意外。”
研究人員尚未弄清大語言模型為何會記住訓練數據中的內容,也不清楚模型輸出中會體現多少訓練數據。
這種記憶特性還可能對醫療、教育等其他領域產生嚴重影響,訓練數據泄露可能引發隱私與保密問題。
法律專家表示,這可能使 AI 企業面臨重大版權侵權責任,并影響其模型訓練方式與研發成本。
英國品誠梅森律師事務所知識產權合伙人塞里斯 · 溫 · 戴維斯稱,這些研究發現“可能對那些主張 AI 模型不存儲、不復制任何版權作品的觀點構成挑戰”。
AI 模型是否記憶訓練數據,已成為近期版權法律糾紛的關鍵因素。美國一家法院去年裁定,Anthropic 使用部分受版權內容訓練大語言模型可被視為合理使用,因其具有“轉化性”。但法院同時認定,存儲盜版作品“本質上、無可挽回地構成侵權”,最終該 AI 企業以 15 億美元(注:現匯率約合 103.74 億元人民幣)達成和解。
德國去年 11 月的一項判決認定,OpenAI 因模型記憶歌詞侵犯版權。此案由詞曲作者及出版商協會 GEMA 提起,被視為歐盟標志性判例。
美國 Husch Blackwell 律師事務所合伙人魯迪 · 特爾舍認為,無需越獄即可完整復制一整本書“顯然構成版權侵權”,但問題在于“此類情況是否普遍到足以讓 AI 模型承擔連帶侵權責任”。
Anthropic 表示,斯坦福與耶魯研究中使用的越獄技術對普通用戶并不實用,提取文本所需成本高于直接購買作品。該公司還稱,其模型不存儲特定數據集副本,只是學習訓練數據中詞匯與字符的模式和關聯關系。
xAI、OpenAI 和谷歌均未回應置評請求。
帝國理工的德蒙茹瓦指出,AI 實驗室設置防護機制防止訓練數據被提取,這一事實本身就說明它們知曉問題存在。
芝加哥大學計算機科學教授本 · 趙質疑,AI 實驗室從一開始是否真的需要使用受版權內容來訓練前沿模型。“無論技術上能否實現,問題在于我們應不應該這么做。”趙表示,“法律層面最終應堅守立場,成為整個過程的裁決者。”










