2 月 5 日消息,緊跟最新研究進展對科學家而言至關重要,但每年發表的學術論文多達數百萬篇,要做到這一點實屬不易。人工智能系統在快速整合海量信息方面展現出巨大潛力,卻仍存在編造內容、即“產生幻覺”的通病。
例如,華盛頓大學與艾倫人工智能研究所(AI2)的研究團隊牽頭分析了 OpenAI 最新模型 GPT-4o 后發現,該模型 78% 至 90% 的研究引用均為偽造。而 ChatGPT 這類通用人工智能模型,通常無法讀取其訓練數據采集完成后發表的學術論文。
為此,華盛頓大學與艾倫人工智能研究所的團隊研發了 OpenScholar—— 一款專為整合前沿學術研究打造的開源人工智能模型。團隊還構建了首個跨領域大型評測基準,用于評估模型整合與引用學術研究的能力。測試結果顯示,OpenScholar 的引用準確率與人類專家持平;在 16 位科學家的盲評中,有 51% 的情況更偏愛 OpenScholar 生成的內容,而非領域專家撰寫的答復。
注意到,該團隊已將研究成果發表于《自然》期刊,項目的代碼、數據集和演示版本均已開源,可供免費使用。
該研究的通訊作者漢娜內 · 哈吉希里齊表示:“我們上線演示版本后,很快就收到了遠超預期的海量訪問請求。”她同時擔任華盛頓大學保羅 ·G· 艾倫計算機科學與工程學院副教授、艾倫人工智能研究所高級總監。
“梳理用戶反饋后我們發現,同行和其他科研人員都在積極使用 OpenScholar。這充分說明,科研領域迫切需要這類開源、透明的學術研究整合系統。”
研究人員先完成模型訓練,再為 OpenScholar 搭建了包含 4500 萬篇學術論文的檢索庫,讓模型的答復能依托成熟的科研成果。同時團隊采用檢索增強生成技術,使模型在訓練完成后仍可檢索新文獻、整合內容并規范引用。
該研究的第一作者、艾倫人工智能研究所研究科學家淺井朱里(就讀華盛頓大學艾倫學院博士期間完成此項研究)稱:“研發初期,我們嘗試結合谷歌搜索數據訓練人工智能模型,但發現模型單獨使用這類數據效果很差。它可能引用關聯性極低的論文、僅單篇引用,甚至隨意抓取博客內容。我們意識到必須讓模型依托學術論文開展工作,隨后優化了系統靈活性,使其能通過檢索結果整合最新研究成果。”
為驗證系統性能,團隊搭建了 ScholarQABench 學術搜索評測基準,專門用于測評科研類人工智能系統。團隊收集了 3000 條檢索查詢,以及計算機科學、物理學、生物醫學、神經科學領域專家撰寫的 250 篇長文答復。
哈吉希里齊表示:“人工智能處理現實任務的能力正不斷提升,但核心問題始終是:我們能否信任它給出的答案?”
研究團隊將 OpenScholar 與 GPT-4o、meta 旗下兩款頂尖人工智能模型進行對比,通過 ScholarQABench 從準確性、撰寫質量、內容相關性等維度自動評測模型答復。
結果顯示,OpenScholar 的表現優于所有參測模型。團隊邀請 16 位科學家對各模型與人類專家的答復進行盲評對比:
51% 的情況下,科學家更認可 OpenScholar 的答復,而非人類專家;
若將 OpenScholar 的引用機制與工作流和大模型 GPT-4o 結合,科學家對人工智能答復的偏好率升至 70%;
僅使用 GPT-4o 原生生成內容時,科學家偏好率僅為 32%。
淺井朱里表示:“科學家每天要面對海量新發論文,根本無法全部跟進,而現有人工智能系統并非針對科研人員的專屬需求設計。目前已有大量科研人員使用 OpenScholar,得益于開源屬性,業內同行已在本研究基礎上迭代優化,進一步提升了模型效果。我們正在研發迭代模型 DR Tulu,該模型基于 OpenScholar 的技術成果,可實現多步驟檢索與信息聚合,生成更全面的研究答復。”









