在科研領(lǐng)域,每年發(fā)表的學(xué)術(shù)論文數(shù)量龐大,科學(xué)家們想要緊跟最新研究進(jìn)展面臨巨大挑戰(zhàn)。盡管人工智能系統(tǒng)在快速整合海量信息方面潛力巨大,但普遍存在編造內(nèi)容,即“產(chǎn)生幻覺”的問題,這嚴(yán)重影響了其可靠性。例如,華盛頓大學(xué)與艾倫人工智能研究所(AI2)的研究團(tuán)隊對OpenAI最新模型GPT - 4o進(jìn)行分析后發(fā)現(xiàn),該模型78%至90%的研究引用都是偽造的。而且,像ChatGPT這類通用人工智能模型,通常無法讀取訓(xùn)練數(shù)據(jù)采集完成后發(fā)表的學(xué)術(shù)論文。
為了解決這些問題,華盛頓大學(xué)與艾倫人工智能研究所的團(tuán)隊研發(fā)了一款名為OpenScholar的開源人工智能模型,它專為整合前沿學(xué)術(shù)研究而打造。同時,團(tuán)隊還構(gòu)建了首個跨領(lǐng)域大型評測基準(zhǔn),用于評估模型整合與引用學(xué)術(shù)研究的能力。測試結(jié)果表明,OpenScholar的引用準(zhǔn)確率與人類專家相當(dāng)。在16位科學(xué)家進(jìn)行的盲評中,51%的情況下他們更偏愛OpenScholar生成的內(nèi)容,而非領(lǐng)域?qū)<易珜懙拇饛?fù)。
研究人員在完成模型訓(xùn)練后,為OpenScholar搭建了一個包含4500萬篇學(xué)術(shù)論文的檢索庫,讓模型的答復(fù)能夠依托成熟的科研成果。團(tuán)隊采用檢索增強(qiáng)生成技術(shù),使模型在訓(xùn)練完成后仍可以檢索新文獻(xiàn)、整合內(nèi)容并規(guī)范引用。該研究的第一作者、艾倫人工智能研究所研究科學(xué)家淺井朱里(在華盛頓大學(xué)艾倫學(xué)院讀博士期間完成此項研究)介紹,研發(fā)初期,他們嘗試結(jié)合谷歌搜索數(shù)據(jù)訓(xùn)練人工智能模型,但發(fā)現(xiàn)模型單獨(dú)使用這類數(shù)據(jù)效果不佳,可能會出現(xiàn)引用關(guān)聯(lián)性極低的論文、僅單篇引用,甚至隨意抓取博客內(nèi)容等問題。意識到必須讓模型依托學(xué)術(shù)論文開展工作后,他們優(yōu)化了系統(tǒng)靈活性,使其能通過檢索結(jié)果整合最新研究成果。
為驗證系統(tǒng)性能,團(tuán)隊搭建了ScholarQABench學(xué)術(shù)搜索評測基準(zhǔn),專門用于測評科研類人工智能系統(tǒng)。團(tuán)隊收集了3000條檢索查詢,以及計算機(jī)科學(xué)、物理學(xué)、生物醫(yī)學(xué)、神經(jīng)科學(xué)領(lǐng)域?qū)<易珜懙?50篇長文答復(fù)。
研究團(tuán)隊將OpenScholar與GPT - 4o、meta旗下兩款頂尖人工智能模型進(jìn)行對比,通過ScholarQABench從準(zhǔn)確性、撰寫質(zhì)量、內(nèi)容相關(guān)性等維度自動評測模型答復(fù)。結(jié)果顯示,OpenScholar的表現(xiàn)優(yōu)于所有參測模型。在邀請16位科學(xué)家對各模型與人類專家的答復(fù)進(jìn)行盲評對比時發(fā)現(xiàn),51%的情況下科學(xué)家更認(rèn)可OpenScholar的答復(fù),而非人類專家;若將OpenScholar的引用機(jī)制與工作流和大模型GPT - 4o結(jié)合,科學(xué)家對人工智能答復(fù)的偏好率升至70%;僅使用GPT - 4o原生生成內(nèi)容時,科學(xué)家偏好率僅為32%。
該研究的通訊作者漢娜內(nèi)·哈吉希里齊,同時也是華盛頓大學(xué)保羅·G·艾倫計算機(jī)科學(xué)與工程學(xué)院副教授、艾倫人工智能研究所高級總監(jiān),她表示:“我們上線演示版本后,很快就收到了遠(yuǎn)超預(yù)期的海量訪問請求。梳理用戶反饋后發(fā)現(xiàn),同行和其他科研人員都在積極使用OpenScholar,這充分說明科研領(lǐng)域迫切需要這類開源、透明的學(xué)術(shù)研究整合系統(tǒng)。”
淺井朱里還提到,科學(xué)家每天要面對海量新發(fā)論文,根本無法全部跟進(jìn),而現(xiàn)有人工智能系統(tǒng)并非針對科研人員的專屬需求設(shè)計。目前已有大量科研人員使用OpenScholar,得益于其開源屬性,業(yè)內(nèi)同行已在本研究基礎(chǔ)上迭代優(yōu)化,進(jìn)一步提升了模型效果。團(tuán)隊正在研發(fā)迭代模型DR Tulu,該模型基于OpenScholar的技術(shù)成果,可實現(xiàn)多步驟檢索與信息聚合,生成更全面的研究答復(fù)。









