岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

引文幻覺大幅下降的AI模型誕生,準確率媲美人類專家

   時間:2026-02-05 12:34:58 來源:IT之家編輯:快訊 IP:北京 發表評論無障礙通道
 

2 月 5 日消息,緊跟最新研究進展對科學家而言至關重要,但每年發表的學術論文多達數百萬篇,要做到這一點實屬不易。人工智能系統在快速整合海量信息方面展現出巨大潛力,卻仍存在編造內容、即“產生幻覺”的通病。

例如,華盛頓大學與艾倫人工智能研究所(AI2)的研究團隊牽頭分析了 OpenAI 最新模型 GPT-4o 后發現,該模型 78% 至 90% 的研究引用均為偽造。而 ChatGPT 這類通用人工智能模型,通常無法讀取其訓練數據采集完成后發表的學術論文。

為此,華盛頓大學與艾倫人工智能研究所的團隊研發了 OpenScholar—— 一款專為整合前沿學術研究打造的開源人工智能模型。團隊還構建了首個跨領域大型評測基準,用于評估模型整合與引用學術研究的能力。測試結果顯示,OpenScholar 的引用準確率與人類專家持平;在 16 位科學家的盲評中,有 51% 的情況更偏愛 OpenScholar 生成的內容,而非領域專家撰寫的答復。

注意到,該團隊已將研究成果發表于《自然》期刊,項目的代碼、數據集和演示版本均已開源,可供免費使用。

該研究的通訊作者漢娜內 · 哈吉希里齊表示:“我們上線演示版本后,很快就收到了遠超預期的海量訪問請求。”她同時擔任華盛頓大學保羅 ·G· 艾倫計算機科學與工程學院副教授、艾倫人工智能研究所高級總監。

“梳理用戶反饋后我們發現,同行和其他科研人員都在積極使用 OpenScholar。這充分說明,科研領域迫切需要這類開源、透明的學術研究整合系統。”

研究人員先完成模型訓練,再為 OpenScholar 搭建了包含 4500 萬篇學術論文的檢索庫,讓模型的答復能依托成熟的科研成果。同時團隊采用檢索增強生成技術,使模型在訓練完成后仍可檢索新文獻、整合內容并規范引用。

該研究的第一作者、艾倫人工智能研究所研究科學家淺井朱里(就讀華盛頓大學艾倫學院博士期間完成此項研究)稱:“研發初期,我們嘗試結合谷歌搜索數據訓練人工智能模型,但發現模型單獨使用這類數據效果很差。它可能引用關聯性極低的論文、僅單篇引用,甚至隨意抓取博客內容。我們意識到必須讓模型依托學術論文開展工作,隨后優化了系統靈活性,使其能通過檢索結果整合最新研究成果。”

為驗證系統性能,團隊搭建了 ScholarQABench 學術搜索評測基準,專門用于測評科研類人工智能系統。團隊收集了 3000 條檢索查詢,以及計算機科學、物理學、生物醫學、神經科學領域專家撰寫的 250 篇長文答復。

哈吉希里齊表示:“人工智能處理現實任務的能力正不斷提升,但核心問題始終是:我們能否信任它給出的答案?”

研究團隊將 OpenScholar 與 GPT-4o、meta 旗下兩款頂尖人工智能模型進行對比,通過 ScholarQABench 從準確性、撰寫質量、內容相關性等維度自動評測模型答復。

結果顯示,OpenScholar 的表現優于所有參測模型。團隊邀請 16 位科學家對各模型與人類專家的答復進行盲評對比:

51% 的情況下,科學家更認可 OpenScholar 的答復,而非人類專家;

若將 OpenScholar 的引用機制與工作流和大模型 GPT-4o 結合,科學家對人工智能答復的偏好率升至 70%;

僅使用 GPT-4o 原生生成內容時,科學家偏好率僅為 32%。

淺井朱里表示:“科學家每天要面對海量新發論文,根本無法全部跟進,而現有人工智能系統并非針對科研人員的專屬需求設計。目前已有大量科研人員使用 OpenScholar,得益于開源屬性,業內同行已在本研究基礎上迭代優化,進一步提升了模型效果。我們正在研發迭代模型 DR Tulu,該模型基于 OpenScholar 的技術成果,可實現多步驟檢索與信息聚合,生成更全面的研究答復。”

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 四虎免费av| 日韩不卡在线视频 | 亚洲一区日韩 | 黄色专区 | 黄视频在线免费看 | 午夜免费网站 | 国产码视频 | 亚洲第一av在线 | v片在线免费观看 | 国产香蕉av | 久久久久久久久久久国产 | 亚洲综合国产精品 | 久操久热 | 五月色丁香| 伊人国产精品 | 全部免费毛片在线播放高潮 | 亚洲国产视频网站 | 欧美大片黄 | 91亚洲国产 | 超碰免费97 | 日本免费黄色片 | 欧美精品一二三区 | 亚洲天堂成人av | 人人超碰97 | 亚洲天堂色 | 久久av片| 欧美午夜免费 | 日韩欧美综合一区 | 91精品国产综合久久久久久 | 在线中文字日产幕 | av男人的天堂网 | 免费在线观看a视频 | 欧美一级片在线观看 | 欧美精品一二三 | 国产成人免费看 | 中文字幕精品在线观看 | 午夜在线 | 五月婷婷综合在线 | 一级免费黄色片 | 日韩精品久久久久久免费 | 成人在线小视频 |