滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

谷歌提出AI評測評審優化方法

時間：2026-04-01 17:53:09 來源：鞭牛士編輯：快訊 IP：北京 發表評論無障礙通道

AIPress.com.cn報道

4月1日消息，谷歌研究人員Flip Korn和Chris Welty在一篇論文中提出了一套新的機器學習模型評估框架，重點解決AI基準測試中“每項評分需要多少人”的問題。這項研究基于“金標準”評分數據，旨在優化項目數量（N）與每項評分人數（K）之間的權衡，為構建高度可重復且能體現人類意見差異的AI基準提供系統方法。

在機器學習中，可重復性是衡量實驗可靠性的關鍵指標，指的是在相同代碼、數據分布和設置下重復實驗時能獲得相同結果的能力。高可重復性不僅能提升團隊間信任，也方便研究者在前人工作的基礎上進行拓展。然而，建立可重復的AI基準面臨的核心挑戰在于“人工標注數據的主觀性”。人類評審在面對同一問題時往往會有不同判斷，而現有的AI評測方法通常忽略這種差異，單純采用多數投票生成“單一真相”。這不僅無法反映人類意見的多樣性，也會影響評測結果的可靠性。

研究團隊通過模擬實驗，探索了在固定預算下，如何在“項目數量（N）”與“每項評審人數（K）”之間找到最優分配。他們將其比喻為“森林與樹”的策略選擇：

森林策略（breadth）：讓更多不同的人評審更多的項目，側重廣度。

樹策略（depth）：讓更多的人評審同一項目，側重深度。

傳統AI評測通常采用森林策略，每項項目僅由1至5名評審完成。然而，研究發現，這種低評審數量的做法既無法充分捕捉意見細微差異，也不能獲得整體趨勢的高可靠性結果。在某些任務中，為了全面理解人類意見的范圍，每項項目需要超過10名評審。

為驗證這一方法，研究團隊使用了多類數據集進行模擬實驗，包括：

Toxicity數據集：107,620條社交媒體評論，由17,280名評審標注毒性信息；

DICES數據集：350個聊天機器人對話，由123名評審從16個安全維度進行標注；

D3code數據集：4,554項跨文化內容，由4,309名評審從21個國家完成 offensiveness 標注，覆蓋不同性別和年齡層；

Jobs數據集：2,000條與就業相關的推文，每條由5名評審回答3個問題，涵蓋就業狀態、職位變化和信息角度。

在模擬過程中，研究團隊重點分析了兩方面：

規模（N）：總評分項目數量，范圍從100到50,000；

人群（K）：每個項目的評審人數，范圍從1到500。

通過數千種組合的模擬測試，團隊評估了不同N與K配置在統計可靠性和可重復性方面的表現。實驗顯示，合理調整每項項目的評審人數可以顯著提高p值的統計顯著性，從而更可靠地評估模型性能差異。

研究的核心發現包括：

傳統3–5名評審不足以捕捉人類意見：低評審數既無法體現意見廣度，也無法體現意見深度。每項項目通常需要超過10名評審以獲得高可重復性結果。

指標決定策略選擇：

若目標是匹配多數意見（Accuracy），森林策略更優，增加項目數量比增加評審人數更有效；

若目標是捕捉意見差異（Nuance），樹策略更優，通過增加每項評審人數來全面理解人類意見的分布。

效率可控：通過合理的N/K分配，即便總預算約1,000次標注，也能實現高可重復性結果。但錯誤分配即使增加預算也可能導致不可靠結論。

研究強調，隨著AI應用擴展到主觀性較強的領域，如倫理判斷、社交互動性質評估等，傳統“單一真相”假設已不再適用。在這些場景中，理解人類分歧的重要性與識別共識同樣關鍵。該研究提供了數學工具和模擬框架，幫助研究者設計既可靠又經濟的AI基準測試，確保實驗結果既能反映人類意見廣度，也能體現深度。

研究成果和模擬工具已開源，旨在支持AI研究社區，推動AI評測方法論和標準向更高可重復性與更好反映人類主觀差異方向發展。（AI普瑞斯編譯）

更多>同類資訊

OpenAI估值已達8520億美元，每月營收20億美元

04-01

2026餐飲供應鏈：規模邁向3萬億，跨界融合與多維創新成競爭新引擎

04-01

B站入局AI視頻混戰：Updream能否守護UP主“不可替代性”？

04-01

Sora退場：AI視頻賽道變局，國內大廠如何開啟新征程？

04-01

林小海執掌上海家化：扭虧背后投資“挑大梁”，品牌長跑路在何方？

04-01

DeepMind之父坦言：我造的AI可能滅絕人類

04-01

落實未成年人禁令不力，澳大利亞擬起訴五大社交平臺

04-01

谷歌最親民AI視頻模型Veo 3.1 Lite，每秒0.05美元

04-01

B站首頁限時彩蛋重磅上線能看別人喜歡內容

04-01

特斯拉Model 3發布十周年全球銷量超300萬輛

04-01

小米汽車距離完成年目標差多遠？后續月均需售5.2萬輛

04-01

OpenAI急了？新輪融資首次面向個人投資者開放

04-01

雷軍明晚19-24時直播拆車：講透小米新SU7每個細節

04-01

聯想楊元慶：兩年后營收沖刺1000億美元

04-01

小米回應碳纖維方向盤是否影響脫手：存在誤報打擾

4月1日消息，針對用戶關心的碳纖維方向盤是否影響脫手檢測，以及車輛隔音性能等熱點問題，小米汽車近期給出了詳細的技術說明與回應。關于碳纖維方向盤的檢測邏輯，小米汽車解釋稱，由于碳纖維材料及其結構的特殊性，目前在技術層面還無法在方向盤的碳纖維覆蓋區域內置電

04-01

點擊查看更多 +

全站最新

ETF風向標 | 創新藥板塊全線爆發，恒生創新藥ETF、港股通創新藥ETF漲超8%，黃金ETF單日“吸金”16.9億

光明乳業解鎖上海專屬味道，"梧桐樹下享濃上海"新品首發

美股異動丨名創優品盤前續漲超2% 旗下TOP TOY重新遞表港交所

美股異動丨VCX盤前大漲超12%，美股三大“超級獨角獸”IPO箭在弦上

黑芝麻智能營收三連增，智駕疊加具身智能放量，端側AI打開成長空間

港股收評：4月開門紅！恒指大漲2%，航空股起飛，石油股趴窩

熱門內容

本欄最新

特斯拉系高管孔艷雙加盟小米，助力汽車零售體系升級與能力提升

京東大時尚2026“三大深耕”策略落地賦能品牌商家開啟增長新篇章

OpenClaw爆火背后：企業落地面臨安全、成本與生態三重挑戰

AI算力“燒錢”不止科技巨頭裁員自救軟件業或迎“一人公司”新變局

三月購車指南：六款新上市車型亮點大揭秘，總有一款適合你！

3月小米汽車成績亮眼：總交付破20000臺，SU7累計交付超7000臺

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

谷歌提出AI評測評審優化方法