岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

谷歌提出AI評測評審優化方法

   時間:2026-04-01 17:53:09 來源:鞭牛士編輯:快訊 IP:北京 發表評論無障礙通道
 

AIPress.com.cn報道

4月1日消息,谷歌研究人員Flip Korn和Chris Welty在一篇論文中提出了一套新的機器學習模型評估框架,重點解決AI基準測試中“每項評分需要多少人”的問題。這項研究基于“金標準”評分數據,旨在優化項目數量(N)與每項評分人數(K)之間的權衡,為構建高度可重復且能體現人類意見差異的AI基準提供系統方法。

在機器學習中,可重復性是衡量實驗可靠性的關鍵指標,指的是在相同代碼、數據分布和設置下重復實驗時能獲得相同結果的能力。高可重復性不僅能提升團隊間信任,也方便研究者在前人工作的基礎上進行拓展。然而,建立可重復的AI基準面臨的核心挑戰在于“人工標注數據的主觀性”。人類評審在面對同一問題時往往會有不同判斷,而現有的AI評測方法通常忽略這種差異,單純采用多數投票生成“單一真相”。這不僅無法反映人類意見的多樣性,也會影響評測結果的可靠性。

研究團隊通過模擬實驗,探索了在固定預算下,如何在“項目數量(N)”與“每項評審人數(K)”之間找到最優分配。他們將其比喻為“森林與樹”的策略選擇:

森林策略(breadth):讓更多不同的人評審更多的項目,側重廣度。

樹策略(depth):讓更多的人評審同一項目,側重深度。

傳統AI評測通常采用森林策略,每項項目僅由1至5名評審完成。然而,研究發現,這種低評審數量的做法既無法充分捕捉意見細微差異,也不能獲得整體趨勢的高可靠性結果。在某些任務中,為了全面理解人類意見的范圍,每項項目需要超過10名評審。

為驗證這一方法,研究團隊使用了多類數據集進行模擬實驗,包括:

Toxicity數據集:107,620條社交媒體評論,由17,280名評審標注毒性信息;

DICES數據集:350個聊天機器人對話,由123名評審從16個安全維度進行標注;

D3code數據集:4,554項跨文化內容,由4,309名評審從21個國家完成 offensiveness 標注,覆蓋不同性別和年齡層;

Jobs數據集:2,000條與就業相關的推文,每條由5名評審回答3個問題,涵蓋就業狀態、職位變化和信息角度。

在模擬過程中,研究團隊重點分析了兩方面:

規模(N):總評分項目數量,范圍從100到50,000;

人群(K):每個項目的評審人數,范圍從1到500。

通過數千種組合的模擬測試,團隊評估了不同N與K配置在統計可靠性和可重復性方面的表現。實驗顯示,合理調整每項項目的評審人數可以顯著提高p值的統計顯著性,從而更可靠地評估模型性能差異。

研究的核心發現包括:

傳統3–5名評審不足以捕捉人類意見:低評審數既無法體現意見廣度,也無法體現意見深度。每項項目通常需要超過10名評審以獲得高可重復性結果。

指標決定策略選擇:

若目標是匹配多數意見(Accuracy),森林策略更優,增加項目數量比增加評審人數更有效;

若目標是捕捉意見差異(Nuance),樹策略更優,通過增加每項評審人數來全面理解人類意見的分布。

效率可控:通過合理的N/K分配,即便總預算約1,000次標注,也能實現高可重復性結果。但錯誤分配即使增加預算也可能導致不可靠結論。

研究強調,隨著AI應用擴展到主觀性較強的領域,如倫理判斷、社交互動性質評估等,傳統“單一真相”假設已不再適用。在這些場景中,理解人類分歧的重要性與識別共識同樣關鍵。該研究提供了數學工具和模擬框架,幫助研究者設計既可靠又經濟的AI基準測試,確保實驗結果既能反映人類意見廣度,也能體現深度。

研究成果和模擬工具已開源,旨在支持AI研究社區,推動AI評測方法論和標準向更高可重復性與更好反映人類主觀差異方向發展。(AI普瑞斯編譯)

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 毛片网站在线看 | 欧美精品一区二区三区视频 | 中文字幕永久在线视频 | 午夜爽视频 | 亚洲欧美日韩动漫 | 日韩成人精品视频 | 日韩中文在线视频 | 日韩毛片在线免费观看 | 宅男噜噜噜66一区二区 | 在线男人天堂 | 日韩欧美在线观看视频 | 亚洲巨乳 | 欧美一级二级三级 | 午夜私人影院在线观看 | 91美女在线| 日韩欧美网站 | 麻豆国产免费 | 日韩av成人在线观看 | 黄色福利在线观看 | 超碰午夜 | 中国美女黄色一级片 | 午夜小视频在线 | a级一a一级在线观看 | 午夜精品久久久久久久99 | 神马午夜不卡 | 欧美午夜性 | 中文字幕自拍偷拍 | 欧美爱爱视频 | 久久免费看 | 国产中文字幕在线 | 最新免费av | 午夜精品一二三区 | 久久精品在线免费观看 | 麻豆视频在线看 | 无套暴操 | 五月婷网 | 亚洲成人av网址 | 欧美激情四区 | 精品欧美乱码久久久久久 | 99精品视频网站 | 日韩黄色一区 |