谷歌 DeepMind 聯(lián)合 Kaggle 近日宣布對(duì)其公開(kāi)基準(zhǔn)測(cè)試平臺(tái) Game Arena(游戲競(jìng)技場(chǎng))進(jìn)行重大升級(jí),正式引入“狼人殺”(Werewolf)與“撲克”(Poker)兩款經(jīng)典策略游戲。此舉標(biāo)志著 AI 性能評(píng)估已從單純的邏輯運(yùn)算(如國(guó)際象棋)向復(fù)雜的社交推理與不確定決策跨越。
測(cè)評(píng)維度:從邏輯思維到社交偽裝DeepMind 認(rèn)為,傳統(tǒng)測(cè)試已難以區(qū)分頂尖模型的細(xì)微差距。新加入的游戲旨在從不同維度極限測(cè)試 AI 的認(rèn)知能力:
狼人殺: 側(cè)重評(píng)估模型的溝通技巧、語(yǔ)言說(shuō)服力以及識(shí)破/利用謊言的社交感應(yīng)能力。
撲克: 模擬真實(shí)世界的復(fù)雜決策,測(cè)試模型在面對(duì)不完整信息和風(fēng)險(xiǎn)管理時(shí)的博弈能力。
國(guó)際象棋: 繼續(xù)作為衡量純粹邏輯思維與長(zhǎng)程規(guī)劃的基礎(chǔ)指標(biāo)。
戰(zhàn)力排行:Gemini3家族全面制霸根據(jù)最新公布的 Elo 排名,谷歌新一代模型 Gemini3Pro 與 Gemini3Flash 展現(xiàn)出統(tǒng)治級(jí)實(shí)力,在所有棋類(lèi)與策略游戲中均位列第一梯隊(duì)。令人意外的是,輕量級(jí)的 Flash 模型在某些需要快速迭代和即時(shí)反饋的博弈場(chǎng)景中表現(xiàn)尤為出色,而 Pro 模型則在深度規(guī)劃上保持領(lǐng)先。
安全研究的雙重價(jià)值除了性能展示,DeepMind 還強(qiáng)調(diào)了“狼人殺”基準(zhǔn)測(cè)試在 AI 安全領(lǐng)域的潛力。該場(chǎng)景模擬了現(xiàn)實(shí)中的操縱行為檢測(cè),讓模型在受控、無(wú)實(shí)際后果的環(huán)境中學(xué)習(xí)識(shí)別惡意引導(dǎo)。谷歌 DeepMind 首席執(zhí)行官 Demis Hassabis 對(duì)此表示,隨著模型能力的指數(shù)級(jí)增長(zhǎng),行業(yè)亟需此類(lèi)更具挑戰(zhàn)性、更貼近現(xiàn)實(shí)動(dòng)態(tài)的“壓力測(cè)試”。
目前,Game Arena 已在 Kaggle 平臺(tái)開(kāi)放,開(kāi)發(fā)者可實(shí)時(shí)觀察全球頂尖模型在這些高壓社交博弈中的表現(xiàn)。









