在評(píng)估人工智能性能的眾多方法中,一種看似“非主流”的方式正悄然興起——讓AI模型挑戰(zhàn)經(jīng)典游戲《精靈寶可夢(mèng)》。谷歌、OpenAI和Anthropic等科技巨頭紛紛加入這場(chǎng)特殊的“測(cè)試賽”,通過(guò)觀察AI在游戲中的表現(xiàn)來(lái)衡量其能力邊界。
Anthropic公司AI部門負(fù)責(zé)人David Hershey是最早實(shí)踐這一方法的推動(dòng)者之一。他自去年起便在Twitch平臺(tái)開(kāi)設(shè)直播頻道,每天使用公司研發(fā)的Claude模型游玩《精靈寶可夢(mèng)》,將測(cè)試過(guò)程完全公開(kāi)化。這種做法不僅吸引了大量技術(shù)愛(ài)好者圍觀,更激發(fā)了全球開(kāi)發(fā)者的模仿熱情。自由開(kāi)發(fā)者們陸續(xù)推出“Gemini玩《寶可夢(mèng)》”“GPT玩《寶可夢(mèng)》”等衍生直播,形成了一場(chǎng)獨(dú)特的AI競(jìng)技潮。
這場(chǎng)由個(gè)人實(shí)驗(yàn)引發(fā)的技術(shù)熱潮很快引起行業(yè)關(guān)注。谷歌和OpenAI的研發(fā)團(tuán)隊(duì)開(kāi)始定期參與直播互動(dòng),甚至直接在鏡頭前調(diào)整模型參數(shù)。經(jīng)過(guò)持續(xù)優(yōu)化,Gemini和GPT模型已成功通關(guān)Game Boy時(shí)代的《寶可夢(mèng)藍(lán)》,并開(kāi)始挑戰(zhàn)后續(xù)作品。相比之下,Claude模型至今未能完成任何版本的完整通關(guān),這一差異為技術(shù)團(tuán)隊(duì)提供了寶貴的對(duì)比數(shù)據(jù)。
選擇《精靈寶可夢(mèng)》作為測(cè)試場(chǎng)景并非偶然。與傳統(tǒng)測(cè)試游戲不同,這款作品要求玩家在非線性流程中做出復(fù)雜決策:既要培養(yǎng)現(xiàn)有寶可夢(mèng)的戰(zhàn)斗能力,又要規(guī)劃捕捉新精靈的時(shí)機(jī);既要冒險(xiǎn)挑戰(zhàn)強(qiáng)大訓(xùn)練家獲取稀有資源,又要確保隊(duì)伍實(shí)力均衡以應(yīng)對(duì)突發(fā)狀況。這種需要平衡短期收益與長(zhǎng)期規(guī)劃的機(jī)制,恰好構(gòu)成對(duì)AI邏輯推理、風(fēng)險(xiǎn)評(píng)估和戰(zhàn)略規(guī)劃能力的綜合考驗(yàn)。
研究人員通過(guò)分析AI在游戲中的選擇路徑,能夠直觀觀察其決策模式。例如模型是否會(huì)優(yōu)先強(qiáng)化特定屬性寶可夢(mèng),或在資源有限時(shí)如何分配訓(xùn)練重點(diǎn)。這些數(shù)據(jù)為優(yōu)化算法提供了重要參考,幫助開(kāi)發(fā)者理解模型在復(fù)雜環(huán)境中的行為特征。
這項(xiàng)實(shí)驗(yàn)已產(chǎn)生實(shí)際技術(shù)價(jià)值。Hershey將測(cè)試中發(fā)現(xiàn)的模型效率問(wèn)題反饋給客戶,協(xié)助改進(jìn)AI控制框架,使算力分配更加合理。部分企業(yè)根據(jù)游戲測(cè)試結(jié)果調(diào)整了模型訓(xùn)練策略,在保持性能的同時(shí)降低了計(jì)算資源消耗。這種將娛樂(lè)場(chǎng)景與工業(yè)應(yīng)用結(jié)合的創(chuàng)新方式,正在為AI評(píng)估體系開(kāi)辟新的可能性。









