上海AI實驗室聯(lián)合25所高校科研團(tuán)隊,推出了一款名為ATLAS的科學(xué)推理評測平臺,旨在為人工智能模型構(gòu)建一個高難度測試體系。該平臺涵蓋數(shù)學(xué)、物理、化學(xué)、生物、計算機(jī)科學(xué)、地球科學(xué)和材料科學(xué)七大基礎(chǔ)學(xué)科,通過約800道原創(chuàng)題目檢驗AI模型的真實科學(xué)推理能力。與傳統(tǒng)測試平臺不同,ATLAS要求AI模型完成復(fù)雜的多步驟推理,并給出詳細(xì)的解題過程,而非簡單的選擇題答案。
研究團(tuán)隊發(fā)現(xiàn),現(xiàn)有AI評測體系存在顯著局限性。以MMLU測試為例,頂級模型在該基準(zhǔn)上的準(zhǔn)確率已超過90%,但其題目設(shè)計難以區(qū)分不同模型的能力差異。MATH數(shù)據(jù)集的演變更凸顯這一問題:2021年最強(qiáng)模型得分不足10%,而三年后同類模型得分飆升至90%以上。這種進(jìn)步更多反映模型對訓(xùn)練數(shù)據(jù)的記憶能力,而非真正的推理能力提升。數(shù)據(jù)污染、學(xué)科覆蓋單一、答案格式簡化等問題,導(dǎo)致現(xiàn)有測試無法準(zhǔn)確評估AI的科學(xué)研究潛力。
ATLAS平臺通過四項核心設(shè)計原則構(gòu)建測試體系。所有題目均由博士級專家全新創(chuàng)作,經(jīng)檢索系統(tǒng)確認(rèn)未被任何AI訓(xùn)練集收錄。題目設(shè)計強(qiáng)調(diào)跨學(xué)科融合,例如要求同時運用熱力學(xué)定律和微分方程解決材料科學(xué)問題。答案格式采用高保真標(biāo)準(zhǔn),接受LaTeX格式的復(fù)雜數(shù)學(xué)表達(dá)式,并要求詳細(xì)展示推理鏈條。平臺通過預(yù)測試篩選題目,確保最終入選題目的平均通過率低于20%,維持測試的前沿挑戰(zhàn)性。
質(zhì)量控制體系貫穿題目開發(fā)全流程。專家團(tuán)隊首先完成題目創(chuàng)作與初步篩選,隨后進(jìn)入自動化預(yù)審階段,系統(tǒng)檢查題目格式與重復(fù)率。對抗性測試環(huán)節(jié)讓當(dāng)前最優(yōu)模型反復(fù)嘗試解題,只有準(zhǔn)確率持續(xù)低于40%的題目才能通過。多層級人工評議采用雙盲制度,由三位匿名專家從科學(xué)價值、難度等級、表述清晰度三個維度評分。最終答案需經(jīng)過AI輔助的精煉優(yōu)化,并接受事實準(zhǔn)確性與邏輯一致性驗證。整個篩選過程的淘汰率超過70%,確保測試題庫的高質(zhì)量標(biāo)準(zhǔn)。
測試內(nèi)容分布反映現(xiàn)代科學(xué)研究趨勢。計算推導(dǎo)類題目占比71.4%,要求AI完成從基礎(chǔ)運算到復(fù)雜系統(tǒng)建模的任務(wù)。選擇判斷類(12.2%)與解釋描述類(10.2%)題目考察知識掌握與表達(dá)能力,結(jié)構(gòu)復(fù)合類(6.1%)則融合多種能力要求。跨學(xué)科題目占比顯著,例如生物化學(xué)題目需結(jié)合反應(yīng)機(jī)理與系統(tǒng)調(diào)節(jié)知識,材料物理題目涉及量子力學(xué)與電學(xué)性質(zhì)的關(guān)聯(lián)分析。題目平均字?jǐn)?shù)達(dá)65詞,復(fù)雜場景描述超過200詞,50%以上題目采用復(fù)合問題設(shè)計,考驗AI的長程推理能力。
評估系統(tǒng)采用創(chuàng)新的AI互評機(jī)制。OpenAI o4-mini與GPT-OSS-120B擔(dān)任評判官,通過四階段流程處理答案:首先提取JSON格式的核心內(nèi)容,隨后進(jìn)行科學(xué)含義比對而非簡單文本匹配。例如在算法復(fù)雜度分析中,系統(tǒng)能識別"log n"與"ln n"在漸近表示中的等價性。數(shù)值計算題目評估顯示,AI評判官可準(zhǔn)確識別160N與1.6×102N的相同答案,但在描述性問題的主觀判斷上仍存在差異。答案提取成功率分析表明,先進(jìn)模型能較好控制輸出長度,JSON解析錯誤率接近零。
實際測試結(jié)果引發(fā)行業(yè)深思。表現(xiàn)最優(yōu)的OpenAI GPT-5-High準(zhǔn)確率為42.9%,Gemini-2.5-Pro與Grok-4分別取得35.3%和34.1%的成績。錯誤類型分析顯示,27%的失誤源于數(shù)值計算錯誤,16.5%涉及數(shù)學(xué)表達(dá)式錯誤,13%為關(guān)鍵推理步驟缺失。跨學(xué)科題目成為普遍難點,所有模型在需要知識整合的題目上表現(xiàn)顯著下降。輸出長度限制實驗表明,將token數(shù)從32k增至64k僅帶來有限提升,凸顯推理能力本身的局限性。
該平臺已規(guī)劃長期發(fā)展路徑。研究團(tuán)隊將建立開放協(xié)作機(jī)制,邀請全球科研人員參與題庫建設(shè),通過嚴(yán)格審核流程維持質(zhì)量標(biāo)準(zhǔn)。持續(xù)更新機(jī)制確保測試內(nèi)容緊跟科學(xué)前沿,定期淘汰失效題目并補(bǔ)充新挑戰(zhàn)。學(xué)科覆蓋將擴(kuò)展至神經(jīng)科學(xué)、藥學(xué)等領(lǐng)域,任務(wù)格式擬增加假設(shè)生成、實驗設(shè)計等真實科研場景。技術(shù)基礎(chǔ)設(shè)施升級包括智能題目管理系統(tǒng)與更精準(zhǔn)的評估算法,同時探索將優(yōu)質(zhì)題目轉(zhuǎn)化為科學(xué)教育資源的可能性。











