滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

上海AI實驗室打造ATLAS平臺：為AI科學(xué)推理能力設(shè)“高難度考場”

時間：2026-01-20 05:24:30 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

上海AI實驗室聯(lián)合25所高校科研團(tuán)隊，推出了一款名為ATLAS的科學(xué)推理評測平臺，旨在為人工智能模型構(gòu)建一個高難度測試體系。該平臺涵蓋數(shù)學(xué)、物理、化學(xué)、生物、計算機(jī)科學(xué)、地球科學(xué)和材料科學(xué)七大基礎(chǔ)學(xué)科，通過約800道原創(chuàng)題目檢驗AI模型的真實科學(xué)推理能力。與傳統(tǒng)測試平臺不同，ATLAS要求AI模型完成復(fù)雜的多步驟推理，并給出詳細(xì)的解題過程，而非簡單的選擇題答案。

研究團(tuán)隊發(fā)現(xiàn)，現(xiàn)有AI評測體系存在顯著局限性。以MMLU測試為例，頂級模型在該基準(zhǔn)上的準(zhǔn)確率已超過90%，但其題目設(shè)計難以區(qū)分不同模型的能力差異。MATH數(shù)據(jù)集的演變更凸顯這一問題：2021年最強(qiáng)模型得分不足10%，而三年后同類模型得分飆升至90%以上。這種進(jìn)步更多反映模型對訓(xùn)練數(shù)據(jù)的記憶能力，而非真正的推理能力提升。數(shù)據(jù)污染、學(xué)科覆蓋單一、答案格式簡化等問題，導(dǎo)致現(xiàn)有測試無法準(zhǔn)確評估AI的科學(xué)研究潛力。

ATLAS平臺通過四項核心設(shè)計原則構(gòu)建測試體系。所有題目均由博士級專家全新創(chuàng)作，經(jīng)檢索系統(tǒng)確認(rèn)未被任何AI訓(xùn)練集收錄。題目設(shè)計強(qiáng)調(diào)跨學(xué)科融合，例如要求同時運用熱力學(xué)定律和微分方程解決材料科學(xué)問題。答案格式采用高保真標(biāo)準(zhǔn)，接受LaTeX格式的復(fù)雜數(shù)學(xué)表達(dá)式，并要求詳細(xì)展示推理鏈條。平臺通過預(yù)測試篩選題目，確保最終入選題目的平均通過率低于20%，維持測試的前沿挑戰(zhàn)性。

質(zhì)量控制體系貫穿題目開發(fā)全流程。專家團(tuán)隊首先完成題目創(chuàng)作與初步篩選，隨后進(jìn)入自動化預(yù)審階段，系統(tǒng)檢查題目格式與重復(fù)率。對抗性測試環(huán)節(jié)讓當(dāng)前最優(yōu)模型反復(fù)嘗試解題，只有準(zhǔn)確率持續(xù)低于40%的題目才能通過。多層級人工評議采用雙盲制度，由三位匿名專家從科學(xué)價值、難度等級、表述清晰度三個維度評分。最終答案需經(jīng)過AI輔助的精煉優(yōu)化，并接受事實準(zhǔn)確性與邏輯一致性驗證。整個篩選過程的淘汰率超過70%，確保測試題庫的高質(zhì)量標(biāo)準(zhǔn)。

測試內(nèi)容分布反映現(xiàn)代科學(xué)研究趨勢。計算推導(dǎo)類題目占比71.4%，要求AI完成從基礎(chǔ)運算到復(fù)雜系統(tǒng)建模的任務(wù)。選擇判斷類（12.2%）與解釋描述類（10.2%）題目考察知識掌握與表達(dá)能力，結(jié)構(gòu)復(fù)合類（6.1%）則融合多種能力要求。跨學(xué)科題目占比顯著，例如生物化學(xué)題目需結(jié)合反應(yīng)機(jī)理與系統(tǒng)調(diào)節(jié)知識，材料物理題目涉及量子力學(xué)與電學(xué)性質(zhì)的關(guān)聯(lián)分析。題目平均字?jǐn)?shù)達(dá)65詞，復(fù)雜場景描述超過200詞，50%以上題目采用復(fù)合問題設(shè)計，考驗AI的長程推理能力。

評估系統(tǒng)采用創(chuàng)新的AI互評機(jī)制。OpenAI o4-mini與GPT-OSS-120B擔(dān)任評判官，通過四階段流程處理答案：首先提取JSON格式的核心內(nèi)容，隨后進(jìn)行科學(xué)含義比對而非簡單文本匹配。例如在算法復(fù)雜度分析中，系統(tǒng)能識別"log n"與"ln n"在漸近表示中的等價性。數(shù)值計算題目評估顯示，AI評判官可準(zhǔn)確識別160N與1.6×102N的相同答案，但在描述性問題的主觀判斷上仍存在差異。答案提取成功率分析表明，先進(jìn)模型能較好控制輸出長度，JSON解析錯誤率接近零。

實際測試結(jié)果引發(fā)行業(yè)深思。表現(xiàn)最優(yōu)的OpenAI GPT-5-High準(zhǔn)確率為42.9%，Gemini-2.5-Pro與Grok-4分別取得35.3%和34.1%的成績。錯誤類型分析顯示，27%的失誤源于數(shù)值計算錯誤，16.5%涉及數(shù)學(xué)表達(dá)式錯誤，13%為關(guān)鍵推理步驟缺失。跨學(xué)科題目成為普遍難點，所有模型在需要知識整合的題目上表現(xiàn)顯著下降。輸出長度限制實驗表明，將token數(shù)從32k增至64k僅帶來有限提升，凸顯推理能力本身的局限性。

該平臺已規(guī)劃長期發(fā)展路徑。研究團(tuán)隊將建立開放協(xié)作機(jī)制，邀請全球科研人員參與題庫建設(shè)，通過嚴(yán)格審核流程維持質(zhì)量標(biāo)準(zhǔn)。持續(xù)更新機(jī)制確保測試內(nèi)容緊跟科學(xué)前沿，定期淘汰失效題目并補(bǔ)充新挑戰(zhàn)。學(xué)科覆蓋將擴(kuò)展至神經(jīng)科學(xué)、藥學(xué)等領(lǐng)域，任務(wù)格式擬增加假設(shè)生成、實驗設(shè)計等真實科研場景。技術(shù)基礎(chǔ)設(shè)施升級包括智能題目管理系統(tǒng)與更精準(zhǔn)的評估算法，同時探索將優(yōu)質(zhì)題目轉(zhuǎn)化為科學(xué)教育資源的可能性。

更多>同類資訊

長城汽車2025年營收增長超一成，技術(shù)賦能與生態(tài)出海雙輪驅(qū)動競爭力躍升

01-31

美“毅力”號火星車借助AI自主規(guī)劃路線成功完成復(fù)雜地形行駛?cè)蝿?wù)

01-31

上海卓益得發(fā)布全球首款仿生具身智能機(jī)器人Moya 高端情感陪護(hù)新選擇

01-31

徐匯寒假匠心尋訪啟幕！5家新基地攜AI與傳統(tǒng)技藝共筑成長新篇

01-31

湖北匠芯CVD硅碳建設(shè)進(jìn)展順利樣品獲頭部鋰電池企業(yè)高度認(rèn)可

01-31

NASA“雅典娜”超級計算機(jī)正式上線，為航天科研注入強(qiáng)勁算力新動能

01-31

美“毅力”號火星車：人工智能助力首次自主規(guī)劃火星行駛路線

01-31

Clawdbot數(shù)小時內(nèi)兩度更名最終定名OpenClaw

01-31

14萬OpenClaw智能體涌入社區(qū)：成立數(shù)字宗教創(chuàng)專屬語言探索意識新邊界

01-31

94歲臺積電創(chuàng)始人張忠謀坐輪椅亮相，與英偉達(dá)黃仁勛暢談科技往事

IT之家 1 月 31 日消息，科技媒體 Wccftech 昨日（1 月 30 日）發(fā)布博文，報道稱英偉達(dá) CEO 黃仁勛在臺北某餐廳，與 94歲高齡的臺積電創(chuàng)始人張忠謀會面。報道稱 94 歲的張忠謀在臺…

01-31

酷芯微電子赴港IPO：視覺AI芯片賽道崛起，營收大增搶占智能新風(fēng)口

本公司及作者在自身所知情的范圍內(nèi)，與本報告所指的證券或投資標(biāo)的不存在法律禁止的利害關(guān)系。如征得本公司同意進(jìn)行引用、刊發(fā)的，需在允許的范圍內(nèi)使用，并注明出處為“時代商業(yè)研究院”，且不得對本報告進(jìn)行任何有悖原意的…

01-31

2025年銅仁信息基建大跨越：5G全覆蓋千兆光網(wǎng)賦能鄉(xiāng)村發(fā)展

近日，記者從銅仁市大數(shù)據(jù)發(fā)展管理局獲悉，截至2025年底，銅仁市信息基礎(chǔ)設(shè)施建設(shè)取得顯著進(jìn)展，5G與千兆光網(wǎng)協(xié)同發(fā)展，網(wǎng)絡(luò)覆蓋廣度與服務(wù)水平實現(xiàn)全面躍升。截至2025年底，全市5G移動電話用戶占比提升至72.…

01-31

智能島制造體系：上汽通用五菱如何引領(lǐng)汽車生產(chǎn)“柔性智變”新潮流？

01-31

廣汽新管理團(tuán)隊首份答卷亮眼，改革科技雙輪驅(qū)動未來可期

01-31

全球首款完全仿生具身智能機(jī)器人Moya發(fā)布

01-31

點擊查看更多 +

全站最新

iPhone17系列成市場黑馬！庫克盛贊中國果粉，蘋果在中國強(qiáng)勢復(fù)蘇

雷軍2月1日晚直播來襲！探秘小米汽車工廠實驗室暢聊SU7研發(fā)及熱門話題

雷軍2月1日晚8點直播亮相！北京小米汽車工廠實驗室揭秘SU7研發(fā)故事

“毅力”號火星車“自力更生”：人工智能首擔(dān)大任規(guī)劃火星行駛路線

文庫網(wǎng)盤重組升級，百度以AI為刃開辟AI to C新戰(zhàn)場

2025汽車行業(yè)變革：以技術(shù)創(chuàng)新與真誠溝通錨定用戶需求新航向

熱門內(nèi)容

本欄最新

長城汽車2025年營收增長超一成，技術(shù)賦能與生態(tài)出海雙輪驅(qū)動競爭力躍升

智能島制造體系：上汽通用五菱如何引領(lǐng)汽車生產(chǎn)“柔性智變”新潮流？

廣汽新管理團(tuán)隊首份答卷亮眼，改革科技雙輪驅(qū)動未來可期

OpenAI AI代理應(yīng)對網(wǎng)頁威脅新策略：構(gòu)建獨立索引防惡意鏈接與提示注入

2027款奔馳S級“大換血”：近半部件革新，新技術(shù)與供應(yīng)商全揭秘

魏牌V9X來襲：從命名到技術(shù)，揭秘2026開年重頭戲的7大看點

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

上海AI實驗室打造ATLAS平臺：為AI科學(xué)推理能力設(shè)“高難度考場”