滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

FirstProof數學挑戰賽：谷歌AI自主解題勝出，OpenAI略遜一籌

時間：2026-02-26 20:21:49 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

在人工智能挑戰數學難題的賽道上，一場新的較量引發關注。由哈佛、斯坦福等高校11位頂尖數學家聯合設計的FirstProof數學題集，成為檢驗AI科研能力的試金石。這套題集包含10道從未公開的數學難題，答案在AI完成測試后才對外公布，徹底杜絕了背答案的可能性，連知名數學家陶哲軒都轉發推薦關注。

谷歌基于Gemini 3 Deep Think模型開發的數學智能體Aletheia，在這場挑戰中交出亮眼成績單。10道題中，Aletheia完全自主完成6道，其中5題獲得專家全票認可，剩余1題也取得5/7的通過率。更引人注目的是，它成功攻克了被公認為本套題最難、此前未被解決的第7題——關于含2-撓率的實半單群一致格的緊流形基本群可實現性問題，該題答案直到挑戰賽發布標準答案時才由人類團隊首次給出。

與谷歌的完全自主模式不同，OpenAI內部模型在測試中采取了人工輔助策略。其團隊在7天沖刺期內完成5道題的基本正確解答，但過程中通過人工協調模型與ChatGPT的交互，對答案進行驗證、格式整理和風格調整，最終呈現的部分結果系人工篩選最優解。初期公布的6題成績中，第2題（非阿基米德局部域上GL?的Rankin–Selberg積分非零性判定）因邏輯問題被社區質疑，后調整為5題正確。

Aletheia的技術架構展現出獨特優勢。其搭載2026年1月和2月兩個版本的Gemini 3 Deep Think模型，通過雙版本對比選擇最優解。從讀題到輸出答案的全流程實現零人工干預，系統可直接解析原始問題文本，經自主推理后輸出LaTeX格式答案，并內置驗證機制確保邏輯嚴謹性。面對無法可靠證明的題目，系統會直接拒絕回答而非生成無效內容，這種智能篩選機制避免了4道題的誤答情況。

在資源分配方面，Aletheia展現出動態調整能力。處理第7題這類超難題時，系統自動調用遠超常規題的推理算力，通過生成子代理多輪推導與驗證子代理嚴格校驗的協作模式完成解答。面對第10題（含缺失數據的核化CP–ALS子問題）這類數值計算題，系統創新采用動態生成矩陣行的方式，將計算復雜度從傳統方法的O(n3r3)壓縮至O(qr+n2r)，效率提升數個量級。

這場較量不僅體現在解題數量上，更凸顯了技術路徑的差異。谷歌通過完全自主的AI系統實現6題解答，OpenAI則借助人工輔助完成5題，兩者在模式創新與結果呈現上形成鮮明對比。據悉，新一輪難度更高的題集將于3月中旬發布，這場AI數學競賽的后續發展值得持續關注。

相關研究動態可通過以下鏈接查閱：[1]https://x.com/lmthang/status/2021644542852968952[2]https://mathstodon.xyz/@tao/116022211452443707[3]https://x.com/polynoamial/status/2022527227049742779

更多>同類資訊

亞馬遜Alexa+AI新升級：融入“個性”元素，三種風格滿足多元交互需求

02-26

小米汽車立項路線引熱議，潘九堂揭秘：最終決然挑戰豪華品牌陣營

02-26

谷歌“收編”Intrinsic：深化合作加速物理AI落地賦能先進制造業

02-26

清華陳建宇×斯坦福團隊強強聯合，Ctrl-World世界模型具身任務能力全球奪冠

02-26

Meta重金攬才僅7個月，華人AI大咖龐若鳴轉投OpenAI，技術圈人才流動加速

02-26

雷軍2月27日晚直播揭秘小米汽車安全體系邀專家共話安全之道

02-26

京東“百億超市”頻道重磅上線，3年超200億補貼讓用戶享實惠好貨

02-26

摩爾線程MTT S5000與阿里Qwen3.5三款新模型實現全方位適配合作

02-26

特斯拉Model S和X本季度末將停產美國官網部分專屬車漆配置已無法選配

02-26

印度前首富發力AI硬件：信實推智能眼鏡與人形機器人入局競爭

02-26

xAI動蕩揭秘：馬斯克深度介入，五“作戰室”齊開安全卻成軟肋

02-26

潘九堂揭秘小米汽車立項：舍易求難，毅然選擇正面硬剛TBBA

02-26

雷軍2月27日直播邀專家解讀：深度剖析小米汽車安全體系全貌

02-26

雷軍明晚7點半開啟直播，聚焦小米汽車安全體系深度解析

02-26

亞馬遜擬最高500億美元投資OpenAI，先投150億后續取決于AGI或上市

02-26

點擊查看更多 +

全站最新

圖解丨南下資金連續第2日凈賣出港股，拋中海油、阿里

美股異動 | C3.ai盤前暴跌22% Q3業績及Q4指引均遠遜預期

龍虎榜丨大族激光漲停創新高，四機構凈賣出3.06億元

美股異動丨賽富時盤前跌4% 26財年Q4業績超預期新財年營收展望疲弱

美股異動丨Pure Storage盤前漲約4% Q4業績超預期營收首次突破10億美元

Mirxes（02629.HK）聯手Apollo，豪擲5000萬美金成立JV，搶灘印度市場

熱門內容

本欄最新

京東“百億超市”頻道上線：200億補貼撬動日常消費戰略轉型瞄準2000億增量

小米汽車立項存路線分歧：保守求穩還是迎難而上？最終決意硬剛傳統豪強與特斯拉

明晚7點半雷軍再開直播！

存儲芯片漲價與對手圍剿雙重夾擊，“非洲手機之王”傳音路在何方？

百度“蘿卜快跑”獲迪拜全無人駕駛測試許可，2026年或啟商業化運營

科大訊飛三款學習機深度評測：哪款能成為孩子高效學習的“秘密武器”？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

FirstProof數學挑戰賽：谷歌AI自主解題勝出，OpenAI略遜一籌