在人工智能挑戰數學難題的賽道上,一場新的較量引發關注。由哈佛、斯坦福等高校11位頂尖數學家聯合設計的FirstProof數學題集,成為檢驗AI科研能力的試金石。這套題集包含10道從未公開的數學難題,答案在AI完成測試后才對外公布,徹底杜絕了背答案的可能性,連知名數學家陶哲軒都轉發推薦關注。
谷歌基于Gemini 3 Deep Think模型開發的數學智能體Aletheia,在這場挑戰中交出亮眼成績單。10道題中,Aletheia完全自主完成6道,其中5題獲得專家全票認可,剩余1題也取得5/7的通過率。更引人注目的是,它成功攻克了被公認為本套題最難、此前未被解決的第7題——關于含2-撓率的實半單群一致格的緊流形基本群可實現性問題,該題答案直到挑戰賽發布標準答案時才由人類團隊首次給出。
與谷歌的完全自主模式不同,OpenAI內部模型在測試中采取了人工輔助策略。其團隊在7天沖刺期內完成5道題的基本正確解答,但過程中通過人工協調模型與ChatGPT的交互,對答案進行驗證、格式整理和風格調整,最終呈現的部分結果系人工篩選最優解。初期公布的6題成績中,第2題(非阿基米德局部域上GL?的Rankin–Selberg積分非零性判定)因邏輯問題被社區質疑,后調整為5題正確。
Aletheia的技術架構展現出獨特優勢。其搭載2026年1月和2月兩個版本的Gemini 3 Deep Think模型,通過雙版本對比選擇最優解。從讀題到輸出答案的全流程實現零人工干預,系統可直接解析原始問題文本,經自主推理后輸出LaTeX格式答案,并內置驗證機制確保邏輯嚴謹性。面對無法可靠證明的題目,系統會直接拒絕回答而非生成無效內容,這種智能篩選機制避免了4道題的誤答情況。
在資源分配方面,Aletheia展現出動態調整能力。處理第7題這類超難題時,系統自動調用遠超常規題的推理算力,通過生成子代理多輪推導與驗證子代理嚴格校驗的協作模式完成解答。面對第10題(含缺失數據的核化CP–ALS子問題)這類數值計算題,系統創新采用動態生成矩陣行的方式,將計算復雜度從傳統方法的O(n3r3)壓縮至O(qr+n2r),效率提升數個量級。
這場較量不僅體現在解題數量上,更凸顯了技術路徑的差異。谷歌通過完全自主的AI系統實現6題解答,OpenAI則借助人工輔助完成5題,兩者在模式創新與結果呈現上形成鮮明對比。據悉,新一輪難度更高的題集將于3月中旬發布,這場AI數學競賽的后續發展值得持續關注。
相關研究動態可通過以下鏈接查閱:[1]https://x.com/lmthang/status/2021644542852968952[2]https://mathstodon.xyz/@tao/116022211452443707[3]https://x.com/polynoamial/status/2022527227049742779











