谷歌近日宣布,旗下AI模型Gemini 3迎來重大升級,推出專為復雜任務設計的推理模式"Deep Think"。這一突破性進展標志著AI在科學工程領域的應用邁入新階段,其性能在多項國際頂級學術測試中達到人類頂尖水平,引發科技界廣泛關注。
在數學與編程領域,Deep Think展現出驚人實力。該模型在Codeforces競技編程平臺獲得3455分,相當于全球排名第八的程序員水平,較此前OpenAI o3模型的2727分(第175名)實現質的飛躍。更令人矚目的是,其在2025年國際數學奧林匹克競賽模擬測試中達到金牌標準,在ARC-AGI-2測試中取得84.6%的突破性成績,經ARC Prize基金會驗證創下新高。在"人類終極考試"基準測試中,Deep Think以48.4%的準確率刷新SOTA紀錄,且全程未使用任何外部工具。
成本效益的革命性提升成為另一大亮點。數據顯示,Deep Think在ARC-AGI-1測試中每任務成本僅7.17美元,較OpenAI o3-preview版本約2000-3000美元的成本降低280至420倍。這種指數級下降的成本結構,為大規模科研應用開辟了可行路徑。谷歌工程師透露,模型通過優化算法架構,在保持精度的同時將計算效率提升了三個數量級。
跨學科應用能力同樣令人驚嘆。在化學領域,Deep Think在2025年國際化學奧林匹克競賽筆試部分取得金牌成績;物理方面,其在凝聚態理論基準測試CMT-Benchmark中達到50.5%的準確率。更突破性的是,該模型已展現出將二維草圖自動轉化為3D打印文件的工程能力,羅格斯大學團隊利用其成功識別出高能物理論文中的邏輯缺陷,杜克大學實驗室則借助其優化出新型半導體材料制備工藝。
技術實現層面,Deep Think創新性地融合了科學理論框架與工程實踐。谷歌DeepMind團隊介紹,模型通過構建多層次推理引擎,既能處理抽象數學證明,又能解決實際工程問題。這種"理論-實踐"雙輪驅動的設計,使其在處理未見過的問題類型時表現出色,例如在ARC-AGI測試中,模型需自主理解任務規則并推導出解決方案。
目前,Deep Think已通過Gemini應用向Google AI Ultra訂閱用戶開放,同時通過API向部分科研機構和企業提供服務。教育領域已出現早期應用案例:麻省理工學院將模型引入量子計算課程,幫助學生驗證復雜算法;劍橋大學材料系則利用其加速新型超導體研發周期。隨著更多專業用戶參與,這場由AI驅動的科研革命正在改寫人類探索未知的邊界。










