谷歌近日宣布對旗下人工智能模型Gemini 3 Deep Think進行重大升級,推出專為科學、研究與工程領域設計的“推理模式”。此次更新旨在應對真實科研場景中普遍存在的復雜問題,例如邊界模糊、解法不唯一以及數據不完整等挑戰。開發團隊由谷歌工程師與多領域科學家、研究人員共同組成,通過跨學科協作優化模型性能。
更新后的Deep Think顯著擴大了應用范圍。自當地時間2月12日起,Google AI Ultra訂閱用戶可通過Gemini應用直接使用該功能。同時,谷歌首次通過Gemini API向部分研究人員、工程師和企業開放“早期訪問計劃”,并設立申請通道招募測試用戶,以收集實際應用反饋。
在性能提升方面,新版Deep Think在數學、算法與編程等高難度推理任務中表現突出。未借助外部工具的情況下,該模型在終極人類考試(Humanity's Last Exam)中取得48.4%的成績;在ARC-AGI-2基準測試中達到84.6%,結果經ARC Prize Foundation驗證;在Codeforces編程競賽中獲得3455的Elo評級;并在2025年國際數學奧林匹克競賽模擬測試中達到金牌水平。
除數理領域外,Deep Think在自然科學方面的能力也得到強化。測試顯示,該模型在2025年國際物理奧林匹克與國際化學奧林匹克筆試模擬中均取得金牌級成績,同時在理論物理相關的CMT-Benchmark測試中獲得50.5%的得分,展現出跨學科推理的潛力。
谷歌強調,Deep Think的升級不僅關注基準測試分數,更注重推動實際科研與工程應用。例如,該模型可協助研究人員解析復雜數據集,或幫助工程師通過代碼構建物理系統模型。通過Gemini API開放早期訪問被視為關鍵一步,谷歌計劃持續優化功能,使其更貼近專業領域的實際需求。











