谷歌近日宣布對旗下人工智能模型Gemini 3 Deep Think進(jìn)行重大升級,推出專為科學(xué)、研究與工程領(lǐng)域設(shè)計(jì)的"推理模式"。這一版本由谷歌工程師與多領(lǐng)域科研人員聯(lián)合開發(fā),旨在解決真實(shí)科研場景中普遍存在的復(fù)雜問題,包括邊界模糊、多解并存以及數(shù)據(jù)不完整等挑戰(zhàn)。

在應(yīng)用范圍方面,更新后的Deep Think自2月12日起通過Gemini應(yīng)用向Google AI Ultra訂閱用戶開放。同時(shí),谷歌首次通過Gemini API向特定研究人員、工程師和企業(yè)開放"早期訪問計(jì)劃",并設(shè)置申請通道招募測試用戶。這一舉措標(biāo)志著該技術(shù)開始從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用場景。
性能測試顯示,新版模型在數(shù)學(xué)與編程領(lǐng)域表現(xiàn)突出。在不借助外部工具的情況下,該模型在終極人類考試(Humanity's Last Exam)中取得48.4%的成績,在ARC-AGI-2測試中達(dá)到84.6%(經(jīng)ARC Prize Foundation驗(yàn)證),在Codeforces編程競賽基準(zhǔn)中獲得3455的Elo評分,更在2025年國際數(shù)學(xué)奧林匹克競賽模擬測試中達(dá)到金牌水平。這些數(shù)據(jù)表明其推理能力已接近人類頂尖水平。
除計(jì)算領(lǐng)域外,模型在自然科學(xué)方面同樣展現(xiàn)優(yōu)勢。在2025年國際物理奧林匹克與國際化學(xué)奧林匹克模擬筆試中,該模型均取得金牌級成績,并在理論物理基準(zhǔn)測試CMT-Benchmark中獲得50.5%的得分。這些突破使其成為首個(gè)在多學(xué)科奧賽級別測試中均表現(xiàn)優(yōu)異的人工智能系統(tǒng)。

谷歌強(qiáng)調(diào),Deep Think的研發(fā)不僅關(guān)注基準(zhǔn)測試分?jǐn)?shù),更注重實(shí)際科研與工程應(yīng)用。該模型可協(xié)助研究人員解析復(fù)雜數(shù)據(jù)集,幫助工程師通過代碼構(gòu)建物理系統(tǒng)模型。通過Gemini API的早期訪問計(jì)劃,谷歌希望將這項(xiàng)技術(shù)推廣至科研機(jī)構(gòu)和工業(yè)界,解決真實(shí)世界中的技術(shù)難題。目前,首批測試用戶已開始在氣候建模、新材料開發(fā)等領(lǐng)域展開應(yīng)用探索。









