谷歌近日宣布對旗下Gemini 3 Deep Think模型進行重大升級,推出專為科學(xué)、研究與工程領(lǐng)域設(shè)計的"推理模式"。這一更新旨在突破傳統(tǒng)AI在復(fù)雜問題處理上的局限,為科研人員提供更強大的工具支持。新版本由谷歌工程師與多領(lǐng)域科學(xué)家聯(lián)合開發(fā),重點解決真實科研場景中數(shù)據(jù)不完整、問題邊界模糊等挑戰(zhàn)。
在技術(shù)能力方面,新版Deep Think展現(xiàn)出顯著提升。該模型在終極人類考試(Humanity's Last Exam)中取得48.4%的成績,在ARC-AGI-2基準測試中達到84.6%(經(jīng)ARC Prize Foundation驗證),Codeforces編程競賽基準獲得3455的Elo評分。更引人注目的是,其在2025年國際數(shù)學(xué)奧林匹克競賽模擬測試中達到金牌水平,在物理和化學(xué)奧賽筆試部分同樣取得金牌級表現(xiàn),理論物理基準測試CMT-Benchmark得分50.5%。
此次升級的另一重要突破是應(yīng)用范圍的擴展。從當(dāng)?shù)貢r間2月12日起,Google AI Ultra訂閱用戶可通過Gemini應(yīng)用直接使用新功能。同時,谷歌通過Gemini API向特定研究人員、工程師和企業(yè)開放"早期訪問計劃",相關(guān)申請入口已在官方平臺上線。這種分階段推廣策略既保證了技術(shù)穩(wěn)定性,也為專業(yè)用戶提供了優(yōu)先體驗機會。
谷歌特別強調(diào),Deep Think的研發(fā)目標(biāo)超越單純追求測試分數(shù)。該模型被設(shè)計為科研人員的"智能助手",能夠協(xié)助解釋復(fù)雜數(shù)據(jù)集、通過代碼構(gòu)建物理系統(tǒng)模型等實際任務(wù)。例如在材料科學(xué)領(lǐng)域,研究人員可利用其處理實驗數(shù)據(jù)中的噪聲信息;在工程設(shè)計中,工程師能借助其快速驗證不同參數(shù)組合的可行性。這種將理論能力轉(zhuǎn)化為實用工具的定位,標(biāo)志著AI技術(shù)向?qū)I(yè)領(lǐng)域深度滲透的新趨勢。
技術(shù)實現(xiàn)層面,新版本通過改進推理架構(gòu)和知識表示方法,顯著提升了處理不確定性問題的能力。針對科研數(shù)據(jù)常有的缺失值和異常值,模型開發(fā)了專門的容錯機制;對于開放性問題,則采用多路徑探索策略生成多樣化解決方案。這些特性使其在氣候建模、基因分析等前沿領(lǐng)域展現(xiàn)出應(yīng)用潛力,部分合作機構(gòu)已開始將其用于實際研究項目。









