新智元報道
編輯:桃子 好困
剛剛,谷歌Gemini 3 Deep Think原地進化!在Codeforces比賽中拿下全球第七,擊敗了人類選手。短短三個月,全方位刷爆SOTA。
猝不及防,谷歌DeepMind深夜又放大招了!
今天,Gemini 3 Deep Think重磅升級,幾乎刷爆全領域的SOTA,標志著AI推理能力進入了全新維度。
離職Anthropic入職谷歌的華人學者姚順宇參與了Gemini 3 Deep Think
這一次,在科學研究和硬核工程領域,Deep Think堪稱一個「最強大腦」。
它可以將草圖渲染成一個高保真、實用的3D筆記本電腦支架圖,并直接將其打印出來。
谷歌VP曬出這個副項目,最終的成品是這樣子的。
新版Deep Think的實力究竟有多恐怖?
在編程界,它刷出了3455 Elo的驚人分數,達到世界冠軍級的水準,沖入了Codeforces比賽人類TOP 10!
也就是說,全球只有7人擊敗了Gemini 3 Deep Think,一年前,最強o3也僅拿下2727 Elo。
在人類最后考試(HLE)上,Gemini 3 Deep Think刷新SOTA,拿下了48.4%的成績。
甚至,它在一夜之間讓最難的ARC-AGI-2基準直接飽和,以84.6%新SOTA一騎絕塵。
左右滑動查看
與Gemini 3 Pro相比,Deep Think實現了全方位反超,并將Claude Opus 4.6、GTP-5.2直接踩在了腳下。
更令人震撼的是,Gemini 3 Deep Think的實戰表現。
羅格斯大學數學家Lisa Carbone在研究時,讓它審查一篇高深的物理數學論文。
結果,Deep Think竟發現了一個連人類同行評審,都遺漏的細微邏輯漏洞。
Gemini 3 Deep Think這波史詩級進化,又讓某些人睡不著了。
目前,Google AI Ultra訂閱用戶即可在Gemini中體驗新版Deep Think。同時,首次通過API向部分研究人員、工程師和企業開放。
實力刷爆SOTA,奧賽金牌大滿貫
去年,Deep Think專門版成功解決了推理領域最艱巨的任務,在數學和編程世界錦標賽中奪下金牌。
就在昨天,谷歌DeeoMind還做了一個預熱。
背靠初代Deep Think的「AI數學家」Aletheia可以獨立撰寫論文,證明了「Erd?s猜想」中多個難題。
不僅如此,Deep Think直接推翻了十年猜想,一舉攻克18大研究瓶頸。
而現在,迭代后的Deep Think已在多項高難度的基準測試中刷新SOTA:
人類最后的考試(HLE):設定了新標桿,在不使用工具的情況下準確率達48.4%;
ARC-AGI-2:達到了前所未有的84.6%,并獲得ARC獎項基金會的驗證;
算法競賽平臺Codeforces:Elo評分達到了驚人的3455分;
2025 IMO:達到金牌水平。
除了數學和算法競賽,Gemini 3 Deep Think現在在化學和物理等廣泛的科學領域也表現優異。
在2025年國際物理奧林匹克和化學奧林匹克的筆試部分,新版Deep Think同樣具備了金牌實力。
它在高級理論物理方面也游刃有余,在CMT-Benchmark測試中取得了50.5%的成績。
另外,Gemini 3 Deep Think在ARC-AGI-1上,直接頂到頭了。
官方演示中,Gemini 3 Deep Think可以根據論文,為「時空循環視頻Transformer」架構創建一個的視化方案。
Deep Think殺入科研,十倍加速
除了頂尖的性能表現,Deep Think還突破了智能邊界,能夠解決科學、研究和工程領域的現代難題。
它不僅能幫助科研人員解讀復雜數據,還能輔助工程師通過代碼對物理系統建模。
在早期測試中,許多科學家在科研工作流中,顯著提升了研究產出質量。
在杜克大學,Wang Lab用Deep Think優化了復雜晶體生長的制造方法,以用于潛在的半導體材料發現。
令人意想不到,Deep Think成功設計出了一種生長大于100 μm薄膜的配方,達到了以前方法難以實現的精確目標。
我不是CAD設計師,但有了Deep Think,可以直接將草圖變成可3D打印的實物。
它會分析繪圖,對復雜形狀進行建模,并生成3D打印所需的模型文件,讓物理零部件建模加速十倍。
只需發送一張圖片、一個提示詞,它就能夠深入思考,便可以提供幾個之前從自己未想過的全新設計方案。
Deep Think將深厚的科學知識與實用的工程能力相結合,超越了抽象理論,真正開始推動實際應用。
網友驚艷實測,物理模擬太強
在實測中,Gemini 3 Deep Think展現出超強的物理模擬能力。
它可以模擬光線追蹤,在瀏覽器中就可以實現。
并且還可以在單個HTML文件中,構建出一個完整的Three.js場景,渲染出博物館中古典油畫難以區分的全3D室內房間。
Simon Willison用Gemini 3 Deep Think畫了一張鵜鶘騎自行車的SVG矢量圖,效果非常驚艷。
他表示,這是自己目前見過最棒的一版了。
既然在處理那條基礎的「生成一張鵜鶘騎自行車的SVG」指令時表現得這么出色,Simon決定加大難度,試個更有挑戰性的版本:
生成一張加州褐鵜鶘騎自行車的SVG圖像。自行車必須要有輻條,車架形狀要準確。鵜鶘必須具備其標志性的大喉囊,且要有清晰的羽毛細節。必須能清楚地看出鵜鶘正在蹬車。圖像需要展示加州褐鵜鶘完整的繁殖羽特征。
結果如下:
這一次,谷歌讓AI真正滲透進了科研工作的「最后一公里」:審閱論文、工業設計、實驗優化,無所不包。
當AI能夠揪出連人類審稿人都忽略的邏輯漏洞時,「輔助工具」這四個字顯然已經配不上它了。
如今,壓力球拋回給了OpenAI。
面對谷歌這記直擊痛點的「深思」回擊,奧特曼的下一張王牌,必須足夠震撼。
參考資料:
https://x.com/GoogleDeepMind/status/2021981512925585703
https://x.com/GoogleDeepMind/status/2021981510400709092
https://x.com/kimmonismus/status/2021983169478533148














