在人工智能領(lǐng)域,Gemini 3的發(fā)布無疑成為今年備受矚目的里程碑事件。這款由谷歌DeepMind團隊打造的模型,在性能上實現(xiàn)了巨大飛躍,其背后是龐大團隊的協(xié)作以及無數(shù)改進與創(chuàng)新的融合。谷歌DeepMind的Gemini 3預(yù)訓(xùn)練負(fù)責(zé)人Sebastian Borgeaud,同時也是開創(chuàng)性論文RETRO的合著者,在首次播客訪談中,深入剖析了這款前沿模型的研發(fā)邏輯。
Sebastian Borgeaud指出,Gemini 3的成功并非依賴單一關(guān)鍵突破,而是眾多因素共同作用的結(jié)果。從架構(gòu)層面看,它基于Transformer的混合專家架構(gòu),這種架構(gòu)將計算量的使用與參數(shù)規(guī)模分離開來,通過動態(tài)路由把計算能力分配到特定專家模塊。在預(yù)訓(xùn)練領(lǐng)域,規(guī)模雖是提升模型性能的重要因素,但并非唯一。架構(gòu)創(chuàng)新和數(shù)據(jù)創(chuàng)新如今的重要性愈發(fā)凸顯,例如長上下文能力、注意力機制等方面的研究,正成為推動預(yù)訓(xùn)練發(fā)展的關(guān)鍵方向。
當(dāng)前,人工智能行業(yè)正經(jīng)歷從“數(shù)據(jù)無限”向“數(shù)據(jù)有限”范式的轉(zhuǎn)變。Sebastian Borgeaud認(rèn)為,雖然目前不會面臨數(shù)據(jù)枯竭的問題,但數(shù)據(jù)量的有限性確實改變了研究方向和研究問題的思路。合成數(shù)據(jù)的使用需要謹(jǐn)慎,因為很容易誤用。而模型架構(gòu)的改進,能讓模型用更少的數(shù)據(jù)實現(xiàn)更好的效果。同時,評估在預(yù)訓(xùn)練中至關(guān)重要且極具難度,要避免模型過度擬合測試集,創(chuàng)建獨立的評估集并嚴(yán)格保密是了解模型實際性能的關(guān)鍵。
在團隊協(xié)作方面,Gemini 3的預(yù)訓(xùn)練團隊規(guī)模龐大,約150到200人每天在預(yù)訓(xùn)練相關(guān)領(lǐng)域工作,涵蓋數(shù)據(jù)、模型、基礎(chǔ)設(shè)施和評估等多個方面。Sebastian Borgeaud作為預(yù)訓(xùn)練負(fù)責(zé)人之一,既要負(fù)責(zé)實際研究工作,提升模型性能,又要協(xié)調(diào)整合團隊成員的工作,讓每個人都能發(fā)揮所長,共同實現(xiàn)最大突破。
回顧個人經(jīng)歷,Sebastian Borgeaud在歐洲多個地方長大,擁有多元的成長背景。他在劍橋大學(xué)完成本科和碩士學(xué)業(yè)后,憑借碩士期間講師的推薦,于2018年加入DeepMind。最初,他參與的項目與強化學(xué)習(xí)相關(guān),但因更希望從事與真實世界數(shù)據(jù)相關(guān)的工作,他轉(zhuǎn)向表征學(xué)習(xí)領(lǐng)域,并逐漸投身于大語言模型的規(guī)模化發(fā)展研究,參與了Gopher、Chinchilla和Retro等項目,積累了豐富的預(yù)訓(xùn)練經(jīng)驗。
對于Gemini 3的架構(gòu),從宏觀層面看,與前一個版本相比沒有太大變化,但多個方面的改進促成了巨大提升。作為原生多模態(tài)模型,Gemini 3由同一個神經(jīng)網(wǎng)絡(luò)同時處理文本、圖像、音頻等不同模態(tài)的信息。雖然這會增加一定的成本,包括復(fù)雜性成本和計算成本,但帶來的收益在很大程度上超過了成本。
當(dāng)談到模型如何用更少的數(shù)據(jù)學(xué)習(xí)時,Sebastian Borgeaud表示,模型架構(gòu)研究就是為了解決這個問題。改進模型架構(gòu)可以讓使用相同數(shù)量數(shù)據(jù)訓(xùn)練的模型獲得更好結(jié)果,或者用更少的數(shù)據(jù)達到與之前模型相同的結(jié)果。不過,目前模型訓(xùn)練所需的數(shù)據(jù)量仍然遠遠超過人類所能接觸到的數(shù)據(jù)量。
對于預(yù)訓(xùn)練領(lǐng)域未來的發(fā)展方向,Sebastian Borgeaud認(rèn)為長上下文能力是一個值得關(guān)注的方面。Gemini1.5在長上下文能力方面取得巨大飛躍,未來一兩年內(nèi),不僅會提高長上下文處理的效率,還會進一步擴展模型的上下文長度。同時,注意力機制方面最近取得的一些有趣發(fā)現(xiàn),也將塑造未來的研究方向。
在智能體領(lǐng)域,Sebastian Borgeaud認(rèn)為視覺感知非常重要,因為模型需要與計算機屏幕進行交互,具備出色的屏幕理解能力是關(guān)鍵。對于“氛圍編程”概念,他認(rèn)為這可能與強化學(xué)習(xí)規(guī)模化和后訓(xùn)練相關(guān),通過大量數(shù)據(jù)訓(xùn)練,模型能夠很好地完成這類任務(wù)。
對于行業(yè)整體發(fā)展趨勢,Sebastian Borgeaud提到持續(xù)學(xué)習(xí)是一個核心主題。持續(xù)學(xué)習(xí)是指隨著新知識的發(fā)現(xiàn),不斷用這些知識更新模型。目前,通過后訓(xùn)練和搜索工具調(diào)用,模型可以獲取新信息。未來,也許會通過改變訓(xùn)練算法,讓模型能夠持續(xù)地從來自現(xiàn)實世界的數(shù)據(jù)流中進行學(xué)習(xí)。
對于希望在人工智能領(lǐng)域有所建樹的學(xué)生或博士生,Sebastian Borgeaud建議,在進行研究的同時要了解系統(tǒng)層面的知識,理解從硬件到研究層面的整個技術(shù)棧,這樣能夠發(fā)現(xiàn)不同層級之間的差距,全面思考研究想法對整個技術(shù)棧的影響。他還對檢索研究領(lǐng)域充滿興趣,認(rèn)為隨著后訓(xùn)練和強化學(xué)習(xí)規(guī)模化的發(fā)展,類似Retro的技術(shù)可能會應(yīng)用于頂尖模型中。
在初創(chuàng)公司發(fā)展方面,Sebastian Borgeaud認(rèn)為,雖然基礎(chǔ)模型能力越來越強,訓(xùn)練數(shù)據(jù)越來越多樣化,但初創(chuàng)公司可以觀察模型能力的進步趨勢,尋找那些進展不大的領(lǐng)域作為研究方向。對于他個人而言,未來一年左右,與眾多優(yōu)秀的人合作,共同見證人工智能領(lǐng)域的快速發(fā)展,是一件非常令人興奮的事情。














