麻省理工學院計算機科學與人工智能實驗室的一項新研究,為人工智能訓練領(lǐng)域帶來了突破性發(fā)現(xiàn)。研究者甘雨露和菲利普·伊索拉帶領(lǐng)團隊發(fā)現(xiàn),經(jīng)過充分預訓練的大型AI模型內(nèi)部,竟?jié)摬刂罅烤邆鋵I(yè)能力的“任務專家”,且通過隨機調(diào)整參數(shù)即可激活這些能力,甚至在某些場景下效果優(yōu)于傳統(tǒng)訓練方法。
傳統(tǒng)AI訓練通常需要針對特定任務設計算法,通過大量數(shù)據(jù)迭代優(yōu)化模型參數(shù)。而MIT團隊的研究表明,當模型規(guī)模足夠大且預訓練充分時,參數(shù)空間會形成類似“叢林”的結(jié)構(gòu),其中分布著各類“專家”——有的擅長數(shù)學推理,有的精通編程,有的善于創(chuàng)意寫作。這種“神經(jīng)叢林”現(xiàn)象顛覆了人們對AI訓練的認知:無需從零培養(yǎng)新能力,只需找到并激活已存在的專家即可。
研究團隊通過實驗驗證了這一發(fā)現(xiàn)。他們以語言模型為例,隨機生成數(shù)千個參數(shù)變化,測試其在數(shù)學、編程、寫作等任務上的表現(xiàn)。結(jié)果顯示,在5億參數(shù)的小模型中,僅約5%的隨機變化能提升性能;而在320億參數(shù)的大模型中,這一比例躍升至60%以上。這意味著,大模型的參數(shù)空間中“專家”密度更高,隨機搜索找到有效解的概率顯著增加。
進一步分析發(fā)現(xiàn),這些“專家”不僅數(shù)量多,且專業(yè)化程度高。例如,在數(shù)學任務中表現(xiàn)優(yōu)異的參數(shù)變化,在編程任務上可能效果平平,表明模型內(nèi)部形成了真正的分工。研究團隊用“光譜差異度”指標衡量專業(yè)化程度,發(fā)現(xiàn)隨著模型規(guī)模擴大,專家間的差異化愈發(fā)明顯,類似人類社會中職業(yè)分工的細化。
基于這一發(fā)現(xiàn),團隊開發(fā)了名為RandOpt(隨機優(yōu)化)的訓練算法。該算法分為兩步:首先隨機生成大量參數(shù)變化,篩選出在目標任務上表現(xiàn)最佳的“專家”;然后讓這些專家組成團隊,通過集體投票解決問題。實驗表明,RandOpt在數(shù)學推理、編程、化學反應預測等任務上,效果可媲美甚至超越傳統(tǒng)方法,且訓練時間大幅縮短——無論任務復雜度如何,均只需一輪并行計算。
RandOpt的成功源于預訓練模型的特殊結(jié)構(gòu)。研究團隊將參數(shù)空間比作地形圖,預訓練過程會根據(jù)不同任務數(shù)據(jù)“改造地形”,形成適合各類任務的“高原區(qū)域”。大模型的“高原”更寬廣,隨機搜索碰到有效區(qū)域的概率更高。同一任務可能存在多種解決策略,對應參數(shù)空間中的不同區(qū)域,這種多樣性解釋了專家團隊為何優(yōu)于單個專家。
實驗驗證了理論的普適性。團隊在5億至320億參數(shù)的模型上測試RandOpt,覆蓋數(shù)學、編程、寫作、化學等領(lǐng)域。結(jié)果顯示,隨著模型規(guī)模擴大,RandOpt的效果提升顯著。例如,在70億參數(shù)的模型中,RandOpt將數(shù)學推理準確率從10%提升至85%。在視覺語言模型的圖像問答任務中,RandOpt也將準確率提升了12.4%,表明“神經(jīng)叢林”現(xiàn)象不僅限于文本模型。
深入分析發(fā)現(xiàn),性能提升源于多重因素。以數(shù)學任務為例,約12.3%的改進來自推理能力提升,19.0%源于輸出格式修正。這表明“專家叢林”包含不同類型:推理專家擅長解決復雜問題,格式專家則能優(yōu)化輸出規(guī)范。在圖像生成任務中,團隊還發(fā)現(xiàn)了“色彩專家”——不同參數(shù)調(diào)整會使圖像傾向不同色調(diào),進一步證明了專家的多樣性。
這一發(fā)現(xiàn)對AI訓練實踐具有重要啟示。首先,它簡化了訓練流程:傳統(tǒng)方法需多輪迭代調(diào)整超參數(shù),而RandOpt完全并行,可在3.2分鐘內(nèi)完成200個GPU集群的訓練。其次,它改變了對預訓練模型的理解——預訓練不僅是起點,更是“專家生態(tài)系統(tǒng)”的載體,后續(xù)任務只需發(fā)現(xiàn)并激活已有專家。專家團隊方法提高了可解釋性:通過分析專家特長,可理解模型在何種情況下被激活,增強系統(tǒng)可信度。
盡管RandOpt優(yōu)勢顯著,但其應用仍受限于預訓練質(zhì)量。在預訓練不充分的模型上,專家叢林現(xiàn)象不明顯,隨機搜索效果下降。專家團隊在推理時需更多計算資源,雖可通過知識蒸餾壓縮模型,但增加了系統(tǒng)復雜性。研究團隊指出,未來需探索更智能的專家發(fā)現(xiàn)方法,以及優(yōu)化專家協(xié)作策略,以進一步提升效率。
A:指大型預訓練AI模型的參數(shù)空間中,隱藏著大量具備專業(yè)能力的“任務專家”。這些專家各有所長,隨著模型規(guī)模擴大,其密度和專業(yè)化程度增加,形成類似叢林的結(jié)構(gòu),隨機搜索即可找到有效解。
A:該算法分兩步:首先隨機生成數(shù)千個參數(shù)變化,篩選目標任務上表現(xiàn)最佳的“專家”;然后讓這些專家組成團隊,通過集體投票解決問題。其優(yōu)勢在于完全并行,無需復雜迭代,訓練時間恒定。
A:目前不能完全替代。其效果高度依賴高質(zhì)量預訓練,更適用于在預訓練模型基礎(chǔ)上快速適應新任務。對于從零訓練或小模型,傳統(tǒng)方法仍是必要選擇。











