在人工智能領域,Transformer架構曾被視為革命性突破,但如今其核心發明者之一Llion Jones發出警告:過度依賴現有架構可能阻礙通用人工智能(AGI)的真正突破。這位Sakana AI創始人指出,當前學術界和產業界對Transformer的微調研究,可能重蹈循環神經網絡(RNN)被迅速取代的覆轍。
Jones以RNN的興衰史為例說明技術迭代的殘酷性。在Transformer出現前,RNN占據主導地位長達數年,研究者們不斷優化其門控單元位置或語言建模性能,但這些局部改進最終被Transformer徹底顛覆。他直言:"當新架構帶來數量級差異時,所有微調工作都會顯得毫無意義。"這種擔憂正源于他對當前研究生態的觀察——論文普遍聚焦于調整歸一化層位置或改進訓練技巧,而非探索根本性創新。
這種研究范式被Jones稱為"架構彩票"陷阱。他援引2020年提出的"硬件彩票"理論指出,Transformer的勝利本質上是契合了當時GPU計算生態的偶然結果。盡管已有研究證明某些新架構在特定任務上表現更優,但整個行業仍難以放棄Transformer,因為其配套工具鏈和訓練方法已高度成熟。這種路徑依賴形成強大的"重力井",使得任何新架構都需要達到"碾壓式優勢"才能獲得關注。
當前大語言模型(LLM)的局限性進一步印證了Jones的判斷。他指出這些模型呈現出"鋸齒狀智能"特征:既能解決博士級難題,又會犯下小學生級別的錯誤。這種矛盾暴露了現有架構的根本缺陷——將所有功能強行塞入單一框架,而非通過架構創新實現更自然的知識表示。"我們像在給瑞士軍刀添加新工具,卻從未思考是否需要重新設計工具本身。"Jones比喻道。
為突破這種循環,Jones團隊轉向生物啟發的研究路徑。他們開發的連續思維機(CTM)模擬大腦神經元的同步振蕩機制,通過神經動態表示實現漸進式計算。這種設計并非追求完全生物學還原,而是借鑒其核心信息傳遞方式。研究團隊特意避開學術圈常見的"搶發壓力",用充足時間完善對照實驗,希望為高風險探索樹立典范。
這場范式轉移之爭正引發行業深層反思。OpenAI前首席科學家Ilya Sutskever近期也表示,單純擴大現有架構規模不足以實現AGI。但挑戰在于,在真正突破出現前,任何局部改進都可能被視為必要探索。Jones承認這種困境:"就像RNN研究者直到Transformer出現才意識到自己陷入死胡同,我們現在同樣無法預知下一個范式轉移何時到來。"
當前研究格局呈現出矛盾圖景:一方面,混合專家模型、注意力機制變體等改進持續涌現;另一方面,少數研究者開始探索神經形態計算、世界模型等全新方向。這種分化折射出AI發展的關鍵轉折點——當技術積累達到臨界點時,行業必須抉擇是繼續優化現有路徑,還是冒險開辟未知領域。Jones的警告恰似一記警鐘:在追求AGI的競賽中,最危險的陷阱或許正是我們當前最依賴的"成功經驗"。











