前谷歌DeepMind首席科學家、AlphaGo項目核心負責人戴維·席爾瓦(David Silver)近日宣布在倫敦創立人工智能公司"Ineffable Intelligence",引發科技界廣泛關注。這家初創企業正推進總額達10億美元的種子輪融資,規模已接近OpenAI前首席科學家伊利亞·蘇茨克維(Ilya Sutskever)創立的Safe Superintelligence(SSI)所創下的融資紀錄。
與當前主流的大語言模型技術路徑不同,席爾瓦提出要突破現有框架,回歸強化學習的本質。他主張構建能夠自主探索未知領域的智能系統,而非依賴人類既有知識庫。這種技術理念源于其長期研究實踐——作為圖靈獎得主查理·薩頓(Charlie Sutton)的門生,席爾瓦的學術論文累計被引用超過28萬次,2019年更獲得ACM計算獎。
2025年4月,席爾瓦與導師聯合發表的《歡迎來到經驗時代》論文系統闡述了其技術主張。他們認為新一代AI系統應通過持續與環境交互獲取經驗,而非單純依賴靜態數據訓練。這種思路直接體現在新公司的技術方向上:開發能夠自我迭代、通過試錯積累知識的超級智能系統。
資本市場對這位技術領袖的押注頗具戰略眼光。接近交易的投資人透露,10億美元融資的達成主要基于兩點考量:席爾瓦在強化學習領域的權威地位,以及其提出的"后大模型時代"技術路線可能帶來的顛覆性突破。當前主流AI模型均采用"預訓練+微調"模式,通過海量文本數據學習語言規律,但席爾瓦指出這種路徑存在根本性局限——AI的能力上限被人類數據規模所束縛。
在席爾瓦看來,現有技術路線過度依賴人類反饋強化學習(RLHF),導致模型認知水平難以突破評估員的認知邊界。"要實現超越人類的智能,必須讓AI具備自主探索能力。"他在近期播客節目中強調,"真正的突破需要發現人類尚未掌握的規律。"
科技界正經歷顯著的技術路線分化。除席爾瓦外,參與AlphaGo項目的多名科學家近期創立Reflection AI,meta則在楊立昆(Yann LeCun)帶領下重組"超級智能實驗室",探索非Transformer架構的新路徑。行業觀察家指出,當前局面類似于深度學習爆發前的技術探索期,各大實驗室都在尋找突破大語言模型局限的新方案。
不過,強化學習路線也面臨現實挑戰。批評者認為,該技術在圍棋等規則明確的環境中表現優異,但在現實世界這種開放環境中,稀疏的反饋信號和模糊的規則體系可能限制其有效性。完全摒棄語言學習路徑意味著需要構建極其復雜的數字孿生系統,其算力需求可能呈指數級增長。
目前,Ineffable Intelligence已在倫敦組建核心團隊,并啟動全球頂尖強化學習專家的招募工作。雖然尚未公布具體產品時間表,但這家初創企業的技術方向和資源投入,已被視為影響AI技術演進的關鍵變量。其能否突破現有技術瓶頸,或將重新定義人工智能的發展軌跡。










