在人工智能領域,OpenAI推理模型核心架構師Jerry Tworek的見解始終備受關注。這位曾主導o1、o3及Codex架構設計的專家,近期就預訓練scaling法則的效力、通用人工智能(AGI)的實現路徑等關鍵問題,給出了顛覆行業認知的深度思考。
針對"通過擴大模型規模與強化學習訓練能否持續突破性能"的爭議,Tworek直言當前技術路徑存在根本性缺陷。他指出,現有模型本質上是"任務導向型工具"——通過針對性數據投喂提升特定任務表現,但缺乏跨場景的遷移能力。"你訓練它識別十萬張貓的圖片,它依然分不清老虎和豹子。"這種"訓練即所得"的特性,導致模型在面對未明確覆蓋的場景時,往往陷入"知識盲區"。更嚴峻的是,當前行業普遍采用的"發現缺陷-補充數據-重新訓練"循環,不僅迭代周期長達數月,且永遠無法窮盡所有可能的失敗模式。
在AGI的定義之爭中,Tworek提出"困境突破能力"這一核心標準。他以編程任務為例:當AI生成的代碼出現運行時錯誤,現有模型會持續輸出相似錯誤方案,而人類程序員會通過調試日志分析、知識庫檢索、方案重構等動態調整策略解決問題。"真正的智能體必須具備自我修正的元認知能力,這需要突破當前靜態訓練框架的束縛。"這種觀點直接挑戰了"參數規模決定智能水平"的行業共識,將討論焦點從硬件資源競爭轉向算法架構創新。
作為推理模型的締造者,Tworek揭開了這類技術光環下的成本困境。所謂"思維鏈"(Chain of Thought)技術,本質是通過增加輸出token數量模擬人類推理過程。但這種質量提升伴隨著指數級增長的計算成本——復雜任務所需的token量可達簡單任務的百倍。OpenAI等企業被迫采用"雙軌制"產品策略:為日常查詢提供低成本快速模型,對關鍵決策保留高成本深度推理服務。這種技術妥協,暴露出當前AI系統在效率與智能之間的深層矛盾。
數據枯竭危機正成為制約行業發展的新瓶頸。Tworek透露,主流機構已消耗完互聯網可用的高質量文本數據,合成數據方案雖能維持訓練循環,卻導致模型創新能力持續衰退。"用AI生成的數據訓練AI,就像讓學生只閱讀自己寫的作文——最終會陷入認知閉環的死亡螺旋。"他提出的破局方向是構建"實戰學習"框架:讓模型在解決真實問題的過程中,將成功經驗與失敗教訓同步轉化為訓練數據。但這又引申出新的悖論:如果模型缺乏自主突破困境的能力,如何積累有效的新數據?
在職業選擇建議方面,Tworek強調"激情匹配度"比平臺規模更重要。"當你在晨會前已對工作產生抵觸情緒,這就是轉型的明確信號。"他特別指出,AI研究需要"反共識勇氣"——在GPT-3時代堅持探索推理架構,在參數競賽浪潮中研究小模型優化,這類"非主流"選擇往往蘊含突破性機遇。對于研究管理者,他提出"賦能型領導"理念:通過明確團隊價值觀邊界,給予成員充分的自主探索空間,這種模式比微觀管理更能激發創新活力。
關于具身智能的發展前景,Tworek給出激進預測:2-3年內機器人將在特定場景實現商業化落地。其判斷依據在于,物理世界的操作任務本質是"空間編程問題",而代碼生成領域的突破已驗證強化學習技術的有效性。盡管真實環境中的試錯成本遠高于數字世界,但模擬器技術與遷移學習算法的進步,正在快速縮短這個差距。"倉庫分揀、家庭清潔等結構化場景,可能成為機器人技術的首個突破口。"
這場訪談最引人深思的,是Tworek對AI技術本質的清醒認知。他既不渲染"AGI即將到來"的樂觀敘事,也不回避"當前模型存在根本缺陷"的殘酷現實。當被問及行業未來時,這位親手打造過最強推理模型的工程師坦言:"真正的突破不會來自參數數量的簡單疊加,而是取決于我們能否創造出具有自我進化能力的算法架構。"這種直面技術局限的誠實態度,在當前浮躁的AI產業環境中顯得尤為珍貴。











