作者|周一笑
2月6日,OpenAI總裁Greg Brockman在X上公開發了一條面向全公司工程團隊的帖子,設了一個deadline:到3月31日,任何技術任務,工程師的第一工具應該是agent,而不是編輯器或終端。
這是OpenAI對自己下的動員令。
如果只看這句話,你可能會覺得又是一條硅谷式的愿景聲明。但接下來六周發生的事情表明,Brockman不是在喊口號。OpenAI的Coding Agent平臺Codex,正在經歷一輪罕見的產品沖刺,密度之高,節奏之快,甚至讓一些長期關注AI編碼工具的開發者開始重新審視自己的工具鏈。
與此同時,Codex在程序員群體中的熱度和口碑也在肉眼可見地上升。
一切動作都指向“狙擊”Anthropic 如日中天的Claude Code。
六周的瘋狂迭代
拉一下時間線就能感受到這個節奏。
2月2日,Codex桌面App發布(macOS),OpenAI同時宣布向ChatGPT免費和Go用戶開放Codex,所有付費用戶的速率限制翻倍。
2月5日,GPT-5.3-Codex發布,OpenAI稱它為"第一個幫助創造了自身的模型"。同一天,Anthropic發布Claude Opus 4.6。
2月12日,Codex-Spark發布,與AI推理硬件公司Cerebras合作,推理速度超過每秒1000 tokens。OpenAI的說法是,“當模型能力越來越強,交互速度就成了明確的瓶頸。”
2月14日,OpenClaw創始人Peter Steinberger宣布加入OpenAI。據Pragmatic Engineer報道,Steinberger用Codex編寫了OpenClaw的全部代碼,偏好長時間運行的agentic loop。Sam Altman在X上稱他為“天才”,說他將“推動下一代personal agents”。
3月4日,Codex桌面App登陸Windows。
3月5日,GPT-5.4發布,是OpenAI第一個同時具備reasoning、coding和原生computer use能力的通用模型,在Codex和API中支持100萬token上下文。
3月6日,Codex Security進入research preview。這是OpenAI推出的應用安全代理,前身為內測階段的Aardvark,能夠分析代碼倉庫、構建項目級威脅模型、在沙盒中驗證漏洞并提出修復建議。過去30天的beta測試中,它掃描了超過120萬次commits,發現792個critical級別漏洞和超過10000個高危問題,覆蓋OpenSSH、GnuTLS、Chromium等重量級開源項目。誤報率降低超過50%,噪音降低84%。
使用數據也在同步攀升。Sam Altman在X上確認,Codex的周活用戶自年初以來增長超過三倍;Codex團隊負責人Thibault Sottiaux(Tibo)告訴Pragmatic Engineer的Gergely Orosz,1月以來它的使用量增長了5倍,周活開發者超過100萬。Tibo還在播客中提到,Super Bowl周日播出的Codex廣告讓系統幾乎立即承受了巨大負載。
六周,七次重大產品動作,這成了OpenAI在產品上最激進的沖刺之一。
要理解這個節奏,一方面要看供給側的變化。GPT-5系列模型的agent能力在過去幾個月出現了質的飛躍,從上下文窗口、工具調用到長時間自主執行,模型本身的能力到了一個可以支撐Coding Agent這個產品形態的臨界點。
另一方面,需求側的信號同樣強烈。據SemiAnalysis報道,Anthropic的Claude Code已經做出25億美元的年化收入,占其企業收入的一半以上。Claude Code用真金白銀證明了Coding Agent可以成為AI公司的核心收入引擎。對于估值據報已達數千億美元的OpenAI來說,放棄這個賽道不是一個現實的選項。
根據SemiAnalysis的預測AnthropicARR增速一度超過OpenAI
時間點上的貼身肉搏也值得注意。GPT-5.3-Codex和Claude Opus 4.6在2月5日同一天發布。Codex Security和Claude Code Security幾乎同期推出。這種節奏本身就是信號,兩家公司正在把Coding Agent平臺視為正面戰場。
開發者開始從Claude Code的單一模式變成混合模式
在很長一段時間,Anthropic旗下的Claude Code看起來似乎已經沒有了對手,用戶對它的依賴變得越來越重。而OpenAI顯然不想讓Anthropic 這么舒服。在Codex的一通激進沖刺后,開發者社區的反應也開始發生一些變化。
過去一個月,Reddit和Hacker News上關于Codex和Claude Code的討論,出現頻率最高的詞不是更好或替代,而是stacking。也就是說,越來越多的開發者不是在兩者之間選擇,而是同時使用。
Calvin French-Owen是一個典型案例。他是Segment聯合創始人,曾在OpenAI參與Codex web產品的發布,同時也是Claude Code的深度用戶。他在今年2月寫的一篇博客里說,自己選擇工具的核心標準是“我有多少時間,以及我想讓它多自主地跑”。
他的日常工作流是用Claude Code做規劃、編排終端和管理git操作,然后切到Codex做實際編碼。他說Opus在跨上下文窗口的工作中效率更高,會同時啟動多個子代理并行探索代碼庫;而Codex在長時間自主編碼任務上更穩定。
Reddit上也出現了更具體的分工模式。有開發者詳細描述了一個五段式workflow,先讓Claude Code出計劃,再讓Codex review計劃,然后由Claude實施,最后交給Codex做code review和QA迭代。還有人直接把Claude Code和Codex串成了一個CLI bridge,因為手動在兩者之間復制粘貼太累了。
一篇社區分析總結了500多條Reddit評論后的結論,Claude Code在一組小樣本盲測中勝率達到67%,質量更高;但Codex 20美元的套餐能編碼一整天不斷,而Claude Code同價位十幾個prompt就用完了。“Claude Code質量更高但用不完,Codex稍弱但全天能用”,這是2026年3月開發者社區最真實的共識。
在Cursor官方的benchmark中,GPT系列整體領先其他模型。
開發者社區還流傳著一個比喻來描述兩者的氣質差異,Claude像美國人,適合做充滿創造力的探索和頭腦風暴,Codex像德國人,代表極致的效率和專注執行。“它就像一條咬住骨頭不放的狗,非常固執,會一直嘗試直到解決問題。”
當然也有反面聲音。Hacker News上有開發者說Codex對自己來說“每一項都比Claude Code差”,尤其是code review會制造看似合理但實際不存在的問題,他最后只把Codex用來復核Claude的產出。
但大方向已經很明確了,社區討論正在從哪個更好就用哪個,變成兩個都用,各占一個工位。
比的不再是benchmark,是誰是更實用的產品
只看模型benchmark,你不太容易理解Codex為什么起勢。在SWE-Bench這類編碼評測上,Claude Opus 4.6仍然領先。真正讓Codex拉開差異的地方在別處,OpenAI正在圍繞它構建一整套工程系統。
Orosz今年2月發表了一篇對Codex團隊的深度報道。其中最引人注目的事實是,Codex超過90%的代碼是由Codex自己編寫的。Anthropic方面也有類似的說法,Claude Code的創建者Boris Cherny告訴Orosz,Claude Code的數據大致相當。
當然,這里的90%需要打個折扣理解,在一個成熟項目中,樣板代碼、測試用例、常規重構占了大量行數,核心架構決策仍然由人來做。但兩家AI實驗室都在用自己的coding 工具來編寫自己的coding 工具,這種自舉本身就說明了這些工具已經深度嵌入了日常工程流程。
Codex 的基本工作原理
Codex團隊在工程組織層面走得更遠。Orosz的報道描述了一種新的工作方式,Codex團隊的典型工程師同時運行4到8個并行agent,分別處理feature開發、code review、安全審計、代碼庫理解、bug修復等任務。工程師的角色正在從寫代碼的人變成管理agent的人。
技術選型上,Codex CLI選擇了Rust(Claude Code使用的是Typescript)。團隊負責人Tibo給出的理由不僅是性能和正確性,還有工程文化,選擇Rust是為了給團隊設定一個高工程標準,同時減少對npm依賴生態的依賴。他們甚至招募了Rust終端UI庫Ratatui的維護者全職加入團隊。
更值得關注的是分層代碼審查機制。Codex團隊訓練了一個定制的code review模型,據Tibo說約9/10的評論能指出有效問題。審查分兩層,非關鍵代碼在AI review后可以直接merge,核心agent代碼和開源組件仍然要求強制人工審查。這套機制的意義在于,審查本身開始分層了。
還有兩個細節能說明Codex正在從工具走向系統。Codex可以運行自己的完整測試套件來測試自身;團隊還設置了夜間巡檢,讓Codex自動掃描代碼庫并生成待審修復建議,工程師每天早上進公司時就有一批修復等著review。
一家名為Wonderful的AI開發公司的首席架構師在今年3月寫了一篇文章,描述了他們四個月前禁止手動coding后的經驗。他對兩個工具的定位是,Codex是坐在房間后面戴耳機的工程師,默默讀完你整個代碼庫15分鐘才寫第一行代碼,Claude則更有產品感,更擅長判斷什么感覺對。他們把Codex用于低延遲系統工作、實時語音管線、性能敏感代碼,Claude則用于UI和前端。
從coding工具到Agent平臺
拉遠來看,Codex六周沖刺的方向指向一個更大的野心。
Peter Steinberger的加入是一個人事信號。他日常同時并行5到10個agent,加入OpenAI后的方向是下一代personal agents,不是coding工具。OpenAI正在用Codex作為agent戰略的入口。
Codex Security則是另一個方向的延伸。當Codex從幫你寫代碼走向幫你審計安全,它的定位就已經變了。
GPT-5.4進一步加速了這個轉變。作為OpenAI第一個具備原生computer use能力的通用模型,它在Codex中不僅能寫代碼,還能操作電腦、跨應用執行工作流。配合正在成型的插件/skills生態系統和企業級權限管理,Codex的輪廓越來越像一個AI原生的開發平臺。
Codex團隊在Every的播客中透露了他們眼中的下一個瓶頸,就是代碼審查。
模型生成代碼的速度已經遠超人類review的速度,驗證產出的正確性成了最緊迫的問題。他們已經在嘗試讓模型通過重現用戶操作路徑來“證明”修復有效,而不是讓人類逐行讀代碼。
這些野心和Claude Code已經越來越清楚的發展方向有很多重合,在從Claude Code那里迅速搶走了一些用戶和使用場景之后,Codex的勢頭正在起來。回到Greg Brockman 2月6日的那條帖子。他設的deadline是3月31日,目前距離deadline還有兩周多,而從過去六周的節奏來看,Codex的沖刺還遠沒有結束。
OpenAI把曾經在模型上呈現出的狠勁兒和卷王的氣質,都放到了Codex上,接下來它和Claude code之間短兵相接的故事,會更精彩了。











