在軟件開發(fā)領(lǐng)域,人工智能正引發(fā)一場深刻的變革。如今,編程工作中大量繁雜的事務(wù)性任務(wù),已交由眾多智能體及其子智能體完成。開發(fā)者們并未止步于此,仍在積極探索人機(jī)協(xié)作的新交互界面與產(chǎn)品形態(tài),即便是頂尖的人工智能實(shí)驗(yàn)室,也難以完全跟上這一快速迭代的步伐。
當(dāng)前,智能體化軟件開發(fā)成為主流趨勢。這類系統(tǒng)允許人工智能智能體獨(dú)立完成編碼任務(wù),Claude Code與Cowork等應(yīng)用便是這一模式的典型代表。與此同時,OpenAI也在持續(xù)優(yōu)化其Codex工具。該工具于去年4月以命令行工具形式首次亮相,一個月后便推出了網(wǎng)頁端界面,不斷拓展其應(yīng)用場景。
近日,OpenAI在智能體化開發(fā)領(lǐng)域邁出重要一步,正式推出適配macOS系統(tǒng)的全新Codex應(yīng)用。這款應(yīng)用整合了過去一年中廣泛流行的智能體化開發(fā)邏輯,支持多智能體并行作業(yè),能夠融合不同智能體的能力,并采用當(dāng)前最前沿的工作流程。此次發(fā)布距離OpenAI推出其最強(qiáng)編碼大模型GPT-5.2-Codex不足兩個月,公司顯然希望通過這一模型吸引Claude Code的用戶群體。
OpenAI首席執(zhí)行官薩姆·奧爾特曼在媒體電話發(fā)布會中表示,GPT-5.2是目前處理復(fù)雜場景下高精尖開發(fā)工作性能最強(qiáng)的模型。然而,其此前較高的使用門檻限制了應(yīng)用范圍。因此,將這款模型的強(qiáng)大能力封裝進(jìn)更靈活的交互界面,具有重要的實(shí)用價值。
盡管奧爾特曼對GPT-5.2充滿信心,但各類編碼基準(zhǔn)測試的結(jié)果卻顯示出更為復(fù)雜的局面。在TerminalBench測試中,GPT-5.2暫居榜首,但Gemini 3與Claude Opus的智能體得分與其基本持平,僅略低一些,處于誤差允許范圍內(nèi)。另一項(xiàng)測試人工智能修復(fù)真實(shí)軟件漏洞能力的SWE-bench基準(zhǔn)測試中,結(jié)果也類似,GPT-5.2并未展現(xiàn)出明顯優(yōu)勢。不過,智能體化的應(yīng)用場景難以通過現(xiàn)有基準(zhǔn)全面評估,且頂尖模型在用戶體驗(yàn)上的差異可能更為顯著。
這款全新的Codex應(yīng)用還引入了多項(xiàng)創(chuàng)新功能,使其在與Claude等應(yīng)用的競爭中達(dá)到相當(dāng)水平,甚至在部分場景下實(shí)現(xiàn)超越。應(yīng)用支持設(shè)置自動化任務(wù),可按預(yù)設(shè)計(jì)劃在后臺自動運(yùn)行,執(zhí)行結(jié)果存入隊(duì)列,用戶返回后可統(tǒng)一查看。用戶還能根據(jù)自身工作風(fēng)格,為智能體選擇不同的交互模式,從務(wù)實(shí)理性型到共情溝通型均可自由切換。
對于OpenAI而言,這款產(chǎn)品的核心優(yōu)勢在于人工智能帶來的極致開發(fā)效率。奧爾特曼強(qiáng)調(diào):“用戶可以從零開始,僅憑這款工具,在數(shù)小時內(nèi)開發(fā)出功能復(fù)雜的軟件。軟件的開發(fā)速度僅受用戶輸入新創(chuàng)意速度的限制。”











