AIPress.com.cn報道
OpenAI 近日正式發布 GPT-5.3-Codex,這是其迄今為止最先進的代碼專用 AI 代理模型。OpenAI 表示,該模型在性能與響應速度上均較上一代 GPT-5.2-Codex 實現顯著提升,面向專業軟件開發和工程級工作流設計。
在性能方面,GPT-5.3-Codex 在多項權威基準測試中取得新紀錄。在 SWE-bench Pro(Public)測試中,該模型準確率達到 56.8%。該基準主要用于評估模型在多語言軟件工程任務中的綜合能力,被視為衡量代碼代理實用性的核心指標之一。
提升最為明顯的體現在 Terminal-Bench 2.0 上。這一基準重點評估模型在終端環境中執行命令、完成系統級操作的能力。GPT-5.3-Codex 在該測試中的成績從上一代的 64.0% 提升至 77.3%,顯示其在真實開發環境下的操作穩定性和執行準確性明顯增強。
在 OSWorld-Verified 基準測試中,GPT-5.3-Codex 取得 64.7% 的成績。該測試衡量模型結合計算機視覺完成桌面級任務的能力,其得分已接近人類平均水平(72%),并顯著高于上一代模型的 38.2%。
在產品功能上,OpenAI 為 Codex 應用引入了新的“指導(guidance)”能力,使開發者可以在模型執行復雜工程任務的過程中進行實時交互,包括調整方向、補充信息以及協同調試。這一機制旨在避免傳統代碼生成過程中上下文中斷的問題,使模型更貼近真實開發協作流程。
在底層基礎設施方面,GPT-5.3-Codex 的訓練和部署運行在 NVIDIA GB200 NVL72 系統之上。OpenAI 表示,該系統體現了其與 NVIDIA 的協同設計成果,重點優化推理性能,并在復雜任務中降低 token 使用成本。
在安全與合規層面,OpenAI 在其 Preparedness framework 中將 GPT-5.3-Codex 歸類為“高能力(High Capability)”模型,尤其是在生物安全和網絡安全相關任務中。該模型接受了針對軟件漏洞識別的專項訓練,并配套實施了更嚴格的自動化監控機制和受控訪問策略,用于防御性研究用途。
整體來看,GPT-5.3-Codex 被 OpenAI 視為從“代碼助手”向“自主工程代理”轉變的重要節點,其核心特征包括更低延遲、更強的多語言工程能力,以及跨環境執行復雜任務的能力。(AI普瑞斯編譯)











