滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

GPT-5.3-Codex刷新多項AI編程基準成績

時間：2026-02-09 11:29:16 來源：鞭牛士編輯：快訊 IP：北京 發表評論無障礙通道

AIPress.com.cn報道

OpenAI 近日正式發布 GPT-5.3-Codex，這是其迄今為止最先進的代碼專用 AI 代理模型。OpenAI 表示，該模型在性能與響應速度上均較上一代 GPT-5.2-Codex 實現顯著提升，面向專業軟件開發和工程級工作流設計。

在性能方面，GPT-5.3-Codex 在多項權威基準測試中取得新紀錄。在 SWE-bench Pro（Public）測試中，該模型準確率達到 56.8%。該基準主要用于評估模型在多語言軟件工程任務中的綜合能力，被視為衡量代碼代理實用性的核心指標之一。

提升最為明顯的體現在 Terminal-Bench 2.0 上。這一基準重點評估模型在終端環境中執行命令、完成系統級操作的能力。GPT-5.3-Codex 在該測試中的成績從上一代的 64.0% 提升至 77.3%，顯示其在真實開發環境下的操作穩定性和執行準確性明顯增強。

在 OSWorld-Verified 基準測試中，GPT-5.3-Codex 取得 64.7% 的成績。該測試衡量模型結合計算機視覺完成桌面級任務的能力，其得分已接近人類平均水平（72%），并顯著高于上一代模型的 38.2%。

在產品功能上，OpenAI 為 Codex 應用引入了新的“指導（guidance）”能力，使開發者可以在模型執行復雜工程任務的過程中進行實時交互，包括調整方向、補充信息以及協同調試。這一機制旨在避免傳統代碼生成過程中上下文中斷的問題，使模型更貼近真實開發協作流程。

在底層基礎設施方面，GPT-5.3-Codex 的訓練和部署運行在 NVIDIA GB200 NVL72 系統之上。OpenAI 表示，該系統體現了其與 NVIDIA 的協同設計成果，重點優化推理性能，并在復雜任務中降低 token 使用成本。

在安全與合規層面，OpenAI 在其 Preparedness framework 中將 GPT-5.3-Codex 歸類為“高能力（High Capability）”模型，尤其是在生物安全和網絡安全相關任務中。該模型接受了針對軟件漏洞識別的專項訓練，并配套實施了更嚴格的自動化監控機制和受控訪問策略，用于防御性研究用途。

整體來看，GPT-5.3-Codex 被 OpenAI 視為從“代碼助手”向“自主工程代理”轉變的重要節點，其核心特征包括更低延遲、更強的多語言工程能力，以及跨環境執行復雜任務的能力。（AI普瑞斯編譯）

更多>同類資訊

從對話到實干：豆包大模型2.0化身全能助手，多領域展現驚人動手能力

因為一個模型犯錯其實是不可避免的，這和用戶的提示詞、當前的上下文都脫不開關系，而真正重要的是它知錯就改的能力，在你需求描述越來越精確后，它能精準捕捉需求，并快速解決錯誤。我這不會寫代碼的也試了試，我拿它擼了…

02-21

王興興：現階段機器人技術與10歲小孩接近大規模應用還需時間

02-21

《西游后傳》播放量2億！漫屋ERP正輔助漫劇狂飆

02-21

我國科學家研發天文AI模型“星衍” 解鎖暗弱天體繪制極深宇宙圖景

我國科學家基于計算光學原理與人工智能算法，開發出天文AI模型“星衍”，可解鎖暗弱天體信號，探測到超過130億光年的星系，并獲取目前國際已知探測最深的深空影像。《科學》審稿人評價，該研究為探測宇宙提供了“強大…

02-21

特斯拉歐洲市場迎新舉措：xAI Grok將率先在9國上線，卻陷輿論風波

02-21

王興興談機器人：技術接近10歲孩童，大規模應用或3至10年內實現

02-21

00后“機器人訓練師”：在重復與精準中，為鋼鐵“伙伴”注入智慧靈魂

02-21

貴陽大數據交易所立標準破難題數據交易迎來安全與價值量化新篇章

02-21

澳研究：多數人自信能辨AI人臉，實則能力難追技術進步步伐

02-21

GitHub2025報告：近半代碼由AI生成，初級程序員遇冷，AI架構師成新寵

2026年2月13日這一天，全球程序員的朋友圈被GitHub那份沉甸甸的Octoverse2025年度報告刷屏，不是因為技術突破，而是因為飯碗真的被砸了。現在的AI Agent還不是神，它會寫出邏輯自洽但完…

02-21

特斯拉：xAI Grok將上線歐洲市場，率先在9國推出

02-21

宇樹王興興：最大的對手從來都是我們自己

02-21

王興興：現階段機器人技術與10歲小孩接近

02-21

OpenAI計劃明年推出AI音箱，定價200至300美元之間

02-21

死神降臨！Anthropic上周引發SaaS末日

02-21

點擊查看更多 +

全站最新

OPPO與vivo超大杯旗艦蓄勢待發，影像新突破外掛增距鏡成亮點

預算十幾萬想選家用車？這3款安全耐用性價比高，開十年八年不操心

增程技術：看似簡單卻為何成高端市場新寵，價格攀升背后有何玄機？

十二缸傳奇：從經典到極致，盤點內燃機時代的九大V12巔峰之作

特斯拉App 4.54.0版新功能：FSD數據同步手機端還能一鍵分享曬圖

豐田2026款RAV4部分車型支持Apple Wallet車鑰匙需特定設備及訂閱服務

熱門內容

本欄最新

從對話到實干：豆包大模型2.0化身全能助手，多領域展現驚人動手能力

GitHub2025報告：近半代碼由AI生成，初級程序員遇冷，AI架構師成新寵

科技賦能新春歸途：智慧加能站讓返鄉之路更高效暖心又便捷

科技賦能春運新圖景：智慧加能站解鎖返鄉路高效暖心新體驗

科技賦能春運新圖景：智慧加能站助力返鄉路高效暖心共赴團圓

蘇州制造企業如何選畫冊設計機構？看懂大廠案例背后的專業邏輯

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

GPT-5.3-Codex刷新多項AI編程基準成績