OpenAI近日宣布推出全新一代模型GPT-5.4,這款模型將編程、推理、計算機操控、網頁搜索及百萬級Token上下文處理等多項能力整合于一體,在保持各項功能原有水準的同時,實現了性能的全面升級。這一突破性進展標志著AI應用從單一任務處理向復雜工作流整合邁出關鍵一步。
在知識工作領域,GPT-5.4展現出超越專業人士的實力。基于覆蓋9個主要行業、44種職業的GDPval基準測試,該模型在財務建模、急診排班、銷售演示等實際工作場景中,83%的輸出結果達到或超過行業專家水平。法律平臺Harvey的測試顯示,其在復雜法律文書處理中得分高達91%,較前代模型提升13個百分點。特別在電子表格建模任務中,初級投行分析師模擬測試得分從68.4%躍升至87.3%,錯誤率降低33%,完整回復錯誤概率下降18%。
編程能力整合成為開發者關注的焦點。新模型將Codex的編程功能無縫融入主線架構,在SWE-Bench Pro軟件工程基準測試中取得57.7%的成績,較前代提升2.1個百分點。實驗性功能Playwright Interactive支持可視化實時調試,開發者可同步進行代碼編寫與應用測試。某博主使用該功能在24分鐘內完成Minecraft克隆版開發,運行流暢無卡頓。沃頓商學院教授通過單條提示詞生成三維空間場景的案例,直觀展現了模型在復雜項目開發中的效率提升。
計算機操控能力實現質的飛躍。原生內置的操作系統交互功能使模型可直接處理截圖輸入,在OSWorld-Verified桌面導航測試中以75%成功率超越人類基準(72.4%)。物業稅務表單自動填寫系統部署案例顯示,首次成功率達95%,會話速度提升3倍,Token消耗降低70%。這得益于模型支持的1024萬像素高保真圖像輸入模式,以及256萬像素高清模式的升級。
工具調用機制的創新帶來顯著成本優勢。通過動態工具檢索系統,模型在250項任務測試中減少47%的Token消耗,同時保持準確率不變。網頁搜索持續性表現突出,BrowseComp基準得分82.7%,Pro版本更達89.3%,在復雜查詢場景中展現出持續深挖信息的能力。某自動化平臺CEO評價稱,該模型在搜索深度和結果完整性方面樹立了新標桿。
百萬級Token上下文支持開啟長文檔處理新紀元。API接口現已支持100萬Token輸入,實際測試顯示272K以下區間性能穩定,適合日常使用。某數學基準測試中,模型在50道研究級難題中取得38%正確率,較前代提升6.7個百分點,展示出處理復雜邏輯推理的潛力。不過超長上下文使用需注意成本問題,272K以上請求將按雙倍配額計費。
交互體驗革新體現在執行過程可控性增強。新增的"中途打斷"功能允許用戶在模型執行計劃階段介入調整,避免重復勞動。某科技公司創始人分享的案例顯示,簡單問候語觸發過度推理導致高額消耗,提示用戶需根據任務復雜度選擇標準版或Pro版。這種靈活配置模式既滿足輕量級需求,又支持高強度推理場景。
該模型已向ChatGPT高級用戶開放,逐步替代原有思考模型。API定價體系區分標準版與Pro版,后者輸入輸出成本分別為30美元/百萬Token和180美元/百萬Token。批量處理享受五折優惠,優先處理則需支付雙倍費用。這種差異化定價策略為不同規模企業提供靈活選擇空間。











