OpenAI今日正式推出GPT-5.4系列模型,同步上線ChatGPT、API及Codex平臺(tái)。作為首款具備原生計(jì)算機(jī)操作能力的通用大模型,GPT-5.4在電腦操控、知識(shí)工作、工具調(diào)用等核心場(chǎng)景實(shí)現(xiàn)全面突破,官方測(cè)評(píng)顯示其綜合性能顯著超越GPT-5.2、Claude Opus 4.6及Gemini 3.1 Pro等主流模型。
在知識(shí)工作領(lǐng)域,GPT-5.4展現(xiàn)出顯著優(yōu)勢(shì)。基于GDPval測(cè)試體系評(píng)估,該模型在44個(gè)職業(yè)場(chǎng)景中產(chǎn)出專業(yè)成果的能力達(dá)到行業(yè)專家水平的83%,較前代模型提升12.1個(gè)百分點(diǎn)。具體任務(wù)中,電子表格建模得分提升至87.3%,PPT生成效果獲得68%的人類評(píng)審偏好,其視覺(jué)呈現(xiàn)與信息組織能力獲得廣泛認(rèn)可。針對(duì)事實(shí)準(zhǔn)確性問(wèn)題,新模型將單個(gè)錯(cuò)誤概率降低33%,整段回答錯(cuò)誤率減少18%,成為OpenAI迄今最可靠的模型。
計(jì)算機(jī)操作能力是本次升級(jí)的核心亮點(diǎn)。GPT-5.4通過(guò)Playwright等庫(kù)實(shí)現(xiàn)跨應(yīng)用自動(dòng)化操作,支持基于屏幕截圖的鼠標(biāo)鍵盤(pán)指令生成。在OSWorld-Verified桌面環(huán)境測(cè)試中,該模型以75%的成功率超越人類基準(zhǔn)(72.4%),較GPT-5.2提升27.7個(gè)百分點(diǎn)。瀏覽器操作測(cè)試WebArena-Verified顯示,結(jié)合DOM交互與視覺(jué)識(shí)別的混合模式使成功率提升至67.3%。視覺(jué)感知方面,新模型在MMMU-Pro基準(zhǔn)測(cè)試中取得81.2%的準(zhǔn)確率,文檔解析誤差率降至0.109,較前代優(yōu)化29%。
針對(duì)高分辨率視覺(jué)處理需求,OpenAI推出雙精度模式:原始精度模式支持最高1024萬(wàn)像素輸入(最大邊長(zhǎng)6000像素),高精度模式支持256萬(wàn)像素(最大邊長(zhǎng)2048像素)。早期測(cè)試表明,高精度輸入可顯著提升模型的空間定位能力與圖像理解準(zhǔn)確性,在醫(yī)療影像分析等專業(yè)場(chǎng)景具有應(yīng)用潛力。
編程能力方面,GPT-5.4繼承并優(yōu)化了Codex的代碼生成優(yōu)勢(shì)。SWE-Bench Pro測(cè)試顯示,新模型在復(fù)雜前端任務(wù)中的表現(xiàn)超越所有前代版本,開(kāi)啟/fast模式后token生成速度提升1.5倍。實(shí)驗(yàn)性功能"Playwright交互式"支持視覺(jué)化網(wǎng)頁(yè)調(diào)試,開(kāi)發(fā)者可實(shí)時(shí)測(cè)試Electron應(yīng)用開(kāi)發(fā)過(guò)程。某主題公園模擬游戲開(kāi)發(fā)案例顯示,該模型能通過(guò)簡(jiǎn)短提示詞自動(dòng)生成等距視角美術(shù)資源并完成瀏覽器端實(shí)機(jī)測(cè)試。
工具生態(tài)系統(tǒng)建設(shè)取得重要進(jìn)展。API平臺(tái)新增工具搜索功能,使模型在處理多步驟任務(wù)時(shí)能動(dòng)態(tài)檢索工具定義,減少30%的token消耗。Toolathlon基準(zhǔn)測(cè)試表明,GPT-5.4完成郵件處理、文件上傳、數(shù)據(jù)錄入等跨平臺(tái)任務(wù)的交互輪次減少40%,準(zhǔn)確率提升至92%。網(wǎng)頁(yè)搜索能力BrowseComp評(píng)分躍升17%,Pro版本達(dá)89.3%,可持續(xù)追蹤多輪搜索結(jié)果并定位關(guān)鍵信息源。
商業(yè)化部署方面,GPT-5.4思考模式即日起向ChatGPT Plus、Team及Pro用戶開(kāi)放,原有GPT-5.2模式將保留至6月5日。Pro版本專為復(fù)雜任務(wù)優(yōu)化,企業(yè)用戶可獲得優(yōu)先處理權(quán)限。定價(jià)策略顯示,新模型輸入成本上漲超40%,輸出成本增加7.14%,但官方強(qiáng)調(diào)更高的token效率可使多數(shù)任務(wù)總成本下降。Codex平臺(tái)提供百萬(wàn)級(jí)上下文窗口實(shí)驗(yàn)支持,超出標(biāo)準(zhǔn)272K的請(qǐng)求按雙倍額度計(jì)費(fèi),批量處理享受標(biāo)準(zhǔn)費(fèi)率五折優(yōu)惠。
行業(yè)分析指出,GPT-5.4的發(fā)布標(biāo)志著AI從輔助工具向自主工作流引擎的轉(zhuǎn)變。其原生計(jì)算機(jī)操作能力與專業(yè)場(chǎng)景適配性,使模型能直接參與數(shù)據(jù)分析、客戶服務(wù)等高價(jià)值商業(yè)流程。隨著工具生態(tài)系統(tǒng)的擴(kuò)展,智能體在跨平臺(tái)任務(wù)自動(dòng)化領(lǐng)域的潛力將持續(xù)釋放,可能重塑知識(shí)密集型行業(yè)的運(yùn)作模式。











