OpenAI近日發(fā)布兩款新型小型人工智能模型GPT-5.4 mini與GPT-5.4 nano,旨在以更低成本和延遲填補(bǔ)大模型在實(shí)時(shí)交互場(chǎng)景中的性能空白。這兩款模型通過(guò)優(yōu)化架構(gòu)設(shè)計(jì),在編程、多模態(tài)理解及工具調(diào)用等關(guān)鍵領(lǐng)域展現(xiàn)出接近旗艦?zāi)P偷哪芰Γ瑫r(shí)將推理成本壓縮至原有水平的三分之一以下。
作為消費(fèi)端主力產(chǎn)品,GPT-5.4 mini在三大平臺(tái)同步上線:開發(fā)者可通過(guò)API和Codex平臺(tái)調(diào)用,普通用戶則能在ChatGPT的"Thinking"功能中體驗(yàn)。該模型支持文本圖像雙模態(tài)輸入,配備40萬(wàn)token的超大上下文窗口,并集成網(wǎng)頁(yè)搜索、文件檢索等七項(xiàng)工具調(diào)用能力。在編程基準(zhǔn)測(cè)試SWE-bench Pro中,其54.4%的得分僅比旗艦?zāi)P偷?.3個(gè)百分點(diǎn),卻較前代產(chǎn)品提升近20%。計(jì)算機(jī)操控測(cè)試OSWorld-Verified顯示,該模型以72.1%的準(zhǔn)確率逼近旗艦?zāi)P偷?5%,工具調(diào)用測(cè)試τ2-bench中更取得93.4%的突破性成績(jī)。
針對(duì)開發(fā)者場(chǎng)景設(shè)計(jì)的GPT-5.4 nano采取差異化策略,僅通過(guò)API提供服務(wù)。這款定價(jià)最低的模型(輸入每百萬(wàn)token 0.2美元)在編程任務(wù)中表現(xiàn)亮眼,GPQA Diamond通用智能測(cè)試得分達(dá)82.8%,超越前代模型的81.6%。盡管在視覺任務(wù)OSWorld-Verified中39%的得分略遜于前代,但其工具調(diào)用能力的顯著提升仍獲得開發(fā)者關(guān)注。OpenAI特別說(shuō)明,nano的優(yōu)化方向聚焦于低延遲場(chǎng)景,建議開發(fā)者根據(jù)任務(wù)類型選擇適配模型。
成本優(yōu)化成為新模型的核心競(jìng)爭(zhēng)力。在Codex平臺(tái),GPT-5.4 mini僅消耗旗艦?zāi)P?0%的配額,使簡(jiǎn)單編程任務(wù)的推理成本降至三分之一。該平臺(tái)引入的子智能體架構(gòu)允許主模型將低密度任務(wù)自動(dòng)分配給mini模型處理,形成"旗艦決策+小型執(zhí)行"的協(xié)作模式。ChatGPT的分級(jí)調(diào)用機(jī)制則進(jìn)一步體現(xiàn)成本管控:免費(fèi)用戶可手動(dòng)啟用mini模型,付費(fèi)用戶在觸及旗艦?zāi)P退俾噬舷藓螅到y(tǒng)將自動(dòng)切換至mini保障服務(wù)連續(xù)性。
技術(shù)文檔顯示,兩款模型均采用分層推理架構(gòu)。以編程助手Codex為例,GPT-5.4負(fù)責(zé)整體規(guī)劃與結(jié)果校驗(yàn),而mini模型組成的子智能體群并行處理代碼檢索、文檔分析等細(xì)分任務(wù)。這種設(shè)計(jì)使系統(tǒng)在保持智能水平的同時(shí),將單位任務(wù)的推理成本降低65%。OpenAI工程師指出,隨著小型模型性能提升,開發(fā)者無(wú)需依賴單一大型模型,轉(zhuǎn)而構(gòu)建多模型協(xié)作系統(tǒng)已成為新的技術(shù)趨勢(shì)。
市場(chǎng)分析認(rèn)為,新模型的推出將重塑AI應(yīng)用開發(fā)格局。在實(shí)時(shí)圖像理解、高并發(fā)客服等對(duì)延遲敏感的場(chǎng)景中,開發(fā)者可通過(guò)混合部署不同量級(jí)模型實(shí)現(xiàn)性能與成本的平衡。特別是GPT-5.4 nano的極致輕量化設(shè)計(jì),為邊緣計(jì)算設(shè)備部署AI能力提供了可能。目前已有金融科技公司測(cè)試將nano模型用于實(shí)時(shí)交易數(shù)據(jù)分析,初步結(jié)果顯示其推理速度較前代提升3倍,而準(zhǔn)確率維持同等水平。











