滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

GPT-5.4 mini+nano突襲

時間：2026-03-18 09:38:34 來源：新智元編輯：快訊 IP：北京 發表評論無障礙通道

新智元報道

編輯：好困桃子

深夜，OpenAI祭出「雙子星」GPT-5.4 mini和nano，實力逼近滿血版，速度性價比拉滿，用來編碼、當「龍蝦」主力真香！

OpenAI一聲不吭，又扔了一顆炸彈。

今天，GPT-5.4 mini和GPT-5.4 nano正式發布。

沒有預熱，沒有倒計時，直接上線。

這兩個模型要解決的問題很明確：在真實的生產環境里，怎么讓AI又快又準又便宜地干活？

它們繼承了GPT-5.4核心優勢，速度拉滿、成本更低，堪稱輕量級模型巔峰之作。

先說最炸裂的數字——

編碼（SWE-Bench Pro）：GPT-5.4 mini拿下54.4%，而滿血版GPT-5.4是57.7%；

計算機使用（OSWorld-Verified）：GPT-5.4 mini 72.1%的成績，媲美GPT-5.4（75%）

另外，在推理、工具調用等任務中，mini的實力直接逼近GPT-5.4。

而且，相較于上一代GPT-5 mini，GPT-5.4 mini運行速度直接飆升2倍！

網友直言，mini和nano完全可以當做「龍蝦」的主力模型來用！

GPT-5.4 mini有400k超大上下文，輸入價格0.75美元/百萬token，輸出價格4.5美元/百萬token；

GPT-5.4 nano輸入價格0.2美元/百萬token，輸出價格1.25美元/百萬token。

相較于GPT-5.4，mini輸出價格是其1/3，而nano價格只有1/12。

如今，快、強、便宜，三個詞同時成立了。

而在半年之前，這是完全不可能的。

有人試用后驚嘆道，簡直太香了！不僅速度快，還要比Claude 4.6 Opus便宜9倍。

代碼恐怖進化

mini追平「滿血」，nano吊打前代

先看編碼。

SWE-Bench Pro是目前衡量大模型「真實編碼能力」最硬核的基準之一，它不考填空題，而是讓模型直接修復GitHub上的真實軟件Bug。

GPT-5.4 mini拿下54.4%，距滿血版GPT-5.4（57.7%）只差3.3%。

這意味著一個為速度和成本優化的小模型，在解決真實工程問題時，已經摸到了旗艦模型的天花板。

而上一代GPT-5 mini僅45.7%，mini到mini之間，一代之隔就是近9%的飛躍。

Terminal-Bench 2.0的差距更夸張。GPT-5.4 mini拿下60.0%，GPT-5 mini只有38.2%，提升幅度超過57%。

即便是最小號的nano，也在SWE-Bench Pro上打出了52.4%，比上一代mini還高出近7%。

一個定位于「分類和數據提取」的超輕量模型，代碼能力居然碾壓上一代的中量級選手，這就是蒸餾模型在過去幾個月的進化速度。

對開發者來說，這組數據的實際含義非常直接：

那些不需要旗艦模型「滿功率思考」的編碼任務，比如定向代碼修改、前端頁面生成、調試循環、代碼庫檢索，現在可以全部交給mini，速度快一倍，成本低一大截，效果幾乎無損。

博士級推理，復雜工具調用雙殺

編碼只是一個切面，推理和工具調用能力，決定了一個模型能不能真正「干活」。

GPQA Diamond是一個博士級科學推理基準，GPT-5.4 mini取得了88%的成績，與GPT-5.4僅差5%。

更值得關注的是「工具調用」能力。

Toolathlon主要測試模型在復雜工具鏈中的表現，不只是調一次API，而是在多步驟任務中正確地組合、排序、使用多種工具。

結果，GPT-5.4 mini得分42.9%，完全碾壓GPT-5 mini（26.9%）。

在電信行業專用基準τ2-bench上，mini更是打出了93.4%的超高分，幾乎追平滿血版98.9%，把GPT-5 mini（74.1%）遠遠甩在身后。

在另一個工具調用基準MCP Atlas上，GPT-5.4 mini拿到57.7%，而GPT-5 mini只有47.6%。

這些數字匯成一句話：GPT-5.4 mini不只是一個「縮小版的聰明模型」，它是一個真正能在生產環境中獨立完成復雜任務鏈的執行者。

「龍蝦」主力

小模型也能「看屏幕干活」

GPT-5.4 mini真正讓人意外的，是它在計算機使用上的表現。

人怎么用電腦？眼睛看屏幕上的UI元素，大腦判斷該點哪里，手去操作鼠標和鍵盤。

如果AI要真正成為你的「賽博助理」，它也得學會這套——快速解析一張信息密集的屏幕截圖，定位按鈕、輸入框和數據列表，然后做出正確操作。

OSWorld-Verified就是測這個「視覺理解+推理+操作」三位一體的綜合能力的。

在這張榜上，GPT-5.4 mini拿到了72.1%，而旗艦版GPT-5.4是75.0%。差距不到3個百分點。

反觀GPT-5 mini只有42.0%。一代之間，計算機使用能力幾乎翻了一倍。

不過，nano在這項測試中只拿到了39.0%，甚至略低于上一代GPT-5 mini的42.0%。

這說明計算機使用任務對模型的視覺推理能力有很高的門檻要求，不是單純縮小模型就能保住的：mini和nano之間存在一道清晰的能力斷層。

在MMMUPro（含Python工具）上，mini拿到78.0%，旗艦版81.5%，差距同樣很小。

這個基準涵蓋了大量需要結合視覺信息和數學/代碼工具進行推理的復雜題目。

這組結果對一個特定方向有重大意義：AI Agent。

當一個小模型能快速解析信息密集的UI截圖，并在低延遲下做出正確操作決策時，它就成了構建實時計算機使用Agent的理想引擎——成本低，響應快，能力夠。

在TBPN最新訪談中，奧特曼明確了下一步愿景：

OpenAI將推出一個進化版的Codex，新版本不再局限于編程，將演變成一個「控制計算機」的強大工具。

在他設想中，人們可以完全通過手機啟動并管理新任務，真正的終極體驗是，擁有一個基于統一后端的個人專屬的AI。

它能訪問個人所有數據、想法、素材、記憶，并能跨越多個終端，無縫執行任務

自動播放

子智能體范式

大模型決策，小模型執行

這次發布中，OpenAI花了不少篇幅闡述一個理念：最好的AI系統，不一定要用最大的模型來處理所有事情。

他們提出的架構思路很清晰：

旗艦模型GPT-5.4負責規劃、協調和最終決策，然后把具體任務分發給GPT-5.4 mini子智能體并行執行。

搜索代碼庫、審查大型文件、處理支持文檔，這些不需要「深度思考」但需要「快速完成」的工作，全部交給mini。

在Codex中，這套架構已經落地了。

開發者可以讓GPT-5.4制定整體方案，然后自動調度mini子智能體去執行各個子任務。

而且mini在Codex中只消耗GPT-5.4配額的30%。

也就是說，同樣的預算，你可以跑三倍多的mini任務。

這種「分層調度」的思路，其實是整個AI行業正在收斂的共識。

與其追求一個無所不能的超大模型，不如構建一個分工明確的模型協作系統。

旗艦模型像總指揮，mini模型像執行團隊，nano模型像處理瑣碎事務的助理。

對開發者來說，這意味著架構設計的思路要變了。

以前是「選一個最強的模型，所有任務都扔給它」；現在是「根據任務復雜度，動態路由到不同層級的模型」。

Hebbia的CTO Aabhas Sharma給出的評價很有代表性：

GPT-5.4 mini在多項輸出任務和引用召回率上，以低得多的成本匹敵甚至超越了競品模型，還實現了比更大模型更高的端到端通過率。

「更小的模型，更好的效果」，這句話放在兩年前像是天方夜譚，現在已經成了工程實踐中的真實場景。

全面鋪開，免費用戶也能用

今天，GPT-5.4 mini已經全線上線，API、Codex、ChatGPT三端同步開放。

API定價為輸入0.75美元/百萬Token，輸出4.50美元/百萬Token，上下文窗口400K。

支持文本和圖像輸入、工具使用、函數調用、網絡搜索、文件搜索、計算機使用等全套能力。

GPT-5.4 nano僅在API中可用，價格為輸入0.20美元/百萬Token，輸出1.25美元/百萬Token。

做個對比。GPT-5.4 nano的輸入價格是mini的約四分之一，輸出價格也不到mini的三分之一。

對于分類、數據提取、排序這類高頻但低復雜度的任務來說，nano的性價比幾乎無敵。

在ChatGPT端，GPT-5.4 mini已向免費用戶和Go用戶開放，可以通過菜單中的「Thinking」功能使用。對于付費用戶，當GPT-5.4 Thinking額度耗盡時，mini會自動作為降級備選方案。

這個策略很聰明，讓免費用戶也能體驗到強大的推理能力，降低使用門檻的同時擴大用戶基盤。

而對付費用戶來說，mini的存在讓「額度焦慮」大大緩解。

長上下文是mini的短板

當然，mini不是沒有弱點。

在長上下文處理上，GPT-5.4 mini和旗艦版的差距比其他維度更明顯。

OpenAI MRCR v2測試在64K-128K窗口下的8針搜索任務中，GPT-5.4拿到86.0%，mini只有47.7%，差距接近40個百分點。在128K-256K窗口下，這個差距進一步拉大到79.3%對33.6%。

Graphwalks系列測試也呈現類似趨勢。在父節點追蹤任務上，GPT-5.4拿到89.8%，mini是71.5%。

這說明在需要對超長文本進行精確信息檢索和邏輯追蹤的場景下，mini的能力上限還是顯著低于旗艦版。

對于需要處理大規模文檔分析、長對話記憶保持等任務的開發者來說，GPT-5.4仍然是不可替代的選擇。

不過話說回來，這也恰好印證了OpenAI的產品分層邏輯：不同的任務，用不同的模型。

mini不需要在每個維度都追平旗艦，它只需要在自己主攻的方向——速度、編碼、工具調用、計算機使用，做到足夠好就行。

不是結局，是起點

技術在狂奔，但人的情緒要復雜得多。

今早，奧特曼在X上發文：

我對那些逐字逐句寫出極其復雜軟件的人，充滿感激。

現在已經很難想象那曾經需要多大的努力了。謝謝你們把我們帶到了今天。

評論區瞬間炸了。

大量開發者讀出了另一層意思——感謝你們的貢獻，但這個活以后AI來干了。

有人回懟：謝謝啊，原來我們的回報就是丟掉工作。

也有人直指訓練數據爭議：模型本身就是用這些開發者的代碼喂出來的，現在反過來替代他們，這算哪門子感激？

不過也有人借此提了個值得思考的問題：

當語法層面被AI解決，軟件工程的核心競爭力是不是該從「怎么寫代碼」轉向「怎么設計系統」？

爭議歸爭議，趨勢不會因為情緒而停下。

回望科技史，從大型機到PC，從撥號上網到移動互聯網，每一次真正的技術革命都不是靠最強最貴的產品完成的。

革命完成的標志，是技術變得像水和電一樣——廉價、無感、無處不在。

GPT-5.4 mini在SWE-Bench Pro上追到了旗艦版的94%，在OSWorld上追到了96%，在GPQA Diamond上追到了95%。速度是前代的兩倍，成本是旗艦版的零頭。

對普通開發者來說，這意味著曾經只有大廠才玩得起的AI能力，現在用mini的價格就能接入。

對AI應用創業者來說，這意味著產品的推理成本可以再降一個數量級。

對整個行業來說，這意味著AI的滲透速度將進一步加快，因為擋在前面的成本和延遲兩道墻，正在被小模型一磚一磚地拆掉。

大模型負責思考，小模型負責執行。旗艦模型定義智力的天花板，小模型打通AI走進每一個應用的毛細血管。

這不再是愿景，而是今天就能跑起來的架構。

參考資料：

https://openai.com/index/introducing-gpt-5-4-mini-and-nano/

https://x.com/OpenAI/status/2033953592424731072?s=20

更多>同類資訊

黃仁勛“述職報告”2026

03-18

蘋果2026全球開發者大會亮點前瞻：最強Siri、全局調控液態玻璃

03-18

百度集團：丁健辭任董事會獨立董事

03-18

王興興談具身智能：突破泛化瓶頸，視頻生成或開啟“ChatGPT時刻”

03-18

兩周年感恩回饋！小米汽車為老車主獻上專屬勛章與定制冰箱貼

03-18

內存大漲價浪潮來襲，未來兩三年性價比手機恐難再現低價

03-18

蘋果備戰2026年WWDC：開發者賬號入駐B站領英，多平臺同步發力

03-18

英偉達擬5月為中國市場推Groq AI芯片適配多系統非性能降級版

03-18

連虧七年后首盈利，B站“上岸”后迎AI挑戰與社區生態保衛戰

03-18

風雅西北湖春日啟幕！櫻花與藝術交融，江漢免費活動邀你共赴浪漫之約

現場參與活動的商戶代表也倍感振奮：“賞櫻季為我們帶來了超高的人氣，借著這股春日東風，相信商圈的消費活力會越來越旺，也能讓更多人感受到江漢的文旅魅力和商業活力。” 雪松路賞櫻美食季、武漢櫻花手帳節、春日市集等…

03-18

蘋果家居硬件高管布萊恩·林奇離職投身智能戒指商Oura 智能家居布局再添變數

03-18

英偉達CloudXR 6.0賦能蘋果Vision Pro：解鎖多領域4K沉浸新體驗

03-18

T2 CEO澤爾尼克：AI可助力游戲素材創作，卻難造《GTA》級爆款佳作

03-18

百度集團人事變動：丁健因個人工作安排變動辭任董事會獨立董事及相關職務

03-18

2025年三季度全球手機暢銷榜：iPhone霸榜，國產手機海外仍需發力

今年Q3季度手機單品銷量排名與去年相差不大，唯一不同的是小米沒有上榜，去年有一款入門手機紅米13C上榜，也是擠進了前十，而今年卻沒有一款國產手機上榜前十，看來國產廠商還要努力，不過在全球市場份額中，國產手機…

03-18

點擊查看更多 +

全站最新

風雅西北湖春日啟幕！櫻花與藝術交融，江漢免費活動邀你共赴浪漫之約

理想汽車2025年業績承壓，2026年以三大支柱謀20%銷量增長新局

國產新能源實力出圈！福特拆解比亞迪皮卡，直呼成本利潤難理解

中汽中心新能源檢驗中心二期開工天津新能源汽車產業再添新動力

中車哈爾濱車輛公司數智化改造升級產能躍升邁向行業新高度

理想增程器開發邏輯大不同：NVH居首重塑用戶核心需求新架構

熱門內容

本欄最新

風雅西北湖春日啟幕！櫻花與藝術交融，江漢免費活動邀你共赴浪漫之約

小米九號平衡車：輕巧便攜性能強，全家出行智能代步新伙伴

雷軍力薦！新一代SU7首發小米蛟龍底盤駕控升級打造駕駛者之車

2026款小米SU7 3月19日上市！外觀內飾升級，續航最長902Km引期待

小米汽車兩周年獻禮老車主：三枚勛章加定制冰箱貼，感恩一路相伴

新款小米SU7來襲！配置全面升級，或再掀車圈熱潮，Model 3壓力倍增

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

GPT-5.4 mini+nano突襲