岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

GPT-5.4 mini+nano突襲

   時間:2026-03-18 09:38:34 來源:新智元編輯:快訊 IP:北京 發表評論無障礙通道
 

新智元報道

編輯:好困 桃子

深夜,OpenAI祭出「雙子星」GPT-5.4 mini和nano,實力逼近滿血版,速度性價比拉滿,用來編碼、當「龍蝦」主力真香!

OpenAI一聲不吭,又扔了一顆炸彈。

今天,GPT-5.4 mini和GPT-5.4 nano正式發布。

沒有預熱,沒有倒計時,直接上線。

這兩個模型要解決的問題很明確:在真實的生產環境里,怎么讓AI又快又準又便宜地干活?

它們繼承了GPT-5.4核心優勢,速度拉滿、成本更低,堪稱輕量級模型巔峰之作。

先說最炸裂的數字——

編碼(SWE-Bench Pro):GPT-5.4 mini拿下54.4%,而滿血版GPT-5.4是57.7%;

計算機使用(OSWorld-Verified):GPT-5.4 mini 72.1%的成績,媲美GPT-5.4(75%)

另外,在推理、工具調用等任務中,mini的實力直接逼近GPT-5.4。

而且,相較于上一代GPT-5 mini,GPT-5.4 mini運行速度直接飆升2倍!

網友直言,mini和nano完全可以當做「龍蝦」的主力模型來用!

GPT-5.4 mini有400k超大上下文,輸入價格0.75美元/百萬token,輸出價格4.5美元/百萬token;

GPT-5.4 nano輸入價格0.2美元/百萬token,輸出價格1.25美元/百萬token。

相較于GPT-5.4,mini輸出價格是其1/3,而nano價格只有1/12。

如今,快、強、便宜,三個詞同時成立了。

而在半年之前,這是完全不可能的。

有人試用后驚嘆道,簡直太香了!不僅速度快,還要比Claude 4.6 Opus便宜9倍。

代碼恐怖進化

mini追平「滿血」,nano吊打前代

先看編碼。

SWE-Bench Pro是目前衡量大模型「真實編碼能力」最硬核的基準之一,它不考填空題,而是讓模型直接修復GitHub上的真實軟件Bug。

GPT-5.4 mini拿下54.4%,距滿血版GPT-5.4(57.7%)只差3.3%。

這意味著一個為速度和成本優化的小模型,在解決真實工程問題時,已經摸到了旗艦模型的天花板。

而上一代GPT-5 mini僅45.7%,mini到mini之間,一代之隔就是近9%的飛躍。

Terminal-Bench 2.0的差距更夸張。GPT-5.4 mini拿下60.0%,GPT-5 mini只有38.2%,提升幅度超過57%。

即便是最小號的nano,也在SWE-Bench Pro上打出了52.4%,比上一代mini還高出近7%。

一個定位于「分類和數據提取」的超輕量模型,代碼能力居然碾壓上一代的中量級選手,這就是蒸餾模型在過去幾個月的進化速度。

對開發者來說,這組數據的實際含義非常直接:

那些不需要旗艦模型「滿功率思考」的編碼任務,比如定向代碼修改、前端頁面生成、調試循環、代碼庫檢索,現在可以全部交給mini,速度快一倍,成本低一大截,效果幾乎無損。

博士級推理,復雜工具調用雙殺

編碼只是一個切面,推理和工具調用能力,決定了一個模型能不能真正「干活」。

GPQA Diamond是一個博士級科學推理基準,GPT-5.4 mini取得了88%的成績,與GPT-5.4僅差5%。

更值得關注的是「工具調用」能力。

Toolathlon主要測試模型在復雜工具鏈中的表現,不只是調一次API,而是在多步驟任務中正確地組合、排序、使用多種工具。

結果,GPT-5.4 mini得分42.9%,完全碾壓GPT-5 mini(26.9%)。

在電信行業專用基準τ2-bench上,mini更是打出了93.4%的超高分,幾乎追平滿血版98.9%,把GPT-5 mini(74.1%)遠遠甩在身后。

在另一個工具調用基準MCP Atlas上,GPT-5.4 mini拿到57.7%,而GPT-5 mini只有47.6%。

這些數字匯成一句話:GPT-5.4 mini不只是一個「縮小版的聰明模型」,它是一個真正能在生產環境中獨立完成復雜任務鏈的執行者。

「龍蝦」主力

小模型也能「看屏幕干活」

GPT-5.4 mini真正讓人意外的,是它在計算機使用上的表現。

人怎么用電腦?眼睛看屏幕上的UI元素,大腦判斷該點哪里,手去操作鼠標和鍵盤。

如果AI要真正成為你的「賽博助理」,它也得學會這套——快速解析一張信息密集的屏幕截圖,定位按鈕、輸入框和數據列表,然后做出正確操作。

OSWorld-Verified就是測這個「視覺理解+推理+操作」三位一體的綜合能力的。

在這張榜上,GPT-5.4 mini拿到了72.1%,而旗艦版GPT-5.4是75.0%。差距不到3個百分點。

反觀GPT-5 mini只有42.0%。一代之間,計算機使用能力幾乎翻了一倍。

不過,nano在這項測試中只拿到了39.0%,甚至略低于上一代GPT-5 mini的42.0%。

這說明計算機使用任務對模型的視覺推理能力有很高的門檻要求,不是單純縮小模型就能保住的:mini和nano之間存在一道清晰的能力斷層。

在MMMUPro(含Python工具)上,mini拿到78.0%,旗艦版81.5%,差距同樣很小。

這個基準涵蓋了大量需要結合視覺信息和數學/代碼工具進行推理的復雜題目。

這組結果對一個特定方向有重大意義:AI Agent。

當一個小模型能快速解析信息密集的UI截圖,并在低延遲下做出正確操作決策時,它就成了構建實時計算機使用Agent的理想引擎——成本低,響應快,能力夠。

在TBPN最新訪談中,奧特曼明確了下一步愿景:

OpenAI將推出一個進化版的Codex,新版本不再局限于編程,將演變成一個「控制計算機」的強大工具。

在他設想中,人們可以完全通過手機啟動并管理新任務,真正的終極體驗是,擁有一個基于統一后端的個人專屬的AI。

它能訪問個人所有數據、想法、素材、記憶,并能跨越多個終端,無縫執行任務

自動播放

子智能體范式

大模型決策,小模型執行

這次發布中,OpenAI花了不少篇幅闡述一個理念:最好的AI系統,不一定要用最大的模型來處理所有事情。

他們提出的架構思路很清晰:

旗艦模型GPT-5.4負責規劃、協調和最終決策,然后把具體任務分發給GPT-5.4 mini子智能體并行執行。

搜索代碼庫、審查大型文件、處理支持文檔,這些不需要「深度思考」但需要「快速完成」的工作,全部交給mini。

在Codex中,這套架構已經落地了。

開發者可以讓GPT-5.4制定整體方案,然后自動調度mini子智能體去執行各個子任務。

而且mini在Codex中只消耗GPT-5.4配額的30%。

也就是說,同樣的預算,你可以跑三倍多的mini任務。

這種「分層調度」的思路,其實是整個AI行業正在收斂的共識。

與其追求一個無所不能的超大模型,不如構建一個分工明確的模型協作系統。

旗艦模型像總指揮,mini模型像執行團隊,nano模型像處理瑣碎事務的助理。

對開發者來說,這意味著架構設計的思路要變了。

以前是「選一個最強的模型,所有任務都扔給它」;現在是「根據任務復雜度,動態路由到不同層級的模型」。

Hebbia的CTO Aabhas Sharma給出的評價很有代表性:

GPT-5.4 mini在多項輸出任務和引用召回率上,以低得多的成本匹敵甚至超越了競品模型,還實現了比更大模型更高的端到端通過率。

「更小的模型,更好的效果」,這句話放在兩年前像是天方夜譚,現在已經成了工程實踐中的真實場景。

全面鋪開,免費用戶也能用

今天,GPT-5.4 mini已經全線上線,API、Codex、ChatGPT三端同步開放。

API定價為輸入0.75美元/百萬Token,輸出4.50美元/百萬Token,上下文窗口400K。

支持文本和圖像輸入、工具使用、函數調用、網絡搜索、文件搜索、計算機使用等全套能力。

GPT-5.4 nano僅在API中可用,價格為輸入0.20美元/百萬Token,輸出1.25美元/百萬Token。

做個對比。GPT-5.4 nano的輸入價格是mini的約四分之一,輸出價格也不到mini的三分之一。

對于分類、數據提取、排序這類高頻但低復雜度的任務來說,nano的性價比幾乎無敵。

在ChatGPT端,GPT-5.4 mini已向免費用戶和Go用戶開放,可以通過菜單中的「Thinking」功能使用。對于付費用戶,當GPT-5.4 Thinking額度耗盡時,mini會自動作為降級備選方案。

這個策略很聰明,讓免費用戶也能體驗到強大的推理能力,降低使用門檻的同時擴大用戶基盤。

而對付費用戶來說,mini的存在讓「額度焦慮」大大緩解。

長上下文是mini的短板

當然,mini不是沒有弱點。

在長上下文處理上,GPT-5.4 mini和旗艦版的差距比其他維度更明顯。

OpenAI MRCR v2測試在64K-128K窗口下的8針搜索任務中,GPT-5.4拿到86.0%,mini只有47.7%,差距接近40個百分點。在128K-256K窗口下,這個差距進一步拉大到79.3%對33.6%。

Graphwalks系列測試也呈現類似趨勢。在父節點追蹤任務上,GPT-5.4拿到89.8%,mini是71.5%。

這說明在需要對超長文本進行精確信息檢索和邏輯追蹤的場景下,mini的能力上限還是顯著低于旗艦版。

對于需要處理大規模文檔分析、長對話記憶保持等任務的開發者來說,GPT-5.4仍然是不可替代的選擇。

不過話說回來,這也恰好印證了OpenAI的產品分層邏輯:不同的任務,用不同的模型。

mini不需要在每個維度都追平旗艦,它只需要在自己主攻的方向——速度、編碼、工具調用、計算機使用,做到足夠好就行。

不是結局,是起點

技術在狂奔,但人的情緒要復雜得多。

今早,奧特曼在X上發文:

我對那些逐字逐句寫出極其復雜軟件的人,充滿感激。

現在已經很難想象那曾經需要多大的努力了。謝謝你們把我們帶到了今天。

評論區瞬間炸了。

大量開發者讀出了另一層意思——感謝你們的貢獻,但這個活以后AI來干了。

有人回懟:謝謝啊,原來我們的回報就是丟掉工作。

也有人直指訓練數據爭議:模型本身就是用這些開發者的代碼喂出來的,現在反過來替代他們,這算哪門子感激?

不過也有人借此提了個值得思考的問題:

當語法層面被AI解決,軟件工程的核心競爭力是不是該從「怎么寫代碼」轉向「怎么設計系統」?

爭議歸爭議,趨勢不會因為情緒而停下。

回望科技史,從大型機到PC,從撥號上網到移動互聯網,每一次真正的技術革命都不是靠最強最貴的產品完成的。

革命完成的標志,是技術變得像水和電一樣——廉價、無感、無處不在。

GPT-5.4 mini在SWE-Bench Pro上追到了旗艦版的94%,在OSWorld上追到了96%,在GPQA Diamond上追到了95%。速度是前代的兩倍,成本是旗艦版的零頭。

對普通開發者來說,這意味著曾經只有大廠才玩得起的AI能力,現在用mini的價格就能接入。

對AI應用創業者來說,這意味著產品的推理成本可以再降一個數量級。

對整個行業來說,這意味著AI的滲透速度將進一步加快,因為擋在前面的成本和延遲兩道墻,正在被小模型一磚一磚地拆掉。

大模型負責思考,小模型負責執行。旗艦模型定義智力的天花板,小模型打通AI走進每一個應用的毛細血管。

這不再是愿景,而是今天就能跑起來的架構。

參考資料:

https://openai.com/index/introducing-gpt-5-4-mini-and-nano/

https://x.com/OpenAI/status/2033953592424731072?s=20

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 97视频在线播放 | 亚洲成人精品在线播放 | 国产91精品欧美 | 激情久久婷婷 | 噜噜啪啪 | 日韩人妻毛片 | www.xxxx日本| 成人高清在线观看 | av在线天天 | 亚洲自拍小视频 | 午夜毛片在线观看 | 久在线视频 | 欧美一级免费 | 国产调教 | 国产在线一级 | 欧美精品偷拍 | 久久国产精品网站 | 在线你懂的 | 波多野结衣午夜 | 激情黄页 | 午夜影视剧场 | 国产jizz18女人高潮 | 亚洲七区 | 免费在线观看视频 | 国产美女视频一区 | 不卡三区 | 91成人免费看 | 99国产精品久久久久久久成人 | 成人精品免费 | 69精品视频| 中国一级片在线观看 | 性色av免费 | 人人澡人人澡人人澡 | 国产精品久久视频 | 97在线视频免费观看 | 日本视频精品 | 国产精品久久久国产盗摄 | 亚洲成人精品在线播放 | 中文字幕一区二区三区视频 | 91视频麻豆 | 欧美精品1区|