滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

奧特曼砸場發布GPT-5.4！網友：一句Hi燒掉80美元

時間：2026-03-06 15:56:20 來源：APPSO編輯：快訊 IP：北京 發表評論無障礙通道

每次打開 AI 工具，你大概都要先想一秒鐘：這個任務，該用哪個模型？寫代碼是一個，查資料是另一個，讓 AI 幫你操作電腦，還得再開一個窗口。

今天過后，這種分裂感終于有了一個答案。

就在剛剛，OpenAI 正式發布 GPT-5.4，把編程、推理、計算機操控、網頁搜索和百萬 Token 上下文全部整合進同一個模型，且沒有為了整合而犧牲任何一項的能力。

OpenAI CEO 山姆·奧特曼也在 X 平臺發了一條簡短推文，點出了五個方向：知識工作更強、網頁搜索更出色、原生計算機操控、支持百萬 Token 上下文、響應過程中隨時可介入。

寥寥數語，對應的恰好是過去兩年 AI 應用落地中最集中的五個痛點。

01

知識工作：十次有八次，AI 贏了專業人士

理解 GPT-5.4 在知識工作上的進步，需要先了解 GDPval 這個基準的設計邏輯。

它橫跨美國 GDP 貢獻最大的 9 個行業、44 種職業。任務是那些職場里每天真實發生的工作：給投資銀行寫財務模型、給醫院排急診班次、給銷售團隊做演示文稿。

任務完成后，把輸出結果交給行業內的真實從業者盲測打分，看 AI 的產出能贏過多少比例的人類同行。

GPT-5.4 的答案是 83.0%，意味著十次對比中有八次以上，行業專業人士認為 AI 的產出達到或超過了人類同行水準。上代 GPT-5.2 是 70.9%，差距將近 13 個百分點。

進步在電子表格建模上表現得最為具體。GPT-5.4 模擬初級投行分析師完成建模任務，平均得分 87.3%，GPT-5.2 是 68.4%，GPT-5.3-Codex 是 79.3%，差距將近 20 個百分點。

法律平臺 Harvey 的 BigLaw Bench 測試結果同樣亮眼，GPT-5.4 得分 91%，專業服務評測平臺 Mercor 的 APEX-Agents 基準中也拿下了第一。

準確性方面同樣值得關注。幻覺問題一直是 AI 進入專業場景最大的攔路虎，每降低一個百分點，都意味著更多場景可以放心用它。

數據顯示，與 GPT-5.2 相比，GPT-5.4 單條陳述出錯的概率低了 33%，完整回復含有錯誤的概率低了 18%。

02

編程：一個模型，寫代碼測代碼全包了

GPT-5.4 把 GPT-5.3-Codex 的編程能力整合進主線，對開發者來說，這意味著你不再需要為了寫代碼單獨開一個模型，而且編程能力本身也沒有因此打任何折扣。

SWE-Bench Pro 專門測試真實軟件工程任務，GPT-5.4 得分 57.7%，GPT-5.3-Codex 是 56.8%，GPT-5.2 是 55.6%。整合之后，編程分數不降反升，同時還順帶獲得了計算機操控等一整套通用能力，幾乎找不到明顯的弱點。

知名 AI 評測博主 Dan Shipper 試用后寫道：「這是我們最近一段時間里見過 OpenAI 最出色的規劃能力，代碼審查也很強，而且成本大約只有 Opus 的一半。」

他點出了兩個具體維度。其一，規劃能力是長任務成敗的關鍵，GPT-5.4 在任務拆解和持續推進上明顯更有條理。其二，與 Claude Opus 相比約一半的成本，對需要大規模 API 調用的開發者來說，這個差距在賬單上會非常直觀。

開啟 Codex 中的 /fast 模式后，可使 GPT?5.4 的 token 生成速度提升最高 1.5 倍，使得用戶可以在編碼、迭代和調試過程中保持流暢的工作狀態。

與此同時，新推出的實驗性功能 Playwright Interactive 把 GPT-5.4 的編程體驗又推進了一步。

GPT-5.4 在構建 Web 或 Electron 應用時，能夠通過可視化瀏覽器進行實時調試，模型可以邊寫代碼、邊測試自己正在構建的應用，同時承擔開發者和測試員兩個角色。

OpenAI 展示了一個典型案例：僅憑一條輕量提示詞，GPT-5.4 生成了一個完整的等距視角主題公園模擬游戲，涵蓋基于瓦片的路徑鋪設與景點建設系統、游客 AI 尋路與排隊行為，以及資金、游客數、滿意度、清潔度四項指標全部實時動態更新的綜合評分。

Playwright Interactive 在整個過程中承擔了多輪自動化測試，驗證路徑鋪設、攝像機導航、游客響應及 UI 指標的正確性。從寫代碼到測試驗收，模型全程自己完成。

博主 Angel 同樣用 GPT-5.4 寫了一個 Minecraft 克隆版，模型花了約 24 分鐘，運行流暢，過程中沒有卡住。他在推文里寫道「Minecraft 基本上被攻克了，我現在得找個新測試了」。

沃頓商學院教授 Ethan Mollick 同樣獲得了早期訪問權限。他用同一條提示詞，讓 GPT-5.4 Pro 生成了一個受《皮拉內西》啟發的三維空間場景，全程沒有報錯，只額外追加了一句「把它做得更好」的指令。他隨后把結果和兩年前 GPT-4 生成的版本并排放在一起，差距一眼可見。

03

操控電腦這件事，它現在比你做得好

這是 GPT-5.4 這次發布里最值得單獨說一說的變化。此前 OpenAI 的計算機操控能力是一個獨立模塊，跟模型的語言理解、代碼生成之間有一道明顯的分隔。

兩套系統各管各的，信息要來回傳遞，效率自然打折。現在這道分隔沒了，GPT-5.4 操控電腦時，用的就是模型本身的推理能力，不需要再繞一圈。

這也是 OpenAI 第一款將計算機使用（computer use）能力原生內置進通用模型的產品，以后談 AI Agent，相信這會是一個新的起點。

基準測試結果顯示，OSWorld-Verified 基準測試桌面導航能力，用截圖加鼠標鍵盤交互完成真實操作系統任務。GPT-5.4 達到 75.0% 的成功率，人類基線是 72.4%，GPT-5.2 是 47.3%。

簡言之，它不僅追上了人類，還超過了人類。

在只用截圖模式測試瀏覽器操控的 Online-Mind2Web 基準中，GPT-5.4 達到 92.8%，對比對象 ChatGPT Atlas 的 Agent Mode 是 70.9%，

真實部署案例更能說明問題。Mainstay 將 GPT-5.4 用于約三萬個物業稅務門戶網站的自動表單填寫，首次成功率達 95%，三次以內成功率 100%，而此前同類模型僅在 73% 至 79% 之間。會話完成速度提升約三倍，Token 消耗降低約 70%。

這背后繞不開視覺感知能力的改進。操控電腦說到底是一件需要「看清楚」的事——看清楚界面上有什么、按鈕在哪里、點擊是否準確。

04

工具調用與網頁搜索：持續性是核心競爭力

一個復雜的 AI Agent 系統，背后可能掛著幾十個 MCP 工具。過去的做法是每次對話開始前，把所有工具的說明一股腦塞進去，不管這次用不用得上，Token 先花了再說。

GPT-5.4 換了個思路：先給模型一份簡單的工具清單（即引入工具搜索機制），真正需要用哪個，再去把那個工具的詳細說明取過來，用過一次的還能直接緩存，下次不用重新拿。

在 250 項任務的測試中，啟用 36 個 MCP 服務器的完整配置下，工具搜索模式在保持準確率完全不變的前提下，將總 Token 消耗降低了 47%。將近一半的成本節省，精度一點沒少。

網頁搜索方面，GPT-5.4 在 BrowseComp 基準上得分 82.7%，比 GPT-5.2 的 65.8% 高出 17 個百分點，Pro 版更達到 89.3%，創下業界最高分。Zapier CEO 評價說，GPT-5.4 會在其他模型放棄的地方繼續搜索下去，是他們測試過持續性最強的模型。

05

百萬 Token 上下文：長長長長長長

GPT-5.4 在 API 中支持最高 100 萬 Token 的上下文窗口，相當于可以把一個完整項目的所有相關文檔一次性塞進同一次對話。

但從測試結果來看，128K 至 272K 是表現最穩定的區間，適合日常使用。

256K 以上準確率開始下滑，需要針對具體任務驗證后再用。512K 至 1M 區間的得分降至 36.6%，目前更接近實驗性質，不適合直接用于對精度要求高的生產任務。

還有一個實際的成本問題需要注意：超過 272K 的請求會按兩倍用量計入配額。也就是說，發一次超長上下文的請求，額度消耗等于兩次普通請求，用之前值得想清楚是否真的需要這么長。

至于在視覺抽象推理基準 ARC-AGI-2 上，GPT-5.4 Pro 得分 83.3%，而上代 GPT-5.2 Pro 僅為 54.2%。

再比如 FrontierMath Tier 4 是目前公認最難的數學基準之一，包含 50 道研究級別的數學題，人類數學家可能需要數周才能解出。GPT-5.4 Pro 在這個基準上得分 38.0%，上代為 31.3%。

這個數字的參照系是：一年前，最好的成績是 o3 的 2%，目前最好的開源模型是 4.2%。

博主 Deedy 在推文中寫道，從 2% 到 38%，「簡直令人震驚」。Humanity's Last Exam 有工具輔助時，GPT-5.4 Pro 得分 58.7%，GPT-5.2 Pro 是 50.0%，差距接近 9 個百分點。

06

執行中調整，不是完成后返工

用過 AI 處理長任務的人大概都有過這種體驗：等模型跑完一大段，發現方向不對，只能從頭再來，時間全浪費了。

GPT-5.4 Thinking 在 ChatGPT 中新增了一項「中途打斷」功能：在處理復雜任務之前，模型會先呈現工作計劃概要，再開始執行。用戶可以在執行過程中隨時介入調整方向，不必等到結果出來再從頭重來。

這個功能把糾偏這件事從「完成后」提前到了「執行中」，對需要多輪協作的任務來說，體驗差別會比較明顯。功能目前已在 chatgpt.com 和 Android 應用上線，iOS 版本即將跟進。

即日起，GPT-5.4 向 ChatGPT Plus、Team 和 Pro 用戶開放，替代 GPT-5.2 Thinking 成為默認思考模型。

GPT-5.2 Thinking 將保留至今年 6 月 5 日后正式退役。Enterprise 和 Edu 用戶可由管理員在后臺開啟早期訪問，GPT-5.4 Pro 僅對 Pro 和 Enterprise 計劃開放。

API 標準版定價為輸入 2.50 美元/百萬 Token，緩存輸入 0.25 美元/百萬 Token，輸出 15 美元/百萬 Token。Pro 版為輸入 30 美元/百萬 Token，輸出 180 美元/百萬 Token。Batch 和 Flex 處理享標準價格五折，Priority Processing 為兩倍標準價格。

當然，強大的推理能力也有它的另一面。Hyperbolic 聯合創始人金宇晨在 X 平臺吐槽，GPT-5.4 Pro 是他用過最愛「過度思考」的模型——僅僅發了一句簡單的「Hi」，模型就開始認真推理，直接燒掉了 80 美元。

這并非個例。推理模型的特性決定了它在處理任何輸入時都傾向于深度思考，哪怕問題本身根本不需要。對于日常輕量任務，標準版或許是更合適的選擇；Pro 版的推理火力，還是留給真正值得的場合更劃算。

過去兩年，AI 能力的討論主要集中在基準測試成績上的「聰明」，但 GPT-5.4 的聰明指向的是能夠在真實工作流中，足夠可靠地承擔責任。

過去 AI 只能輸出文字，人還需要親自操作才能讓事情發生。現在模型可以自己打開瀏覽器、填寫表單、點擊按鈕、記錄結果，獨立完成一個有頭有尾的任務閉環。

AI 正在從一個擅長回答問題的系統，變成一個擅長完成任務的系統。而這個轉變的速度，顯然比大多數人預期的更快。

更多>同類資訊

Step 3.5 Flash連續兩日霸榜“小龍蝦”全球第一

03-06

蘋果特努斯談為何現在才推出MacBook Neo

03-06

億萬富翁科斯拉預言：AI將勝任80%崗位

03-06

?Roblox 推出 AI 實時改寫功能，讓聊天違規不“斷片”

03-06

論文黨狂喜！OpenAI 升級科研神器 Prism：GPT-5.3 搭配 Codex CLI，一鍵搞定 LaTeX、代碼與繪圖

03-06

?甲骨文擬實施數千人規模大裁員：縮減傳統開支，全力“供養” AI 業務

03-06

OpenAI最強模型GPT-5.4重磅發布首次支持原生操控電腦

03-06

OpenAI最強模型GPT-5.4發布

03-06

瞄準AI眼鏡風口，肖特6000萬元加碼蘇州深耕中國AR光學市場

03-06

螞蟻數科加碼全球化戰略布局在海外多區域招聘本土人才

03-06

?Roblox上線AI聊天凈化新招：違規詞秒變合規語溝通更流暢

03-06

科研效率大提升！OpenAI Prism升級：GPT?5.3助力，LaTeX寫作繪圖代碼一鍵完成

03-06

AI賦能“手搓”應用熱潮涌動 2026或成個體創造力爆發新節點

03-06

OpenAI發布GPT-5.4：編程協同能力升級，電腦操作與長文本處理再突破

03-06

英偉達黃仁勛：OpenClaw成AI智能體新標桿 3周下載量超Linux30年普及成果

03-06

點擊查看更多 +

全站最新

韓股本周收跌10.56%，創2020年3月以來最大周跌幅

雷軍談科技創新：人形機器人將進廠小米未來五年投2000億研發

雷軍再表感恩：小米扎根北京沃土，未來五年豪擲2000億搞硬核創新

REDMI Buds8活力版開售！119元享超大單元+雙麥降噪續航長達37小時

華為MateBook Neo蓄勢待發！24GB+1TB大內存，處理器型號引網友猜測

小米汽車10天萬公里引質疑阿維塔智駕冠軍車主曬成績實力力挺

熱門內容

本欄最新

宋Ultra EV預售開啟：二代刀片電池加持，15.5萬起重塑B級純電SUV格局

零代碼也能輕松建站？AI工具讓網站搭建從技術活變簡單操作

黃仁勛“最后一投”背后：AI投資邏輯生變，行業邁向務實新階段

MWC2026現場：中興發布全球首款AI+Wi-Fi 8 CPE，移動互聯終端戰略再升級

廣汽豐田鉑智7來襲！3月5日預售，鴻蒙座艙5助力合資純電智能化突圍

魯大師2月電動兩輪車榜單揭曉：九號小牛領跑，智能化成競爭新焦點

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

奧特曼砸場發布GPT-5.4！網友：一句Hi燒掉80美元