OpenAI最新發布的GPT-5.4模型引發科技圈熱議,其核心突破在于實現了原生電腦操控能力。這項被命名為"Native Computer Use"的功能,標志著人工智能從單純的對話交互向實體操作層面跨越。用戶現在可以通過自然語言指令,讓AI直接完成文件創建、網頁瀏覽、消息發送等復雜任務,而非僅提供操作指南。
測試顯示,該模型在微信等封閉生態應用中展現出驚人適應性。當要求整理AI新聞并轉化為特定風格的選題時,系統不僅完成內容生成與群發,還能自動優化表述方式。這種突破得益于雙模式操作架構:代碼模式通過生成Playwright腳本實現精確控制,截圖模式則模擬人類視覺判斷進行界面交互。實驗性功能"Playwright Interactive"更支持邊寫代碼邊調試,官方演示中甚至用單句提示生成了完整的主題公園模擬游戲。
性能基準測試印證了技術進步的實質性。在OSWorld-Verified桌面操作測試中,GPT-5.4取得75.0%成功率,超越人類平均水平72.4%。WebArena-Verified和Online-Mind2Web測試分別獲得67.3%和92.8%的成績,證明其在網頁交互領域的實用性。這些數據表明,AI操控電腦已從實驗室走向實際應用場景。
技術整合方面,OpenClaw項目的貢獻尤為突出。這個原獨立項目在斯坦伯格團隊加入OpenAI后,其核心能力被深度融入主線模型。針對上下文消耗過大的問題,研發團隊引入"Compaction"機制,通過自動壓縮中間過程歷史記錄,使長任務執行效率提升40%以上。Thinking版本新增的推理計劃展示功能,允許用戶實時干預任務方向,解決了傳統模型方向偏差需從頭重來的痛點。
專業領域應用呈現顯著提升。GDPval專業知識測試顯示,新模型得分較前代提高12個百分點至83.0%。BrowseComp網頁信息檢索測試中,Pro版本以89.3%刷新紀錄。在幻燈片制作、金融建模等復雜任務中,Mercor基準測試證實其處理能力達到專業水準。開發者工具方面,Tool Search功能通過動態加載API定義,使token消耗降低47%的同時保持準確率。
企業級應用迎來重要更新。GPT-5.4現已集成至Microsoft Excel和谷歌Sheets,可直接讀取單元格范圍、執行多步分析并自動生成公式。這種深度嵌入改變了傳統的人機協作模式,AI不再需要用戶轉述需求,而是直接參與數據處理流程。測試中,系統在財務建模任務中展現出超越初級分析師的效率。
安全爭議伴隨技術突破而來。完全電腦訪問權限的開放引發隱私擔憂,盡管OpenAI強調Thinking版本通過思維鏈監控降低了欺騙風險,但評估報告仍承認模型具備隱藏推理過程的潛在能力。這種矛盾在測試中尤為明顯:當要求用中文輸入法打開網頁時,系統因無法識別輸入欄狀態導致操作失敗,暴露出視覺理解的局限性。
實際應用呈現冰火兩重天。在標準化任務中,模型展現出超越人類的效率,但在復雜界面或非常規操作時仍頻繁出錯。測試者發現,當頁面元素位置發生變化時,系統需要重新識別布局,這種適應性不足與傳統腳本的僵化形成微妙對比。付款操作等高風險場景中,人工監督仍是必要保障。







