岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

ITBear旗下自媒體矩陣:

ChatGPT-5.4“動手”新突破:微信操作驚艷,瀏覽器失誤又讓人哭笑不得

   時間:2026-03-07 15:24:08 來源:快訊編輯:快訊 IP:北京 發表評論無障礙通道
 

近期,科技圈被一個名為“原生電腦操控能力”(Native Computer Use)的概念刷屏,各大媒體紛紛報道“AI終于能接管你的電腦了”“GPT-5.4操控桌面超越人類水平”等消息,評論區也充斥著“為時已晚,有機體!”的驚嘆。然而,面對如此熱烈的宣傳,不少人心中卻充滿了懷疑,“AI操控電腦”并非新鮮話題,今年1月OpenClaw爆火時,大家就已見識過類似概念,且過去兩年“agent時代”的呼聲每隔幾個月就會響起一次,但實際體驗往往不盡如人意。那么,GPT-5.4的“原生電腦操控”究竟是真正的技術飛躍,還是又一次營銷噱頭?

為了揭開真相,有人親自對GPT-5.4進行了大半天的測試,得出的結論是:它確實取得了顯著進步,但遠未達到宣傳中的神奇程度。測試過程中,有些場景令人驚嘆,有些則讓人哭笑不得。可以確定的是,ChatGPT-5.4絕非僅僅內置了一個OpenClaw那么簡單,它標志著ChatGPT終于學會了“動手”。

GPT-5.4是OpenAI首個具備原生電腦操控能力的主線模型。所謂“原生電腦操控能力”,簡單來說,就是AI不再局限于聊天,而是能像人類一樣直接操作電腦。它能夠識別屏幕上的元素,如瀏覽器、按鈕、輸入框等,并自主進行點擊、輸入、切換窗口、滾動頁面、提交表單等操作。若發現操作錯誤,還能回退或嘗試其他方式。這與傳統的自動化腳本截然不同,后者需要提前設定固定流程,一旦網頁結構或按鈕位置發生變化,腳本便無法運行,而原生電腦操控能力則具備隨機應變的能力,能根據實際情況靈活調整操作。

以微信為例,其產品設計、底層架構和安全體系從一開始就未給第三方agent留下任何合規的技術通道,且微信開放平臺至今未對外開放個人微信賬號的私聊、群聊消息發送相關API接口。然而,ChatGPT-5.4卻成功實現了在微信上的操作。有人通過Codex要求ChatGPT-5.4歸納24小時內的AI新聞,并以字母AI的風格轉化為選題,最后發送到群里供同事查看,還在選題末尾注明消息由ChatGPT-5.4發送。ChatGPT-5.4不僅完成了任務,還主動提出將文字修改得更自然。它不僅能看懂屏幕元素,還能完整模擬鍵盤鼠標操作,這一表現令人震驚,畢竟就連OpenClaw在征服微信時都面臨巨大挑戰。

不過,ChatGPT-5.4在瀏覽器控制方面卻出現了一些意外。當要求其打開douyin.com時,它卻打開了“抖音。com”。原來,由于它是模擬鍵盤輸入,而測試者的輸入法為中文,導致輸入錯誤。由于英語鍵盤沒有輸入欄,ChatGPT-5.4無法看到輸入欄,因此當輸入法切換為中文時,它便無法正常輸入網頁。在操作復雜頁面時,它容易點錯位置,操作速度通常比人類慢,且涉及付款、刪除文件、處理隱私數據等高風險操作時,仍需人工監督。

OpenAI為ChatGPT提供了兩種“動手”方式。一種是代碼模式,AI通過編寫Python Playwright腳本來操控瀏覽器和應用程序,精確執行點哪里、輸入什么、如何導航等操作;另一種是截圖模式,AI直接“看”屏幕截圖,然后像人類一樣發出鼠標和鍵盤指令,無需代碼作為中間層。OpenAI還推出了“Playwright Interactive”實驗性功能,讓AI能夠一邊寫代碼一邊實時測試,甚至在構建網頁應用的同時自行打開瀏覽器調試。

在衡量AI通過截圖加鍵盤鼠標自主操控桌面能力的OSWorld-Verified測試中,GPT-5.4取得了75.0%的成功率,上一代GPT-5.2僅為47.3%,而人類基準線為72.4%。這意味著GPT-5.4在“看著屏幕操作電腦”方面已超越普通人平均水平。在WebArena-Verified測試中,GPT-5.4成功率為67.3%;在Online-Mind2Web測試中,僅靠截圖觀察就達到了92.8%。這些數據表明,如今的ChatGPT在電腦操控方面已不再是實驗室中的玩具,而是具備了實際應用能力。

OpenClaw對ChatGPT-5.4的加持作用顯著。2026年2月14日,斯坦伯格加入OpenAI,負責推動下一代個人agent的研發,同時OpenClaw項目移交至獨立開源基金會運營,OpenAI承諾提供持續的資源、資金和技術支持。然而,OpenClaw存在成本高昂的問題,由于軟件會將上下文發送至大模型,導致某些場景下token消耗巨大。為此,OpenAI引入了“Compaction”機制,即上下文壓縮。當AI執行長多步驟任務時,會自動總結和修剪中間過程的歷史記錄,僅保留關鍵信息,既維持了長任務的連貫性,又避免了token預算的過度消耗。這是GPT-5.4作為首個主線模型被訓練支持的能力,此前僅有專門的Codex編碼模型具備類似功能。

在推理能力方面,GPT-5.4 Thinking版本新增了一項實用特性:在處理復雜問題時,會先展示推理計劃大綱,告知用戶“我打算怎么做”。更關鍵的是,用戶可在其推理過程中隨時打斷并調整方向,無需從頭開始。這一功能解決了以往AI處理復雜任務時方向跑偏只能重新開始的問題。在專業知識工作的GDPval基準上,GPT-5.4取得了83.0%的成績,較GPT-5.2提升了12個百分點;在BrowseComp基準上,GPT-5.4 Pro版本達到了89.3%,刷新了紀錄。Mercor的APEX-Agents基準測試也顯示,GPT-5.4在制作幻燈片、金融建模、法律分析等長周期專業任務中表現突出。

對于開發者而言,GPT-5.4帶來了Tool Search這一重要更新。以往調用API時,所有可用工具的定義需全部塞入上下文,消耗大量token。如今,GPT-5.4僅加載輕量級工具列表,需要時再查詢具體定義。在Scale的 MCP Atlas基準測試中,這種方式在36個MCP服務器場景下,token消耗降低了47%,準確率保持不變。OpenAI還推出了ChatGPT與Microsoft Excel和谷歌Sheets的集成功能,GPT-5.4可讀取單元格范圍、執行多步分析、自動編寫公式,對企業用戶而言,這無疑是一大助力,AI不再僅僅是用戶與表格之間的“傳話筒”,而是直接參與工作。

然而,GPT-5.4的發布也引發了一些擔憂。OpenClaw的“魔幻”之處不僅在于AI能做事,更在于其經常超出人類預期。當這種能力被內置到擁有數億用戶的產品中時,難免讓人感到不安。目前,Codex可設置讓ChatGPT-5.4完全訪問用戶電腦,實現真正的原生控制,但這一功能令人望而卻步,畢竟電腦中存儲著大量個人敏感數據。OpenAI在GPT-5.4的安全評估中提到,Thinking版本的欺騙行為概率更低,表明模型缺乏隱藏推理過程的能力,思維鏈監控仍是有效的安全工具。但這同時也反映出,他們確實在擔心AI會“隱藏推理過程”。無論如何,GPT-5.4的發布標志著AI發展進入了一個新階段,它不再僅僅是對話框中的助手,而是開始伸出“手”,觸碰用戶的屏幕、文件和工作流。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
主站蜘蛛池模板: 91国产在线免费观看 | 日韩字幕在线观看 | 伊人青青 | av一区二区三区在线 | av播播 | 性生交大片免费全黄 | 男人的天堂中文字幕 | 半推半就一ⅹ99av | 狠狠撸在线视频 | 超碰2021 | 中文字幕色哟哟 | 日本亚洲视频 | 久久久久免费看 | 天天干 夜夜操 | 久久不卡区 | 性欧美疯狂猛交69hd | av在线免 | 91av官网| 成人久久久久久久 | 中文字幕色站 | 国产亚洲福利 | 在线观看一二三区 | 韩日黄色片| 黄色大片免费在线观看 | 色av中文字幕 | 国产日韩av在线播放 | av在线播放一区二区 | 亚洲国产精品久久 | 一级aaa毛片 | 深夜国产福利 | 久久综合视频网 | 免费高清毛片 | 激情五月婷婷色 | 亚洲一区二区三区在线观看视频 | 麻豆视频国产 | av中文字幕一区 | 国产视频在线一区 | 国产在线看片 | 四虎在线免费观看 | 国产免费av一区二区 | 在线观看视频一区二区 |