AI 助手正在從“只會動嘴”向“替你動手”完成跨越。
近日,谷歌 正式在 Pixel10Pro 和 Galaxy S26Ultra 上推出了 Gemini 的任務自動化功能(Task Automation)。這標志著 AI 助手正式從“對話工具”進化為“執行代理(Agent)”,不僅能回答問題,還能直接接管手機屏幕替你辦事。
實測體驗:全程“無人駕駛”,但需要點耐心
在 OSCHINA 披露的實測案例中,如果你想點一份 DoorDash 外賣,只需對 Gemini 下達自然語言指令,接下來的操作堪稱“科幻”:
后臺代操: AI 會自動打開應用、識別界面元素、填寫表單并選擇選項,最后確認訂單。
異步運行: 執行過程中,屏幕底部會實時滾動“正在選擇目的地”等進度。最酷的是,你可以切換去刷視頻或回郵件,AI 會在后臺持續運行直至任務完成。
速度瓶頸: 目前的缺點是“慢”。由于 AI 需要逐幀識別界面并進行云端推理,手動操作只需2分鐘的任務,AI 可能需要9分鐘。
技術破局:打破“信息查詢”的十年天花板
過去十年,從 Siri 到 Google Assistant,語音助手始終停留在定鬧鐘、查天氣的淺層交互。Gemini 任務自動化的核心突破在于其具備了復雜的長鏈條任務規劃能力,讓“發令-等待結果”成為了可能。
生態局限:仍處于“概念產品”階段
盡管前景誘人,但目前的自動化功能仍面臨不少挑戰:
適配范圍窄: 目前僅支持 Uber、DoorDash 等流程高度標準化的應用。
容錯率待提升: 界面識別錯誤或支付環節的安全限制,仍是阻礙其大規模普及的硬傷。
巨頭暗戰:2026開啟“AI Agent”元年
隨著 OpenAI 的 Operator 和蘋果 Apple Intelligence 的相繼發力,谷歌 此次搶先在移動端切入,意在依托 Android 生態搶占高頻生活場景。
雖然現階段的 Gemini 任務自動化看起來還有些“笨拙”,但技術進步往往遵循指數曲線。當 AI 能夠以人類的速度流暢操作任意 App 時,我們與手機的交互方式將被徹底改寫。這場“雖慢但酷”的進化,正是通往通用人工智能(AGI)的關鍵一步。











