谷歌基于Gemini模型打造的“任務自動化”功能正式開啟Beta測試,標志著AI助手從信息檢索工具向跨應用操作執行者的角色轉變。這項創新技術通過模擬人類在屏幕上的交互行為,實現了無需依賴API接口的復雜流程自動化,首批覆蓋外賣訂餐和網約車兩大高頻場景。
在測試場景中,用戶只需發出自然語言指令即可觸發完整服務鏈條。當用戶要求“打車去機場”時,系統會自動啟動Uber應用,根據航班信息智能匹配航站樓,并在存在多個選項時主動詢問確認。面對“點一杯拿鐵和牛角包”的指令,AI會像真人用戶一樣滑動星巴克菜單,精準定位指定商品,甚至能處理需要滾動查看的隱藏選項。
為確保操作安全性,谷歌構建了雙重控制機制。用戶可通過實時可視化界面全程監控AI的每步操作,隨時點擊“接管控制”按鈕中斷流程。在訂單提交或支付環節,系統會強制停留在確認頁面,要求用戶手動核實訂單詳情和金額后才能完成交易,有效避免因AI誤操作導致的經濟損失。
這種基于用戶界面交互的自動化方案突破了傳統API對接的局限性,使AI助手能夠適配更多未開放接口的應用程序。盡管當前版本在處理動態菜單滾動和復雜選項識別時仍存在優化空間,但其展現出的跨應用操作能力已為智能設備交互開辟了新路徑。隨著算法持續迭代,用戶有望通過單一指令串聯多個服務場景,徹底改變在不同應用間頻繁切換的操作模式。














