在智能手機功能日益強大的今天,普通用戶也能通過簡單操作,讓手機擁有類似高端AI助手的自動化能力。無需復雜技術背景或解鎖系統權限,只需借助幾款現成工具,就能實現跨應用點咖啡、發消息等智能操作。這種DIY方式不僅降低了技術門檻,更讓用戶能深度體驗人工智能與移動設備的融合魅力。
實現這一功能的核心工具包括:運行Android 10及以上系統的智能手機、AutoGLM For Android應用、Shizuku權限管理工具,以及智譜科技提供的AutoGLM-Phone模型服務。其中AutoGLM-Phone是專門為移動端操作訓練的視覺模型,目前處于限時免費階段,用戶可通過智譜BigModel平臺獲取使用權限。
操作流程從激活手機隱藏功能開始。用戶需在系統設置中連續點擊"版本號"七次,開啟開發者模式后,在新增的開發者選項中啟用無線調試功能。此時手機會生成配對碼,通過Shizuku應用輸入該代碼即可建立安全連接,這種設計既賦予應用必要權限,又避免了傳統root方式的安全風險。
權限配置環節需要特別注意細節處理。安裝AutoGLM應用后,必須依次授予無障礙服務、懸浮窗顯示等關鍵權限。在模型配置界面,用戶需準確填寫從智譜平臺獲取的API Key,基礎URL必須嚴格使用官方指定地址,任何多余字符都會導致服務異常。這些設置直接影響后續操作的識別準確率。
實際測試顯示,該系統能理解復雜指令鏈。當用戶輸入"打開淘寶,搜索無線耳機,按銷量排序后選擇第二款加入購物車"時,AI會依次完成應用啟動、關鍵詞搜索、條件篩選、商品選擇等步驟。整個過程通過懸浮窗實時顯示決策邏輯,用戶可清晰看到系統如何識別界面元素、規劃操作路徑。
在實踐過程中,開發者總結出多項優化經驗。指令設計應遵循"場景具體化"原則,例如將"訂外賣"細化為"打開餓了么,定位到當前地址,選擇川菜分類,按評分排序后點選第三家店鋪的微辣黃燜雞米飯"。模型選擇方面,經過對比測試發現,專為移動端優化的AutoGLM-Phone在界面元素識別準確率上比通用對話模型高出43%。
技術實現背后涉及多項創新突破。該系統采用分層決策架構,底層語言模型負責語義理解,中層視覺模塊處理界面解析,上層規劃器制定操作序列。這種設計使系統既能理解自然語言指令,又能適應不同應用的界面布局變化。特別在動態元素識別方面,通過引入注意力機制,顯著提升了按鈕點擊成功率。
這種DIY方案不僅具有技術探索價值,更開創了個性化智能助手的新可能。由于采用開源模型架構,用戶可根據自身需求調整模型參數,例如為老年用戶簡化操作流程,或為商務人士增加日程管理功能。這種可定制性使得每個設備都能擁有獨一無二的智能體驗,為人工智能的民用化發展提供了新思路。











