蘋果研究團隊近日發布了一項突破性成果——專為移動設備設計的輕量級多模態大語言模型Ferret-UI Lite。這款僅有30億參數的端側AI模型,在性能上竟與參數量達720億的大型服務器端模型不相上下,甚至在部分基準測試中實現超越。這一成果標志著移動端AI應用迎來重要進展,尤其在圖形用戶界面(UI)理解領域展現出獨特優勢。
傳統通用大模型在處理移動設備UI時面臨顯著挑戰:手機屏幕上的微小圖標和密集文本常因分辨率限制導致識別困難。Ferret-UI Lite通過創新性的"推理時裁剪"技術破解這一難題——模型首先對屏幕內容進行全局分析,隨后智能定位關鍵區域并動態放大,如同人類調整視覺焦點般進行二次精準識別。這種策略使模型無需處理整幅圖像數據,既能聚焦細節又保持計算效率,在算力受限的移動端實現高效運行。
研究團隊為解決訓練數據稀缺問題,開發了一套獨特的合成數據生成系統。該系統模擬真實用戶操作流程,包含任務設計、路徑規劃、執行驗證和錯誤修正四個模塊。通過讓AI在虛擬環境中反復試錯,不僅生成了海量多樣化訓練樣本,更使模型掌握應對異常情況的能力——例如處理無響應按鈕或突發性彈窗等現實場景中的干擾因素。實驗表明,這種自進化訓練方式產生的數據質量顯著優于人工標注樣本。
實際測試顯示,該模型在執行單步驟UI操作時準確率極高,例如自動填寫表單、點擊特定按鈕等基礎任務表現優異。但在處理需要多步驟協同的復雜流程時,仍存在優化空間。研究團隊特別強調,Ferret-UI Lite的完全本地化運行特性具有重大意義——所有屏幕解析和操作決策均在設備端完成,無需上傳數據至云端服務器,這為移動應用自動化提供了隱私安全的解決方案,用戶無需擔心敏感信息泄露風險。
這項成果已引發行業廣泛關注,其輕量化設計特別適合部署在智能手機、平板電腦等移動終端。隨著移動設備算力的持續提升,端側AI模型有望在更多場景實現自主決策,為用戶帶來更智能的交互體驗。研究團隊表示將持續優化模型的多任務處理能力,并探索與現有移動操作系統的深度整合方案。











