在移動設備和桌面系統的日常操作中,許多復雜任務的完成往往需要連續進行數十次交互。從預訂會議到在游戲商城購買裝備,再到跨應用完成工作流,這些長鏈路操作對自動化技術提出了嚴峻挑戰。盡管基于多模態大語言模型的GUI智能體已取得顯著進展,但當任務步驟超過10-15步時,現有方法的成功率會出現斷崖式下降,這成為制約技術落地的關鍵瓶頸。
針對這一難題,由多所高校與科研機構聯合研發的LongHorizonUI框架近日取得突破性進展。該研究構建了首個專注于長鏈路場景的評測基準LongGUIBench,并提出包含增強感知、深度反思決策與補償式執行三大核心模塊的統一解決方案。相關成果已被國際學習表征會議(ICLR 2026)接收,為復雜場景下的GUI自動化提供了全新范式。
研究團隊通過系統性實驗發現,現有方法在長鏈路任務中存在感知漂移、定位偏差和決策誤差累積的問題。在AndroidControl基準測試中,當操作序列超過15步時,主流方法的平均成功率不足60%,遠低于5步內90%以上的成功率。這種非線性衰減表明,跨步狀態依賴的有效捕捉是提升長鏈路任務執行能力的關鍵。
為構建更具挑戰性的評測環境,LongGUIBench基準特別設計了包含15款主流應用和13款熱門游戲的測試集。所有任務操作步數均不低于15步,平均達到22.1步。其中游戲場景任務最長可達37步,覆蓋裝備管理、活動參與等核心機制。每條任務均提供高階目標描述與原子操作序列的雙重指令標注,并配備精細的UI語義信息,包括控件類型、位置坐標和狀態屬性。
在技術實現層面,LongHorizonUI通過分層處理不確定性構建完整閉環。多模態增強感知模塊采用控件檢測與OCR識別并行架構,為每個UI元素分配唯一空間索引作為穩定錨點。針對復合控件的識別難題,該模塊引入基于交并比的語義綁定機制,當圖標與文本檢測框重疊度超過閾值時自動關聯為同一實體。對于彈窗關閉按鈕等關鍵元素,系統在高優先區域設置模板匹配修復機制,確保關鍵操作不被遺漏。
深度反思決策模塊通過強制三級閉環推理提升決策可靠性。該模塊首先驗證上一步操作是否成功執行,接著檢查當前界面狀態與任務目標的一致性,最后要求模型在給出執行指令前說明操作依據。在動作執行前,系統會校驗目標元素是否存在、動作語義是否匹配,不滿足條件的指令將被拒絕并觸發修正機制。
補償式執行器則通過多級定位策略應對物理執行中的不確定性。系統優先使用元素索引定位控件質心,失敗時在檢測框內隨機采樣點擊點,若仍無法執行則回退到屏幕絕對坐標并添加微小擾動。每次操作后,系統會驗證執行結果,當所有定位策略均失效時觸發局部重規劃或回滾到上一個成功狀態繼續執行。
實驗數據顯示,LongHorizonUI在LongGUIBench基準上取得顯著優勢。在通用應用場景中,低級指令步驟成功率達到85.3%,高級指令成功率達52.3%,較對比方法分別提升6.1%和30.5%。游戲場景中同樣保持領先,整體平均成功率達77.3%。在跨平臺UI元素定位基準ScreenSpot上,該框架以90.4%的平均準確率超越所有開源方法,在Icon類元素識別上表現尤為突出。
消融實驗進一步驗證了各模塊的必要性。移除控件檢測器導致步驟完成率下降6.1%,僅使用索引定位的任務完成率為81.4%,而疊加補償策略后提升至85.3%。在超長鏈路測試中,該框架在50步任務中取得29.4%的成功率,較對比方法提升4.8個百分點,充分證明其在極端復雜場景下的魯棒性。









