浙江大學(xué)聯(lián)合南開大學(xué)、香港中文大學(xué)、上海交通大學(xué)及vivo AI實驗室,共同完成了一項針對手機AI助手記憶能力的研究,相關(guān)成果已通過論文形式公開,論文編號為arXiv:2602.06075。這項研究指出,當(dāng)前智能助手在跨應(yīng)用信息記憶和長期學(xué)習(xí)方面存在明顯短板,導(dǎo)致用戶在實際使用中頻繁遇到信息丟失、重復(fù)犯錯等問題。
研究團隊發(fā)現(xiàn),現(xiàn)有評測體系對AI助手記憶能力的考察嚴(yán)重不足。在主流基準(zhǔn)測試中,涉及記憶力的任務(wù)占比僅5.2%至11.8%,且完全未評估長期學(xué)習(xí)能力。這種評測方式如同只測試學(xué)生的計算能力而忽略記憶力,無法全面反映智能助手的實際表現(xiàn)。為填補這一空白,團隊開發(fā)了名為MemGUI-Bench的全新評測框架,包含128道專門設(shè)計的記憶挑戰(zhàn)題,覆蓋購物、導(dǎo)航、筆記等26個日常應(yīng)用場景。
這套評測體系通過"鏡像題目"設(shè)計檢驗長期學(xué)習(xí)效果。每對題目在應(yīng)用組合和認(rèn)知需求上相似,但具體要求不同。例如,一道題目要求助手先在購房應(yīng)用中查找公寓信息并記住地址和租金,再到搜索引擎查找公司地址,最后用地圖應(yīng)用計算通勤時間并記錄結(jié)果;其鏡像題目則可能要求比較不同區(qū)域的租金水平。這種設(shè)計使得助手在完成第一道題目時積累的經(jīng)驗,理論上應(yīng)在處理第二道類似題目時發(fā)揮作用。
為確保評測公平性,研究團隊開發(fā)了"快照式"評測框架。該系統(tǒng)能在每次測試前將手機環(huán)境恢復(fù)至完全相同的初始狀態(tài),并支持多次嘗試評測。這使得AI助手有機會從失敗中學(xué)習(xí),而這一功能在以往評測中完全缺失。統(tǒng)計顯示,128道題目中89.8%涉及跨應(yīng)用信息記憶,平均每題需要36.2個操作步驟,其中78.1%的題目要求在多個應(yīng)用間傳遞信息。
針對記憶任務(wù)的復(fù)雜性,研究團隊設(shè)計了三階段漸進式評分系統(tǒng)。第一階段通過快速瀏覽任務(wù)最后三張截圖和基本操作記錄進行初步判斷,可處理約60%的明確成功案例;第二階段啟動步驟描述員生成詳細(xì)文字說明,并由語義判斷員綜合分析,對于記憶失敗情況還會計算信息保持率;第三階段采用針對性視覺驗證,根據(jù)第二階段判斷員的指示精準(zhǔn)提供相關(guān)截圖進行最終確認(rèn)。這種評分方式在準(zhǔn)確性上達到93.1%-99.0%,同時將評測成本降低60%以上。
對11個主流AI助手的測試結(jié)果顯示,即使是表現(xiàn)最好的M3A助手,在單次嘗試測試中成功率也僅32.8%。當(dāng)任務(wù)從單應(yīng)用升級到四應(yīng)用交叉時,頂級助手的成功率普遍下降16-40個百分點。例如,Agent-S2在AndroidWorld基準(zhǔn)上能達到54.3%的成功率,但在記憶密集型任務(wù)中僅27.3%,下降27個百分點;GUI-Owl-7B的表現(xiàn)差距更大,從66.4%暴跌至6.2%,降幅達60.2個百分點。
記憶消融實驗證實了記憶機制的重要性。移除M3A的記憶代理后,其成功率從32.5%暴跌至2.5%,信息保持率直接歸零;Agent-S2移除長期記憶后,多次嘗試成功率從45.0%下降到25.0%,失敗恢復(fù)率從15.5%降到9.1%。研究還發(fā)現(xiàn),長上下文能力能顯著提升記憶表現(xiàn)。當(dāng)M3A使用更長的對話歷史時,成功率從32.8%提升至51.6%,提升幅度達18.8個百分點。
通過對1265次任務(wù)執(zhí)行的詳細(xì)分析,研究團隊識別出五種典型記憶失敗模式。部分記憶幻覺占非超時失敗的主要比例,表現(xiàn)為記住部分信息但遺漏其他關(guān)鍵內(nèi)容;過程記憶幻覺是最普遍的失敗模式,助手在執(zhí)行中途完全忘記最終目標(biāo);輸出記憶幻覺則表現(xiàn)為操作流程正確但最終輸出遺漏關(guān)鍵信息;知識缺陷反映助手缺乏完成任務(wù)所需的基礎(chǔ)知識;意圖誤解則是助手對任務(wù)要求理解錯誤。統(tǒng)計分析顯示,記憶相關(guān)幻覺占所有非超時失敗的58.9%。
基于這些發(fā)現(xiàn),研究團隊提出了五項改進建議。開發(fā)多粒度記憶緩沖區(qū),將不同類型信息分類存儲以避免干擾;實施層次化任務(wù)分解,將復(fù)雜任務(wù)拆解為子任務(wù)并持續(xù)追蹤總體進度;戰(zhàn)略性利用長上下文,對信息進行重要性排序并壓縮冗余內(nèi)容;建立專門的長期記憶機制,記錄成功操作模式和失敗教訓(xùn);開發(fā)混合式架構(gòu),結(jié)合框架式助手和端到端模型的優(yōu)勢,根據(jù)任務(wù)復(fù)雜度動態(tài)選擇處理方式。
這項研究不僅為AI助手行業(yè)建立了首個專門針對記憶能力的評測基準(zhǔn),還提供了明確的改進路徑。研究團隊已承諾將所有代碼、基準(zhǔn)測試和評估結(jié)果完全開源,并持續(xù)維護更新。隨著更多研究者和開發(fā)者基于這個基準(zhǔn)進行優(yōu)化,具備強大記憶能力的AI助手有望在未來成為現(xiàn)實,為用戶提供更加智能和實用的交互體驗。










