滾動資訊

當(dāng)前位置：首頁 > 資訊 > 手機快報 > 正文內(nèi)容

浙江大學(xué)領(lǐng)銜研發(fā)新評測體系，為手機AI助手“記憶力”精準(zhǔn)把脈

時間：2026-02-10 03:19:08 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

浙江大學(xué)聯(lián)合南開大學(xué)、香港中文大學(xué)、上海交通大學(xué)及vivo AI實驗室，共同完成了一項針對手機AI助手記憶能力的研究，相關(guān)成果已通過論文形式公開，論文編號為arXiv:2602.06075。這項研究指出，當(dāng)前智能助手在跨應(yīng)用信息記憶和長期學(xué)習(xí)方面存在明顯短板，導(dǎo)致用戶在實際使用中頻繁遇到信息丟失、重復(fù)犯錯等問題。

研究團隊發(fā)現(xiàn)，現(xiàn)有評測體系對AI助手記憶能力的考察嚴(yán)重不足。在主流基準(zhǔn)測試中，涉及記憶力的任務(wù)占比僅5.2%至11.8%，且完全未評估長期學(xué)習(xí)能力。這種評測方式如同只測試學(xué)生的計算能力而忽略記憶力，無法全面反映智能助手的實際表現(xiàn)。為填補這一空白，團隊開發(fā)了名為MemGUI-Bench的全新評測框架，包含128道專門設(shè)計的記憶挑戰(zhàn)題，覆蓋購物、導(dǎo)航、筆記等26個日常應(yīng)用場景。

這套評測體系通過"鏡像題目"設(shè)計檢驗長期學(xué)習(xí)效果。每對題目在應(yīng)用組合和認(rèn)知需求上相似，但具體要求不同。例如，一道題目要求助手先在購房應(yīng)用中查找公寓信息并記住地址和租金，再到搜索引擎查找公司地址，最后用地圖應(yīng)用計算通勤時間并記錄結(jié)果；其鏡像題目則可能要求比較不同區(qū)域的租金水平。這種設(shè)計使得助手在完成第一道題目時積累的經(jīng)驗，理論上應(yīng)在處理第二道類似題目時發(fā)揮作用。

為確保評測公平性，研究團隊開發(fā)了"快照式"評測框架。該系統(tǒng)能在每次測試前將手機環(huán)境恢復(fù)至完全相同的初始狀態(tài)，并支持多次嘗試評測。這使得AI助手有機會從失敗中學(xué)習(xí)，而這一功能在以往評測中完全缺失。統(tǒng)計顯示，128道題目中89.8%涉及跨應(yīng)用信息記憶，平均每題需要36.2個操作步驟，其中78.1%的題目要求在多個應(yīng)用間傳遞信息。

針對記憶任務(wù)的復(fù)雜性，研究團隊設(shè)計了三階段漸進式評分系統(tǒng)。第一階段通過快速瀏覽任務(wù)最后三張截圖和基本操作記錄進行初步判斷，可處理約60%的明確成功案例；第二階段啟動步驟描述員生成詳細(xì)文字說明，并由語義判斷員綜合分析，對于記憶失敗情況還會計算信息保持率；第三階段采用針對性視覺驗證，根據(jù)第二階段判斷員的指示精準(zhǔn)提供相關(guān)截圖進行最終確認(rèn)。這種評分方式在準(zhǔn)確性上達到93.1%-99.0%，同時將評測成本降低60%以上。

對11個主流AI助手的測試結(jié)果顯示，即使是表現(xiàn)最好的M3A助手，在單次嘗試測試中成功率也僅32.8%。當(dāng)任務(wù)從單應(yīng)用升級到四應(yīng)用交叉時，頂級助手的成功率普遍下降16-40個百分點。例如，Agent-S2在AndroidWorld基準(zhǔn)上能達到54.3%的成功率，但在記憶密集型任務(wù)中僅27.3%，下降27個百分點；GUI-Owl-7B的表現(xiàn)差距更大，從66.4%暴跌至6.2%，降幅達60.2個百分點。

記憶消融實驗證實了記憶機制的重要性。移除M3A的記憶代理后，其成功率從32.5%暴跌至2.5%，信息保持率直接歸零；Agent-S2移除長期記憶后，多次嘗試成功率從45.0%下降到25.0%，失敗恢復(fù)率從15.5%降到9.1%。研究還發(fā)現(xiàn)，長上下文能力能顯著提升記憶表現(xiàn)。當(dāng)M3A使用更長的對話歷史時，成功率從32.8%提升至51.6%，提升幅度達18.8個百分點。

通過對1265次任務(wù)執(zhí)行的詳細(xì)分析，研究團隊識別出五種典型記憶失敗模式。部分記憶幻覺占非超時失敗的主要比例，表現(xiàn)為記住部分信息但遺漏其他關(guān)鍵內(nèi)容；過程記憶幻覺是最普遍的失敗模式，助手在執(zhí)行中途完全忘記最終目標(biāo)；輸出記憶幻覺則表現(xiàn)為操作流程正確但最終輸出遺漏關(guān)鍵信息；知識缺陷反映助手缺乏完成任務(wù)所需的基礎(chǔ)知識；意圖誤解則是助手對任務(wù)要求理解錯誤。統(tǒng)計分析顯示，記憶相關(guān)幻覺占所有非超時失敗的58.9%。

基于這些發(fā)現(xiàn)，研究團隊提出了五項改進建議。開發(fā)多粒度記憶緩沖區(qū)，將不同類型信息分類存儲以避免干擾；實施層次化任務(wù)分解，將復(fù)雜任務(wù)拆解為子任務(wù)并持續(xù)追蹤總體進度；戰(zhàn)略性利用長上下文，對信息進行重要性排序并壓縮冗余內(nèi)容；建立專門的長期記憶機制，記錄成功操作模式和失敗教訓(xùn)；開發(fā)混合式架構(gòu)，結(jié)合框架式助手和端到端模型的優(yōu)勢，根據(jù)任務(wù)復(fù)雜度動態(tài)選擇處理方式。

這項研究不僅為AI助手行業(yè)建立了首個專門針對記憶能力的評測基準(zhǔn)，還提供了明確的改進路徑。研究團隊已承諾將所有代碼、基準(zhǔn)測試和評估結(jié)果完全開源，并持續(xù)維護更新。隨著更多研究者和開發(fā)者基于這個基準(zhǔn)進行優(yōu)化，具備強大記憶能力的AI助手有望在未來成為現(xiàn)實，為用戶提供更加智能和實用的交互體驗。

更多>同類資訊

喬納森·伊夫談汽車設(shè)計：觸控屏非主控，實體按鍵保障駕駛安全

02-10

法拉利首款電動跑車Luce內(nèi)飾曝光：蘋果前設(shè)計官操刀復(fù)古現(xiàn)代風(fēng)交融

02-10

法拉利首款電動跑車Luce登場：“iPhone之父”助力，內(nèi)飾交互亮點紛呈

02-10

蘋果新品密集來襲！未來幾周iPhone iPad Mac齊上新科技盛宴將啟

就在昨天（2 月 8 日），馬克 · 古爾曼揭幕了蘋果今年春季的新品攻勢，iPhone、iPad、Mac 三大核心產(chǎn)品線均有上新大動作。除了iPhone，iPad 產(chǎn)品線的更新也已進入倒計時，IT之家小…

02-10

榮耀手機或迎新功能！問界系列車鑰匙適配事宜正與官方積極溝通中

IT之家 2 月 9 日消息，榮耀 Magic Vs3 手機的用戶昨日在榮耀俱樂部反饋，希望榮耀手機能夠加快適配問界車鑰匙。IT之家注意到，官方產(chǎn)品維護 @MagicOS小云今日回復(fù)稱：“問界車鑰匙正在溝…

02-10

華為上汽聯(lián)手打造尚界Z7雪地冬測引爭議官方回應(yīng)澄清AI造假疑云

近日，華為與上汽合作打造的第五界——尚界汽車集中預(yù)熱其第二款車型尚界Z7，本想靠一組雪地冬測圖彰顯自身性能，卻意外陷入“AI造假”的輿論漩渦，爭議刷屏全網(wǎng)。官方明確表示，此次發(fā)布的所有尚界Z7冬測圖片，都是在…

02-10

受蘋果傳聞影響三星或為Galaxy S27系列手機重新引入可變光圈攝像頭

IT之家 2 月 9 日消息，據(jù)韓媒 ETNews 報道，受“蘋果計劃為 iPhone 18 Pro系列手機引入可變光圈技術(shù)”的傳聞影響，三星目前正認(rèn)真評估在未來 Galaxy S27 手機中帶回可變光圈攝…

02-10

AI運動新勢力苔源MossCode：以科技洞察自我，開啟智能穿戴新體驗

02-10

蔚來“智能場景車控”功能來襲站定或搖手機輕松操控前備艙后備箱

02-10

三星Galaxy F70e 5G印度登場：天璣6300芯片+6000mAh電池，性價比新選擇

02-10

OPPO Find N6折疊屏手機3月或登場輕薄設(shè)計搭配2億像素影像引期待

02-10

華為技術(shù)公司新動作：申請注冊多枚“華為能源”相關(guān)商標(biāo)

雷達財經(jīng)訊，天眼查知識產(chǎn)權(quán)信息顯示，近日，華為技術(shù)有限公司申請注冊多枚“華為能源”“華為數(shù)字能源”商標(biāo)，國際分類包括科學(xué)儀器、運輸工具、機械設(shè)備等，當(dāng)前商標(biāo)狀態(tài)均為等待實質(zhì)審查。華為技術(shù)有限公司成立于198…

02-10

vivo X Fold6新動向：測試2億像素鏡頭，或成折疊屏影像新標(biāo)桿

【CNMO科技消息】2月9日，數(shù)碼博主@智慧皮卡丘爆料稱，vivo XFold6正在測試2億像素鏡頭與多光譜，產(chǎn)品定義為“折疊屏影像最強者”。據(jù)CNMO了解，此前vivo X Fold6現(xiàn)身GSMA I…

02-10

高通驍龍X2 Elite跑分出爐：五項測試三勝蘋果M5，Windows on ARM有戲了

在31W功耗下（比蘋果M5的26W高出5W），該芯片在五項基準(zhǔn)測試中三度擊敗M5，同時全面碾壓前代驍龍X Elite，具體如下：驍龍X2Elite - 3分31秒驍龍X2 Elite - 3分29秒 …

02-10

OPPO Find N6官宣春節(jié)后亮相：折疊技術(shù)再升級旗艦配置引領(lǐng)新體驗

當(dāng)然，經(jīng)過數(shù)代優(yōu)化與升級后，現(xiàn)在的折疊屏手機還是值得體驗的，畢竟折痕較淺，而且更耐折。 “折疊技術(shù)、輕薄”將成為新機的核心之一，官方提到“OPPO在折痕優(yōu)化上的投入和決心”，預(yù)計折痕更淺。屏幕性能均為常規(guī)升級…

02-10

點擊查看更多 +

全站最新

華為上汽聯(lián)手打造尚界Z7雪地冬測引爭議官方回應(yīng)澄清AI造假疑云

Seedance2.0突破AI視頻生成瓶頸，成本驟降效率飆升，多場景加速落地

字節(jié)Seedance 2.0：一分鐘成片，AI視頻創(chuàng)作迎變革還是迎挑戰(zhàn)？

TWS耳機盛行下有線耳機仍具優(yōu)勢！西圣HiFi 1百元價位的實力之選

當(dāng)算力競賽退潮，萬億增量的錨點正轉(zhuǎn)向AI"深水區(qū)"

"高市行情"殺回來了？日股狂飆，日元危機四伏

熱門內(nèi)容

本欄最新

華為上汽聯(lián)手打造尚界Z7雪地冬測引爭議官方回應(yīng)澄清AI造假疑云

嵐圖泰山黑武士版3月登場搭載華為智駕方案開啟L3級駕駛新體驗

吉利博越REV官圖發(fā)布！增程式電動+大電池，純電續(xù)航375km綜合1525km

中國首家網(wǎng)吧誕生記：從門庭若市到時代變遷，開網(wǎng)吧鼻祖的沉浮人生

科技與美學(xué)交融！嵐圖泰山黑武士版3月限定登場攜L3智駕沖擊豪華SUV市場

吉利博越REV官宣亮相！A+級定位+1525km綜合續(xù)航增程市場迎新標(biāo)桿

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR比爾科技官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

浙江大學(xué)領(lǐng)銜研發(fā)新評測體系，為手機AI助手“記憶力”精準(zhǔn)把脈