AI智能體正從實(shí)驗(yàn)室走向現(xiàn)實(shí)應(yīng)用場(chǎng)景,全球主要科技企業(yè)均已推出相關(guān)產(chǎn)品,但其在真實(shí)環(huán)境中的運(yùn)行模式仍籠罩在神秘面紗之下。近日,人工智能研究機(jī)構(gòu)Anthropic通過(guò)分析數(shù)百萬(wàn)次人機(jī)交互數(shù)據(jù),首次系統(tǒng)梳理了AI智能體在實(shí)際部署中的關(guān)鍵特征,為行業(yè)提供了重要參考。
研究團(tuán)隊(duì)對(duì)Claude Code及其公共API的交互記錄進(jìn)行隱私保護(hù)分析后發(fā)現(xiàn),該模型單次連續(xù)自主運(yùn)行時(shí)長(zhǎng)呈現(xiàn)顯著增長(zhǎng)趨勢(shì)。在2025年10月至2026年1月期間,極端情況下(第99.9百分位)的自主運(yùn)行時(shí)間從25分鐘延長(zhǎng)至45分鐘以上,而中位數(shù)時(shí)長(zhǎng)穩(wěn)定在45秒左右。這種增長(zhǎng)并非單純?cè)从谀P蜕?jí),用戶信任積累、任務(wù)復(fù)雜度提升以及產(chǎn)品優(yōu)化等因素同樣起到關(guān)鍵作用。
數(shù)據(jù)顯示,經(jīng)驗(yàn)豐富的用戶更傾向于讓AI完全自主工作。當(dāng)用戶使用次數(shù)超過(guò)750次時(shí),40%以上的會(huì)話采用全自動(dòng)模式,而新用戶(使用次數(shù)少于50次)的這一比例僅為20%。值得注意的是,隨著使用經(jīng)驗(yàn)增加,用戶主動(dòng)打斷模型的比例從5%上升至9%,表明人類監(jiān)督并未減弱,而是轉(zhuǎn)向更精準(zhǔn)的干預(yù)時(shí)機(jī)。
在任務(wù)處理效率方面,Claude Code展現(xiàn)出顯著進(jìn)步。2025年8月至12月間,其處理高難度任務(wù)的成功率翻倍,同時(shí)每個(gè)會(huì)話的人工干預(yù)次數(shù)從5.4次降至3.3次。研究認(rèn)為,這表明AI在實(shí)際應(yīng)用中的自主空間可能超出用戶預(yù)設(shè)范圍,經(jīng)驗(yàn)用戶更懂得如何釋放模型潛力。
不同復(fù)雜度任務(wù)中的人機(jī)協(xié)作模式呈現(xiàn)明顯差異。在修改單行代碼等簡(jiǎn)單任務(wù)中,87%的工具調(diào)用需要人工參與;而在查找零日漏洞或編寫編譯器等復(fù)雜任務(wù)中,這一比例降至67%。研究指出,復(fù)雜任務(wù)往往由資深用戶發(fā)起,且步驟繁多導(dǎo)致實(shí)時(shí)審批困難,這是人工參與度下降的主要原因。
模型自身的風(fēng)險(xiǎn)控制機(jī)制同樣值得關(guān)注。面對(duì)復(fù)雜任務(wù)時(shí),Claude Code因不確定而主動(dòng)請(qǐng)求澄清的次數(shù)是人類打斷次數(shù)的兩倍以上。這種自我約束行為被視為重要的安全機(jī)制,能夠有效預(yù)防潛在錯(cuò)誤擴(kuò)散。研究強(qiáng)調(diào),智能體主動(dòng)確認(rèn)問(wèn)題比被動(dòng)接受糾正更具預(yù)防價(jià)值。
在應(yīng)用領(lǐng)域分布方面,軟件工程占據(jù)AI智能體活動(dòng)的近半壁江山,醫(yī)療、金融和網(wǎng)絡(luò)安全等高風(fēng)險(xiǎn)領(lǐng)域也開(kāi)始出現(xiàn)應(yīng)用案例。雖然目前高風(fēng)險(xiǎn)操作占比不足1%,但其潛在影響不容忽視。研究特別指出,公共API執(zhí)行的操作中,絕大多數(shù)具有低風(fēng)險(xiǎn)和可逆性特征。
這項(xiàng)研究也存在局限性。由于僅分析單一模型提供商的數(shù)據(jù),且對(duì)公共API的會(huì)話級(jí)行為缺乏完整觀察,結(jié)論的普適性有待驗(yàn)證。基于此,研究團(tuán)隊(duì)向行業(yè)提出多項(xiàng)建議:加強(qiáng)部署后監(jiān)控系統(tǒng)建設(shè)、訓(xùn)練模型識(shí)別自身不確定性、開(kāi)發(fā)更高效的用戶監(jiān)督工具,同時(shí)避免過(guò)早制定固定交互規(guī)范。











