人工智能領(lǐng)域迎來了一項(xiàng)突破性進(jìn)展:一種能夠自主創(chuàng)造工具的智能體架構(gòu)正式問世。這項(xiàng)由中國研究團(tuán)隊(duì)開發(fā)的技術(shù),通過讓智能體在執(zhí)行任務(wù)過程中動態(tài)生成所需工具,實(shí)現(xiàn)了推理階段的持續(xù)進(jìn)化,為通用人工智能的發(fā)展開辟了新路徑。
傳統(tǒng)智能體系統(tǒng)面臨顯著局限:當(dāng)任務(wù)需求超出預(yù)設(shè)工具范圍時(shí),系統(tǒng)要么無法完成,要么需要人工干預(yù)補(bǔ)充工具。新架構(gòu)通過引入"工具優(yōu)先"策略,使智能體能夠根據(jù)任務(wù)需求實(shí)時(shí)開發(fā)新工具。研究團(tuán)隊(duì)構(gòu)建的原型系統(tǒng)在處理復(fù)雜查詢時(shí),能夠自主創(chuàng)建并驗(yàn)證工具的有效性,在遇到錯(cuò)誤時(shí)還會進(jìn)行迭代修復(fù)。
實(shí)驗(yàn)數(shù)據(jù)顯示,該系統(tǒng)在五個(gè)權(quán)威基準(zhǔn)測試中累計(jì)生成了128個(gè)工具。在Humanity’s Last Exam(HLE)測試中,其表現(xiàn)僅次于GPT5.2-Pro智能體,在復(fù)雜檢索與推理任務(wù)中甚至超出官方基準(zhǔn)線近20個(gè)百分點(diǎn)。更引人注目的是,這些工具并非隨機(jī)生成——當(dāng)工具數(shù)量達(dá)到97個(gè)后,系統(tǒng)在新任務(wù)中復(fù)用現(xiàn)有工具的比例顯著提升,最終穩(wěn)定在128個(gè)工具的優(yōu)化集合。
技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)設(shè)計(jì)了包含四個(gè)核心角色的協(xié)作框架:管理者負(fù)責(zé)任務(wù)分解與工具匹配,工匠角色現(xiàn)場開發(fā)新工具,執(zhí)行者運(yùn)用工具處理任務(wù),整合者完成結(jié)果匯總。這種分工機(jī)制通過"測試時(shí)收斂"指標(biāo)進(jìn)行優(yōu)化,使系統(tǒng)能夠在單個(gè)任務(wù)周期內(nèi)完成工具開發(fā)、驗(yàn)證與部署的全流程。為提升效率,團(tuán)隊(duì)還引入了批量處理機(jī)制,允許系統(tǒng)同時(shí)處理相似任務(wù)群組,加速知識積累。
工具使用分析揭示了有趣的現(xiàn)象:排名前五的工具包括網(wǎng)頁搜索、內(nèi)容獲取和計(jì)算器等基礎(chǔ)功能,這些高頻工具的使用次數(shù)遠(yuǎn)超其他工具,呈現(xiàn)出明顯的馬太效應(yīng)。這種分布模式與人類工作習(xí)慣高度相似,表明系統(tǒng)在工具開發(fā)過程中自發(fā)形成了最優(yōu)工具集。當(dāng)處理2023屆畢業(yè)生數(shù)據(jù)查詢這類復(fù)雜任務(wù)時(shí),系統(tǒng)能夠自主創(chuàng)建數(shù)據(jù)過濾和統(tǒng)計(jì)分析工具,而無需依賴預(yù)設(shè)模板。
該架構(gòu)的開源特性引發(fā)了業(yè)界廣泛關(guān)注。相比傳統(tǒng)需要海量標(biāo)注數(shù)據(jù)的訓(xùn)練模式,這種推理階段進(jìn)化機(jī)制顯著降低了開發(fā)成本。研究團(tuán)隊(duì)僅用15萬元實(shí)驗(yàn)經(jīng)費(fèi)就完成了全流程驗(yàn)證,其核心代碼、實(shí)驗(yàn)日志和評測數(shù)據(jù)已全部公開。這種輕量化開發(fā)模式為中小企業(yè)和開源社區(qū)提供了新的技術(shù)路徑,有望推動智能體技術(shù)的快速普及。
技術(shù)文檔顯示,該系統(tǒng)在金融、醫(yī)療等對準(zhǔn)確性要求極高的領(lǐng)域具有獨(dú)特優(yōu)勢。通過代碼執(zhí)行的二元反饋機(jī)制,系統(tǒng)能夠自動驗(yàn)證工具有效性,避免了大語言模型常見的幻覺問題。當(dāng)處理醫(yī)療查詢時(shí),系統(tǒng)會自主創(chuàng)建癥狀匹配工具,并通過調(diào)用權(quán)威醫(yī)學(xué)數(shù)據(jù)庫進(jìn)行驗(yàn)證,這種可解釋的執(zhí)行過程顯著提升了結(jié)果可靠性。











