在人工智能領(lǐng)域,AI Agent正逐步從概念走向?qū)嶋H應(yīng)用,成為推動行業(yè)創(chuàng)新的重要力量。Kimi作為這一領(lǐng)域的先行者,通過將Agent能力融入具體產(chǎn)品,不僅推出了“深度研究”、“Agentic PPT”、“OK Computer”及“數(shù)據(jù)分析”等多項創(chuàng)新技能,更在C端業(yè)務(wù)中成功承載了數(shù)以萬計的并發(fā)請求,展現(xiàn)了強大的技術(shù)實力和市場潛力。
面對如此龐大的用戶需求,Kimi在基礎(chǔ)設(shè)施層面進行了深度布局。為了確保每一次請求都能得到快速響應(yīng),Kimi與阿里云展開了深度合作,以阿里云容器服務(wù)Kubernetes版ACK和阿里云容器計算服務(wù)ACS的Agent Sandbox為核心,構(gòu)建了一套端到端的Agent Infra基礎(chǔ)設(shè)施體系。這一體系不僅為Kimi的Agent產(chǎn)品提供了強大的算力支持,更在彈性、成本、穩(wěn)定性等方面實現(xiàn)了全面優(yōu)化。
AI Agent的落地并非易事,它要求系統(tǒng)能夠理解復(fù)雜的用戶意圖,并自主分解任務(wù)、調(diào)用工具、執(zhí)行并完成一系列多步驟工作流。在“深度研究”和“OK Computer”等場景中,Kimi的Agent通過自然語言指令,驅(qū)動虛擬計算機沙箱環(huán)境自動化執(zhí)行復(fù)雜任務(wù)流,包括工具調(diào)用、聯(lián)網(wǎng)搜索、代碼調(diào)測等。這一過程中,系統(tǒng)需要同時處理數(shù)以萬計的用戶請求,每個請求都可能觸發(fā)一次或多次Agent的復(fù)雜推理和工具調(diào)用,對系統(tǒng)的即時響應(yīng)能力和資源分配效率提出了極高要求。
為了應(yīng)對這些挑戰(zhàn),Kimi在沙箱環(huán)境的彈性能力與啟動速度上進行了重點突破。傳統(tǒng)的虛擬機或容器部署方式啟動時間較長,對于需要即時響應(yīng)的Agent服務(wù)而言難以接受。為此,Kimi采用了ACS Agent Sandbox技術(shù),該技術(shù)基于輕量級虛擬機(MicroVM)技術(shù),將虛擬化開銷降低90%,實現(xiàn)了大規(guī)模并發(fā)彈性下的秒級啟動。同時,通過預(yù)測預(yù)調(diào)度、資源復(fù)用等手段,進一步節(jié)省了沙箱環(huán)境的調(diào)度、創(chuàng)建時間,確保了系統(tǒng)的高效運行。
除了即時響應(yīng)能力外,Kimi還注重沙箱環(huán)境的隔離性與安全性。由于Agent會執(zhí)行由大模型生成的未經(jīng)人工驗證的代碼,沙箱必須提供強隔離能力,防止其對其他租戶、宿主機或其他關(guān)鍵系統(tǒng)造成影響。為此,Kimi采用了硬件級別的計算安全隔離環(huán)境,結(jié)合Network Policy、Fluid等能力增強,提供了Pod級別網(wǎng)絡(luò)、存儲的端到端安全運行環(huán)境。
在滿足即時響應(yīng)和安全隔離的同時,Kimi還面臨著如何保持沙箱狀態(tài)連續(xù)性以及應(yīng)對大規(guī)模并發(fā)帶來的調(diào)度壓力等挑戰(zhàn)。對于需要長時間運行的Agent任務(wù),沙箱需要具備靈活的狀態(tài)保持與恢復(fù)能力,以便在任務(wù)暫停后能夠快速恢復(fù)到之前的執(zhí)行點。為此,Kimi引入了實例休眠及喚醒能力,支持沙箱環(huán)境的一鍵休眠和快速喚醒,確保了任務(wù)的連續(xù)性。同時,通過構(gòu)建常態(tài)算力與Serverless算力的分級調(diào)度體系,Kimi成功應(yīng)對了大規(guī)模并發(fā)帶來的系統(tǒng)穩(wěn)定性問題,實現(xiàn)了容量確定性、彈性速度與成本優(yōu)化的平衡。
在成本控制方面,Kimi同樣表現(xiàn)出色。通過合理的資源調(diào)度策略,Kimi實現(xiàn)了按需彈性進行穩(wěn)定的資源調(diào)度,以最低的成本支撐了海量并發(fā)。特別是在使用ACS Agent Sandbox的過程中,Kimi通過內(nèi)存狀態(tài)的持久化技術(shù),在休眠期間釋放了沙箱的CPU和內(nèi)存資源,降低了休眠期間的資源成本。同時,支持?jǐn)?shù)秒快速喚醒Pod的功能,使得Kimi在成本與體驗之間找到了最佳平衡點。
隨著用戶規(guī)模的擴大和業(yè)務(wù)需求的不斷升級,Kimi對基礎(chǔ)設(shè)施的要求也越來越高。為了確保在如此大規(guī)模的負(fù)載下集群依然能夠穩(wěn)定運行,Kimi對Kubernetes的核心組件進行了深度優(yōu)化和加固。在調(diào)度器層面通過參數(shù)調(diào)整提高了隊列處理深度以及單個Pod的處理速度;在API Server層面則通過全鏈路端到端參數(shù)優(yōu)化和管控組件動態(tài)彈性擴容等手段,滿足了Agent沙箱秒級彈性、高并發(fā)API訪問的訴求。
高質(zhì)量的搜索和記憶服務(wù)是構(gòu)建復(fù)雜Agent的關(guān)鍵基礎(chǔ)。為此,Kimi借助阿里云多模數(shù)據(jù)庫Lindorm構(gòu)建了具備高效檢索和海量存儲能力的記憶與搜索模塊。Lindorm作為一個多模數(shù)據(jù)庫,集成了寬表引擎、搜索引擎、向量引擎、AI引擎四大核心組件,數(shù)據(jù)在內(nèi)部自動流轉(zhuǎn)無需自建同步鏈路。這一特點為Kimi快速構(gòu)建Agent背后的AI搜索基礎(chǔ)設(shè)施提供了有力支持。








