在智能體應(yīng)用場景中,對話輪次增加與上下文長度擴(kuò)展已成為常態(tài),但傳統(tǒng)推理架構(gòu)卻因此面臨嚴(yán)峻挑戰(zhàn)。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)KV-Cache命中率超過95%時,系統(tǒng)性能的瓶頸已從計(jì)算能力轉(zhuǎn)向數(shù)據(jù)搬運(yùn)效率。實(shí)驗(yàn)數(shù)據(jù)顯示,在現(xiàn)有預(yù)填充-解碼分離架構(gòu)中,預(yù)填充引擎的存儲網(wǎng)卡帶寬常因過度使用而飽和,而解碼引擎的同類資源卻處于閑置狀態(tài),這種資源錯配直接導(dǎo)致推理效率受限。
技術(shù)實(shí)現(xiàn)層面,該框架采用三組件協(xié)同架構(gòu)。推理引擎模塊嚴(yán)格區(qū)分預(yù)填充與解碼功能,每塊GPU對應(yīng)專屬引擎;流量管理器負(fù)責(zé)跨設(shè)備數(shù)據(jù)傳輸與存儲讀寫;中央調(diào)度器則扮演決策中樞角色,根據(jù)實(shí)時網(wǎng)絡(luò)狀態(tài)與計(jì)算負(fù)載,為每個請求智能選擇最優(yōu)傳輸路徑。這種分層設(shè)計(jì)既保證了專業(yè)功能的高效執(zhí)行,又通過全局調(diào)度實(shí)現(xiàn)了資源利用最大化。
針對雙路徑可能引發(fā)的流量沖突問題,研究團(tuán)隊(duì)提出雙重優(yōu)化機(jī)制。在硬件層面,通過計(jì)算網(wǎng)卡(CNIC)強(qiáng)制所有流量經(jīng)GPUDirect RDMA路徑傳輸,并利用虛擬層技術(shù)為推理通信分配99%的帶寬優(yōu)先級。在軟件層面,自適應(yīng)調(diào)度器持續(xù)監(jiān)測各節(jié)點(diǎn)磁盤隊(duì)列長度與Token處理量,優(yōu)先將任務(wù)分配給I/O壓力小且計(jì)算負(fù)載輕的節(jié)點(diǎn),從根源上避免資源擁塞。
該研究的第一作者為北京大學(xué)博士生吳永彤,其研究方向聚焦于大模型基礎(chǔ)設(shè)施的工程優(yōu)化。目前他在DeepSeek系統(tǒng)組參與下一代推理框架開發(fā),負(fù)責(zé)多硬件平臺的性能調(diào)優(yōu)工作。這段學(xué)術(shù)與產(chǎn)業(yè)結(jié)合的經(jīng)歷,使其能夠精準(zhǔn)把握系統(tǒng)軟件優(yōu)化與規(guī)模化部署的關(guān)鍵痛點(diǎn)。











