大型語言模型(LLM)在處理長對話時,常因內存占用過高而面臨性能瓶頸。NVIDIA研究人員近日提出一項名為KVTC(KV快取轉換編碼)的創新技術,通過高效壓縮模型推理過程中的KV緩存,將內存需求最高降低20倍,同時無需修改現有模型架構。這一突破有望顯著降低企業部署AI的硬件成本,并提升模型響應速度。
KV緩存是LLM的“短期記憶”,存儲對話歷史中的關鍵信息(Key和Value),使模型無需重復計算已處理內容。然而,隨著對話長度增加,KV緩存可能膨脹至數GB,占用大量GPU內存,導致推理速度下降甚至系統卡頓。NVIDIA資深深度學習工程師Adrian Lancucki指出:“LLM推理的性能瓶頸通常不在計算能力,而在于GPU內存的有限性。傳統方法需將閑置緩存轉移至CPU或硬盤,但數據傳輸會引入額外延遲。”
KVTC技術借鑒JPEG圖像壓縮原理,通過“主成分分析、自適應量化、熵編碼”三步流程,精準捕捉KV緩存中數據的高度相關性,剔除冗余信息。其“非侵入式”設計允許企業直接集成至現有系統,無需調整模型代碼或參數。實驗數據顯示,在參數量從15億至700億的模型(如Llama 3系列、R1-Qwen 2.5)中,KVTC將內存壓縮20倍后,模型準確率損失不足1%,而傳統方法僅壓縮5倍便會導致顯著性能下降。
在H100 GPU的實測中,處理8000個Token的提示時,啟用KVTC后模型首次響應時間從3秒縮短至380毫秒,提速達8倍。這一優勢在編程助手、迭代式推理等長對話場景中尤為突出,而短對話場景因緩存規模較小,壓縮效果相對有限。
NVIDIA計劃將KVTC整合至Dynamo框架的KV塊管理器,并兼容vLLM等主流開源推理引擎。業內分析認為,隨著LLM對話長度持續增加,標準化壓縮技術或將成為AI落地的關鍵基礎設施,其普及程度可能類比于視頻壓縮技術對多媒體行業的影響。











