滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內容

NVIDIA推出KVTC技術：內存縮減20倍，長對話推理成本與速度雙優化

時間：2026-03-22 19:17:20 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

大型語言模型在處理長對話時，常面臨內存不足的瓶頸，這一問題不僅制約模型性能，還顯著增加了企業部署AI的硬件成本。NVIDIA研究人員近期提出一項名為KVTC（KV快取轉換編碼）的突破性技術，通過壓縮模型對話歷史所需的KV緩存，將內存占用最高降低20倍，同時實現首次回應生成速度提升8倍，且無需修改現有模型架構。

KV緩存作為模型的“短期記憶”，在對話處理中扮演關鍵角色。當模型與用戶交互時，會將對話中的關鍵信息（Key和Value）存儲為緩存，避免重復計算整段對話，從而提升響應效率。然而，隨著對話長度增加，緩存數據可能膨脹至數GB，占用大量GPU內存，反而導致計算效率下降。NVIDIA資深深度學習工程師指出，模型推理的性能瓶頸往往不在算力，而在于GPU內存的有限性——傳統方法需將閑置緩存轉移至CPU或硬盤，引發數據傳輸延遲和額外成本。

KVTC技術的核心創新在于借鑒JPEG圖像壓縮的思路，通過“主成分分析、自適應量化、熵編碼”三步流程，高效壓縮KV緩存。與傳統壓縮方法不同，該技術針對緩存數據高度相關的特性，在保留關鍵信息的同時剔除冗余內容，且支持分塊、逐層解壓，確保模型實時響應不受影響。實驗數據顯示，在參數量從15億到700億的模型（包括Llama 3系列、R1-Qwen 2.5等）中，KVTC即使將內存壓縮20倍，模型準確率損失仍低于1%，而傳統方法僅壓縮5倍便會出現顯著性能下降。

以H100 GPU處理8000個Token的提示為例，未使用KVTC時模型需3秒生成首個回應，啟用后僅需380毫秒，速度提升達8倍。這一特性使其尤其適用于編程助手、迭代式推理等長對話場景，而在短對話中壓縮效果相對有限。技術團隊強調，KVTC采用“非侵入式”設計，企業無需調整模型代碼即可快速部署，進一步降低了應用門檻。

目前，NVIDIA正推動KVTC與主流開源推理引擎的兼容，計劃將其整合至Dynamo框架的KV塊管理器中，以支持vLLM等工具的無縫調用。隨著大型語言模型對話能力的持續增強，標準化壓縮技術或將成為降低AI部署成本的關鍵路徑，為更廣泛的行業應用提供技術支撐。

更多>同類資訊

“長壽水稻”新突破：種一次收多年，科研團隊揭秘其獨特機制與潛力

03-22

漢得信息：Openclaw企業端應用尚處摸索，將攜手伙伴共探路徑

03-22

華夏文化科技(01566.HK)中期凈虧損6620萬港元

03-22

360獨家發現OpenClaw高危漏洞已同步報送CNVD切斷風險源頭

03-22

一系法雜交稻新突破：單產超親本，破解制種難題指日可待

03-22

AI浪潮下演員何去何從？以精進之姿擁抱技術方為破局之道

03-22

中國AI大模型周調用量達4.69萬億Token，連續第二周超越美國

03-22

OpenAI被曝將大規模招聘到2026年底員工總數或達8000人

03-22

安永：歐盟對華汽車出口額首度低于進口額

03-22

曾領導“通俄門”調查的米勒逝世終年81歲

03-22

OpenClaw創始人回信確認360獨家發現漏洞

03-22

中微半導：為加速存儲芯片業務發展擬1.6億元增資珠海博雅獲20%股權

03-22

上海二手房周成交創下自2021年以來最高紀錄

03-22

國投白銀LOF：3月23日開市起至當日10:30停牌

03-22

嘉實原油LOF：因溢價風險3月23日開市起停牌至10:30

03-22

點擊查看更多 +

全站最新

智能經濟浪潮下，高校雙創教育如何破局與轉型？

京東JD FASHION亮相中國國際時裝周：以自研科技面料引領服飾品質新潮流

OpenClaw爆火，AI Agent時代真的來了！

股價一年狂飆，鋰鹽巨頭仍被低估？

開放式耳夾耳機怎么選？虹覓Clip Pro、漫步者QQ夾、聲闊C30i實測對比，幫你精準避坑！

傳統批發企業破局之道：12個月線上突圍，營收躍升的實戰策略全解析

熱門內容

本欄最新

OpenClaw爆火，AI Agent時代真的來了！

股價一年狂飆，鋰鹽巨頭仍被低估？

一個時代落幕？頂級游資大佬向量化投降！

特朗普要伊朗48小時內開放霍爾木茲海峽否則打擊伊發電廠

貴陽銷售“神手”一搖，貴A·A88888豹子號現身，車主與銷售齊歡呼

伊朗發行面值1000萬里亞爾的紙幣

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR比爾科技官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 比爾科技 2007-2024 ITBEAR.COM.CN All rights reserved.

岛国av一区二区_不卡av片_超碰997_精品国产一区二区在线_av中文天堂在线_韩国舌吻呻吟激吻原声

NVIDIA推出KVTC技術：內存縮減20倍，長對話推理成本與速度雙優化