當前,全球核心存儲供應鏈正面臨前所未有的結構性短缺挑戰。權威機構預測,這一供需矛盾將持續至2027年,存儲部件價格大幅上漲已成定局。與此同時,生成式AI技術加速向規模化落地轉型,大模型應用場景從單一訓練向訓練推理并重發展,PD分離、KV Cache等創新技術雖提升了推理效率,卻對GPU內存的帶寬與容量提出了嚴苛要求。雙重壓力下,AI產業陷入資源緊缺與成本攀升的雙重困境,傳統硬件堆疊模式因成本高昂且受制于供應鏈產能,難以支撐產業可持續發展。
紫光股份旗下新華三集團針對這一行業痛點,推出大模型推理場景加速方案,通過軟硬件協同優化開辟新路徑。該方案核心在于自研定制化ASIC芯片的硬件級加速能力,可將KV Cache從GPU內存卸載至專用存儲節點,構建AI專屬的"下一代內存層"。這一創新架構顯著減輕GPU顯存壓力,實現存算資源動態平衡。經深度測試調優,新華三成功將前沿科技與自研AI服務器融合,形成性能與成本兼優的推理加速實踐,為行業提供全新解決方案。
在部署靈活性方面,該方案展現獨特優勢:既可通過單機形態直接提升單臺AI服務器推理性能,也能采用外置存儲節點模式實現多臺服務器集群加速。這種雙模式設計使其能夠適應不同規模企業的多樣化需求,從中小規模部署到大型數據中心均可靈活應用。
實測數據驗證了方案的有效性。基于自研高性能AI服務器的基準測試顯示,運行DeepSeek-V3-671B模型時,采用KV Cache卸載加速方案后,系統性能實現質的飛躍:在相同TPOT(每個Token生成的平均延遲)限制下,并發用戶數提升200%,首Token生成延遲(TTFT)降低70%,每個Token平均生成延遲(TPOT)降低30%。這些核心指標的優化直接轉化為用戶體驗的提升,使系統能夠同時服務更多用戶且響應更迅速。
該方案在應用場景適配性方面表現突出。針對交互式應用如智能客服、聊天機器人等需要多輪對話的場景,通過快速加載歷史KV Cache,系統響應延遲大幅縮短;在處理長文檔問答、代碼生成等需要數千Tokens上下文的任務時,PB級KV Cache擴展能力有效突破GPU內存容量瓶頸;對于高并發在線推理服務,優化的KV Cache管理機制使系統吞吐量(RPS)顯著提升,在相同GPU資源下可服務更多用戶。這些特性使其成為企業落地生成式AI應用的理想選擇。
新華三集團在AI領域的技術積累為此次突破奠定基礎。通過持續創新與實踐探索,公司不僅推出這款推理加速方案,更完成全流程調優驗證。隨著大模型規模擴大和用戶基數增長,推理效率已成為AI基礎設施性能的關鍵指標。新華三的解決方案通過優化資源利用效率,有效降低每token處理成本,為AI技術規模化應用掃清障礙,推動生成式AI在更多行業實現深度落地。











