在生产环境部署过LLM的人都知道模型权重只是问题的一半,另一半是KV cache:存储注意力状态的运行时内存,让模型在生成token时不必从头开始重算。能不能管好这块内存决定了系统是一个卡顿的demo还是一个可用的推理服务。 本文梳理KV cache管理经历的5个时代 ...
红板报 on MSN
KV Cache终于不用无脑全留了! 百度&复旦用「投资回报率」重新分配 ...
80% KV Cache压缩,性能损失仅0.52% ...
作者 | Zhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu 长上下文模型的能力还在往前走,但在线推理服务遇到的压力,很多时候已经不只是计算量本身。每生成一个新 token,系统都要反复访问越来越长的历史 Key 和 Value;上下文拉长 ...
2026-03-26 23:31:06 出处:量子位 作者:梦晨 编辑:若风 评论(0) 复制 纠错 两家存储芯片巨头股价大跌,没有财报暴雷,没有供应链断裂,只是谷歌展示了一篇即将在ICLR 2026正式亮相的论文。 谷歌研究院推出TurboQuant压缩算法,把AI推理过程中最吃内存的KV cache压缩 ...
FREMONT, Calif.--(BUSINESS WIRE)--Penguin Solutions, Inc. (Nasdaq: PENG), the AI factory platform company, today announced the industry's first production-ready KV cache server that utilizes CXL ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果