红板报 on MSN
KV Cache终于不用无脑全留了! 百度&复旦用「投资回报率」重新分配 ...
80% KV Cache压缩,性能损失仅0.52% ...
作者 | Zhongzhu Zhou, Donglin Zhuang, Jisen Li, Ziyan Chen, Shuaiwen Leon Song, Ben Athiwaratkun, Xiaoxia Wu 长上下文模型的能力还在往前走,但在线推理服务遇到的压力,很多时候已经不只是计算量本身。每生成一个新 token,系统都要反复访问越来越长的历史 Key 和 Value;上下文拉长 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果