KV Cache Decode - 搜索 News

Kimi新论文：把KVCache玩成新商业模式了

把长上下文做到极致的Kimi又发新成果！这一次瞄准的是大模型推理架构跨机房调度沉疴。他们提出了一套全新范式，Prefill-as-a-Service（简称PrFaaS），预填充即服务。其核心突破是让KV ...

KV Cache管理架构演进：从连续分配到统一混合内存架构

在生产环境部署过LLM的人都知道模型权重只是问题的一半，另一半是KV cache：存储注意力状态的运行时内存，让模型在生成token时不必从头开始重算。能不能管好这块内存决定了系统是一个卡顿的demo还是一个可用的推理服务。本文梳理KV cache管理经历的5个时代 ...

csdn

显著降低Token消耗，百度百舸推出高效KV Cache系统

2026 开年，OpenClaw的现象级爆发使大模型迅速迈入「超长上下文」时代。在几乎人人手捧「龙虾」穿梭于代码、搜索、办公自动化的当下,Token（词元）消耗成本正在迅速累积。据OpenRouter平台数据，2026年3月单周OpenClaw Token消耗量占平台总量的20%。用户实测单个会话 ...

电子工程专辑

大模型推理PD分离技术：核心原理、技术优势、挑战与未来展望

本文来自“《大模型推理PD分离技术全面：原理、优势、挑战与未来展望》”，随着大语言模型(LLM)在各行业的广泛应用，如何高效地进行模型推理成为关键挑战。PD分离(Prefill-Decode Disaggregation)技术作为近年来大模型推理领域的重要突破，通过将预填充(Prefill)和 ...

17 小时

大模型“降智”真相，找到了

智东西4月30日报道，今天，智谱发布了一篇名为《Scaling Pain：超大规模Coding Agent推理实践》的技术报告，披露了GLM-5系列模型在Coding Agent场景下遇到的推理基础设施挑战与对应解法。

腾讯网

不止于量化：最新综述用「时-空-构」三维视角解构KV Cache系统级优化

随着 LLM 向 1M 上下文演进，KV cache（键值缓存）已成为制约推理服务效率的核心瓶颈。自回归生成的特性使得模型必须存储历史 token 的 key-value 状态（即 KV cache）以避免重复计算，但 KV cache 的显存占用随着上下文长度的增长而膨胀，带来显著的内存瓶颈。

来自MSN

如何评价 DeepSeek 发布新论文，提出一个名为「DualPath」的创新推理 ...

现在做大模型推理服务的团队，稍微有点规模的基本都在搞 Prefill-Decode 分离部署。因为：Prefill 阶段是计算密集的，Decode 阶段是访存密集的，把它们拆到不同的机器上，各干各的，资源利用率更高。但这里有一个问题：KV Cache 的搬运。Agent 场景下的推理请求 ...

新浪网

优于o1预览版，推理阶段KV缓存缩减一半，LightTransfer降本还能增效

LLM 在生成 long CoT 方面展现出惊人的能力，例如 o1 已能生成长度高达 100K tokens 的序列。然而，这也给 KV cache 的存储带来了严峻挑战。为应对这一难题，“hybrid model” 成为了一条备受关注的可行路径：它在标准 transformer 的部分层中引入更高效的注意力机制（如 ...

新浪网

极客天成NVFile原生加速KV Cache：引爆DeepSeek推理新速度，显著缩短TTFT ...

现代LLM推理系统运行于一个多层级的异构缓存体系中,数据在不同速度、容量的介质间流动:极速但昂贵的GPUHBM、速度适中但容量有限的主机内存,以及大容量但通常较慢的外部存储。KVCache的规模使得完全依赖HBM变得不切实际。业界探索均指向利用外部存储扩展缓存 ...

新浪网

对抗KV Cache压缩的脆弱性：两行代码以最坏风险控制防御底层假设崩塌

作者介绍：中科大团队包括共一作者冯源（博二）、郭浩宇（硕一）以及通讯作者谢希科（研究员），致力于以简洁算法优化大模型长文本推理，曾提出 AdaKV、CriticalKV 等主流 KV Cache 压缩方法，仅需数行代码显著提升压缩效果。新作 DefensiveKV 延续这一理念，仅需 ...

DOIT

英伟达自己做了一套KV Cache存储，把SSD市场引爆了

而在2026年的CES上，英伟达直接自己做了一套面向KV Cache的存储层。由于英伟达的KV Cache存储层明确采用了SSD，而当前SSD市场正受供应紧张和价格上涨的影响，本就紧俏的市场再次被推向高潮。老黄的这次发布，使SSD热度进一步升温，也直接带动了闪迪、美光、SK ...

来自MSN

推理芯片战火升温，GPU、ASIC谁能夺下AI应用新制高点？

随着大型语言模型（LLM）越来越普及，背后的AI技术也越来越成熟。过去，芯片的焦点在于模型训练（Pre-Training），需要强大的运算力来“教导”AI。但现在，AI的重心逐渐转向“推理”（Inference，也就是模型实际应用、回答问题或生成内容的阶段）。 Inference需求 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果