把长上下文做到极致的Kimi又发新成果! 这一次瞄准的是大模型推理架构跨机房调度沉疴。 他们提出了一套全新范式,Prefill-as-a-Service(简称PrFaaS),预填充即服务。 其核心突破是让KV ...
在生产环境部署过LLM的人都知道模型权重只是问题的一半,另一半是KV cache:存储注意力状态的运行时内存,让模型在生成token时不必从头开始重算。能不能管好这块内存决定了系统是一个卡顿的demo还是一个可用的推理服务。 本文梳理KV cache管理经历的5个时代 ...
2026 开年,OpenClaw的现象级爆发使大模型迅速迈入「超长上下文」时代。在几乎人人手捧「龙虾」穿梭于代码、搜索、办公自动化的当下,Token(词元)消耗成本正在迅速累积。据OpenRouter平台数据,2026年3月单周OpenClaw Token消耗量占平台总量的20%。用户实测单个会话 ...
本文来自“《大模型推理PD分离技术全面:原理、优势、挑战与未来展望》”,随着大语言模型(LLM)在各行业的广泛应用,如何高效地进行模型推理成为关键挑战。PD分离(Prefill-Decode Disaggregation)技术作为近年来大模型推理领域的重要突破,通过将预填充(Prefill)和 ...
智东西4月30日报道,今天,智谱发布了一篇名为《Scaling Pain:超大规模Coding Agent推理实践》的技术报告,披露了GLM-5系列模型在Coding Agent场景下遇到的推理基础设施挑战与对应解法。
随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理服务效率的核心瓶颈。自回归生成的特性使得模型必须存储历史 token 的 key-value 状态(即 KV cache)以避免重复计算,但 KV cache 的显存占用随着上下文长度的增长而膨胀,带来显著的内存瓶颈。
现在做大模型推理服务的团队,稍微有点规模的基本都在搞 Prefill-Decode 分离部署。因为:Prefill 阶段是计算密集的,Decode 阶段是访存密集的,把它们拆到不同的机器上,各干各的,资源利用率更高。 但这里有一个问题:KV Cache 的搬运。Agent 场景下的推理请求 ...
LLM 在生成 long CoT 方面展现出惊人的能力,例如 o1 已能生成长度高达 100K tokens 的序列。然而,这也给 KV cache 的存储带来了严峻挑战。为应对这一难题,“hybrid model” 成为了一条备受关注的可行路径:它在标准 transformer 的部分层中引入更高效的注意力机制(如 ...
现代LLM推理系统运行于一个多层级的异构缓存体系中,数据在不同速度、容量的介质间流动:极速但昂贵的GPUHBM、速度适中但容量有限的主机内存,以及大容量但通常较慢的外部存储。KVCache的规模使得完全依赖HBM变得不切实际。业界探索均指向利用外部存储扩展缓存 ...
作者介绍:中科大团队包括共一作者冯源(博二)、郭浩宇(硕一)以及通讯作者谢希科(研究员),致力于以简洁算法优化大模型长文本推理,曾提出 AdaKV、CriticalKV 等主流 KV Cache 压缩方法,仅需数行代码显著提升压缩效果。新作 DefensiveKV 延续这一理念,仅需 ...
而在2026年的CES上,英伟达直接自己做了一套面向KV Cache的存储层。由于英伟达的KV Cache存储层明确采用了SSD,而当前SSD市场正受供应紧张和价格上涨的影响,本就紧俏的市场再次被推向高潮。 老黄的这次发布,使SSD热度进一步升温,也直接带动了闪迪、美光、SK ...
随着大型语言模型(LLM)越来越普及,背后的AI技术也越来越成熟。过去,芯片的焦点在于模型训练(Pre-Training),需要强大的运算力来“教导”AI。但现在,AI的重心逐渐转向“推理”(Inference,也就是模型实际应用、回答问题或生成内容的阶段)。 Inference需求 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果