GPU Cache - 搜索 News

DeepSeek+清北重磅论文：发力智能体底层基建，击穿Agent推理I/O瓶颈

当大模型在长期的上下文中与环境进行几十甚至上百轮的交互时，计算的瓶颈从GPU的算力转为存储I/O带宽。由于每次只追加极少的Token，导致KV-Cache命中率极高（通常大于95%），GPU大量的时间被用来等待从外部存储中读取海量的历史KV-Cach ...

2 天

DeepSeek深夜发论文，V4前奏来了？联手清北破GPU难题，智能体大爆炸

一夜之间，AI圈再次地震！这次不是DepSeek V4，而是DeepSeek直接换了推理架构。GPU空转的问题，被他们硬生生砍掉了一半。昨天，DeepSeek-V4要来的消息纷纷扬扬，整个AI圈都被搅动得心绪不宁，隔壁的美国同行们都快崩了。

2 天

DeepSeek再发新论文，DualPath架构如何将推理吞吐量提升近2倍？

DeepSeek联合北京大学、清华大学发布了一篇题为《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM ...

腾讯网

GPU到底是如何工作的？这篇AI Infra入门全部告诉你

AI 流行的当下，你有没有想过：大模型推理服务到底怎么跑起来的？大模型推理服务的运行过程中，CPU和GPU分别负责哪些工作？用GPU一定比CPU跑的快么？哪些场景需要用GPU? GPU最初的使命是加速图形渲染。而渲染一帧图像，本质上就是对数百万个像素点进行相似 ...

新浪网

推理加速存储AS3000G7发布：以存代算节省算力消耗

快科技7月31日消息，据媒体报道，2025（第二届）产融合作大会在北京召开。会上，浪潮存储重磅发布了推理加速存储产品AS3000G7，旨在解决大模型推理中因KV Cache重复计算导致的算力浪费和时延问题，为金融、科研等领域的模型规模化落地提供关键支撑。当前 ...

电子工程专辑

GPU: 衡量计算效能的正确姿势（3）

上期我们讲了现代计算机体系结构通过处理器（CPU/GPU）和内存的交互来执行计算程序，处理输入数据，并输出结果。实际上 ...

Pchome电脑之家

AMD疑似为Navi 31 GPU预留了3D V-Cache连接点

根据测试结果表明，AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点 AMD目前已经在其EPYC服务器处理器和部分消费级处理器产品线上采用了3D V-Cache技术。但根据来自海外工程师的最新测试结果发现，AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点，这 ...

新浪网