距离GB200和B200的发布才刚刚过去几个月,英伟达便推出了全新一代的AI GPU——GB300和B300。 更为有趣的是,这次看似普通的更新背后,实则内含玄机。其中最为突出的,便是模型的推理和训练性能得到了大幅增强。
上期我们讲了现代计算机体系结构通过处理器(CPU/GPU)和内存的交互来执行计算程序,处理输入数据,并输出结果。实际上 ...
自GPU成为主流以来,英伟达一直主导着GPU计算领域。该公司推出的Blackwell B200 ...
在AI算力赛道,NVIDIA早已凭借Hopper、Blackwell等架构GPU,在AI训练领域建立起难以撼动的优势。但随着语音对话、实时翻译等即时AI场景需求爆发,传统GPU在推理延迟上的短板逐渐凸显。近日,据行业消息披露,NVIDIA正瞄准这一痛 ...
根据测试结果表明,AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点 AMD目前已经在其EPYC服务器处理器和部分消费级处理器产品线上采用了3D V-Cache技术。但根据来自海外工程师的最新测试结果发现,AMD似乎为其全新的顶级显卡GPU也预留了3D V-Cache连接点,这 ...
不同于以往侧重单一模型、单一算子或局部优化的研究路径,严明玉团队从系统和硬件协同的视角出发,通过大规模实验,对大语言模型在 GPU 上的推理行为进行了全面刻画,试图从根本上回答一个长期困扰工程实践的问题:大模型推理为什么会呈现出现在这样的性能特征。 这项工作并没有直接给出如何优化的现成答案,而是首先建立了一套统一、可解释的性能认知框架,将 Prefill 与 Decode ...
胡侠团队便针对这一目标提出了一项最新研究方案——“通过有损计算(Lossy Computation)来提高大语言模型的推理效率”。这项研究的基本思路是,利用大语言模型对来自低精度计算等“有损”操作产生的噪声具有极强鲁棒性这一特点,主动引入可控的、不损害性能的信息损失,以换取显著的效率提升。
通过堆叠技术,NVIDIA可以将运算核心留在主芯片,而将需要大量面积的SRAM独立成另一层芯片堆叠上去。 台积电的A16制程一大特色是支持背面供电技术,这项技术可以腾出芯片正面的空间,专供垂直信号连接,确保堆叠的LPU能以极低功耗进行高速数据交换。
baron (网名:代码改变世界ctw),九年手机安全/SOC底层安全开发经验。擅长trustzone/tee安全产品的设计和开发 阅码场付费会员专业 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果