Tensorrt LLM - 搜索 News

NVIDIA TensorRT-LLM 性能更新，加速大模型等资源在全球1亿台RTX PC上开发 ...

近日，微软在Ignite全球技术大会上正式发布了一系列新工具和资源包，其中有一条比较引人注目的就是OpenAI Chat API实现了对NVIDIA TensorRT-LLM的接入接口支持。在Windows 11系统上，微软对AI人工智能开发、应用的支持越来越深入，而对AI开发应用的深度支持，也标志着 ...

腾讯网

使用TensorRT-LLM进行生产环境的部署指南

TensorRT-LLM是一个由Nvidia设计的开源框架，用于在生产环境中提高大型语言模型的性能。该框架是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图，并借鉴了许多 FastTransformer 中高效的 Kernels 实现，并且可以利用 NCCL 完成设备之间的通讯。虽然像vLLM和TGI ...

快科技

解锁超凡生成式 AI 能力：TensorRT 加速 RTX PC 和工作站上的 AI

编者注:本文属于《解码 AI》系列栏目,该系列的目的是让技术更加简单易懂,从而解密 AI,同时向 RTX PC 用户展示全新硬件、软件、工具和加速特性。随着生成式 AI 技术不断进步并在各行各业中得到广泛应用,在本地 PC 和工作站上运行生成式 AI 应用的重要性越来越高。

中关村在线

英伟达推TensorRT-LLM库：AI性能提升4倍

近日，英伟达推出了一款名为TensorRT-LLM的开源库，该库能够深度优化AI GPU（如Hopper）的推理性能，加速所有大语言模型的推理过程。目前，英伟达已经与开源社区合作，利用SmoothQuant、FlashAttention和fMHA等尖端技术，对AI内核进行优化，使其能够在GPT-3（175B）、Llama ...

电子工程专辑

现已公开发布！欢迎使用NVIDIATensorRT-LLM优化大语言模型推理

NVIDIA 于 2023 年 10 月 19 日公开发布 TensorRT-LLM，可在 NVIDIA GPU 上加速和优化最新的大语言模型（Large Language Models）的推理性能 ...

中关村在线

英伟达更新TensorRT-LLM版本，支持OpenAI Chat API

11月16日，微软Ignite 2023大会盛大召开，英伟达高管出席并宣布更新了TensorRT-LLM版本。该版本现已支持对OpenAI Chat API的支持，并且还增强了DirectML功能。今年10月份，英伟达面向数据中心和Windows PC推出了Tensor RT-LLM开源库。其中最大的亮点在于，如果Windows PC配备 ...

新浪网

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

用来运行 Llama 3 405B 优势明显。最近，Meta 开源了最新的 405B 模型（Llama 3.1 405B），把开源模型的性能拉到了新高度。由于模型参数量很大，很多开发者都关心一个问题：怎么提高模型的推理速度？时隔才两天，LMSYS Org 团队就出手了，推出了全新的 SGLang Runtime v0.2。

快科技

性能瞩目：Tensor RT-LLM 使大语言模型在搭载 RTX 的Windows平台上运行 ...

生成式 AI(GenerativeAI)是个人计算史上最重要的趋势之一,推动游戏、创作、视频编辑、日常工作、开发等的发展。 GeForceRTX 和 NVIDIARTXGPU配备名为TensorCores的专用AI处理器,将生成式 AI (GenerativeAI)的强大功能原生引入超过1亿台WindowsPC和工作站。如今,TensorRT-LLM for Windows ...

电子工程专辑

GTC24|ChinaAIDay：探索LLM优秀实践和应用

GTC 2024 大会 China AI Day 线上专场，是 NVIDIA 为国内 AI 开发者、技术领袖和业务决策人举办的中文演讲系列，将于 3 月 19 日上午 10:00 举办。China AI Day 将以“大语言模型（LLM）”为主题，汇聚国内领先的云和互联网企业，和 NVIDIA 共同分享如何使用 NVIDIA 端到端的软 ...

来自MSN

CES 2026 | NVIDIA TensorRT Edge-LLM 加速汽车与机器人领域的 LLM 和 VLM 推理

大语言模型（LLM）与多模态推理系统正迅速突破数据中心的局限。越来越多的汽车与机器人领域的开发者希望将对话式 AI 智能体、多模态感知系统和高级规划功能直接部署在端侧，因为在这些场景中，低延迟、高可靠性以及离线运行能力至关重要。本文介绍了 ...

36氪

大模型无限流式输入推理飙升46%，国产开源加速「全家桶」，打破多 ...

Colossal-AI团队开源了SwiftInfer，基于TensorRT实现了StreamingLLM，可以进一步提升大模型推理性能46%，为多轮对话推理提供了高效可靠的落地方案。大模型推理再次跃升一个新台阶！最近，全新开源的国产SwiftInfer方案，不仅能让LLM处理无限流式输入，而且还将推理性能 ...

新浪网

英伟达下场，首次优化DeepSeek-R1！B200性能狂飙25倍，碾压H100

当FP4的魔法与Blackwell的强大算力相遇，会碰撞出怎样的火花？答案是：推理性能暴涨25倍，成本狂降20倍！随着DeepSeek-R1本地化部署的爆火，英伟达也亲自下场，开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。在新模型的加持下，B200实现了高达21,088 token ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果