Pytorch GPU - 搜索 News

PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

【新智元导读】用英伟达的GPU，但可以不用CUDA？PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA类似甚至更佳的性能。试问，有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰？又有多少开发者曾因为频频闪烁的警报「 ...

腾讯网

AMD研究团队打造“GPU内核优化竞技场”：AI编程助手到底能把芯片跑 ...

这项由AMD公司研究团队主导完成的研究，以预印本形式发表于2026年5月，论文编号为arXiv:2605.16819。感兴趣的读者可以通过这一编号在arXiv学术平台上找到完整原文。**研究概要**每当你用手机刷视频、用电脑玩游戏，或者使用任何一款AI应用时，背后都有一块GPU（图形处理器）在疯狂地运算。GPU就像一座拥有数千条流水线的超 ...

电子工程专辑

PyTorch宣布支持苹果M1芯片GPU加速：训练快6倍，推理提升21倍

更多精彩内容请点击上方蓝字关注我们吧！今年 3 月，苹果发布了其自研 M1 芯片的最终型号 M1 Ultra，它由 1140 亿个晶体管组成，是有史以来个人计算机中最大的数字。苹果宣称只需 1/3 的功耗，M1 Ultra 就可以实现比桌面级 GPU RTX 3090 更高的性能。随着用户 ...

电子工程专辑

PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

【导读】用英伟达的GPU，但可以不用CUDA？PyTorch官宣，借助OpenAI开发的Triton语言编写内核来加速LLM推理，可以实现和CUDA类似甚至更佳的性能。试问，有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰？又有多少开发者曾因为频频闪烁的警报「CUDA版本 ...

8 个月

AI生成苹果Metal内核，PyTorch推理速度提升87%

AI自动生成的苹果芯片Metal内核，比官方的还要好？ Gimlet Labs的最新研究显示，在苹果设备上，AI不仅能自动生成Metal内核，还较基线内核实现了87%的PyTorch推理速度提升。

新浪网

几十行PyTorch代码让GPU利用率猛涨，MIT团队打造新模型架构，渲染质量 ...

仅需几十行 PyTorch 代码即可大幅提高 GPU 利用率，在英伟达 A100 上的 GPU 利用率高达 70%。这一能力由一款名为 LaCT 的新模型架构实现，它由北京大学本科校友、美国麻省理工学院博士生张天远和所在团队打造。研究团队通过在不同模态的任务中采用范围从 2000 到 ...

太平洋科技资讯中心

AI巨头公开吐槽谷歌TPU生态壁垒揭示英伟达软件护城河与行业混合算 ...

作为应对，谷歌在近期发布了采用训练与推理分离设计的第八代TPU，并推出了旨在让PyTorch原生运行在TPU上的“TorchTPU”项目，试图降低生态迁移门槛。与此同时，行业也出现了混合策略的范例，例如Anthropic公司同时使用英伟达GPU、谷歌TPU和亚马逊Trainium芯片，根据不同工作负载选择最合适的平台，以平衡研究效率、训练成本与供应链安全。

来自MSN

PyTorch 2.8发布：LLM推理性能大幅提升，Intel GPU分布式后端实验性支持上线

PyTorch，这一广受欢迎的开源机器学习框架，近期正式推出了其最新版本——2.8版。此次版本更新聚焦于提升量化大语言模型（LLM）在Intel CPU上的推理性能，吸引了众多开发者和研究人员的目光。在PyTorch 2.8中，开发者团队通过算法优化和技术革新，显著提高了 ...

来自MSN

五大分布式机器学习框架：加速训练，优化资源利用

在机器学习和人工智能领域，分布式计算框架正成为优化资源、加速工作流程和降低成本的关键工具。这些框架允许开发者跨多台机器（无论是CPU、GPU还是TPU）进行模型训练，从而显著缩短训练时间，并有效处理大型复杂数据集。在众多分布式机器学习框架中 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

AMD研究团队打造“GPU内核优化竞技场”：AI编程助手到底能把芯片跑 ...

PyTorch宣布支持苹果M1芯片GPU加速：训练快6倍，推理提升21倍

PyTorch官宣：告别CUDA，GPU推理迎来Triton加速新时代

AI生成苹果Metal内核，PyTorch推理速度提升87%

几十行PyTorch代码让GPU利用率猛涨，MIT团队打造新模型架构，渲染质量 ...

AI巨头公开吐槽谷歌TPU生态壁垒 揭示英伟达软件护城河与行业混合算 ...

PyTorch 2.8发布：LLM推理性能大幅提升，Intel GPU分布式后端实验性支持上线

五大分布式机器学习框架：加速训练，优化资源利用

AI巨头公开吐槽谷歌TPU生态壁垒揭示英伟达软件护城河与行业混合算 ...