【新智元导读】用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。 试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰? 又有多少开发者曾因为频频闪烁的警报「 ...
这项由AMD公司研究团队主导完成的研究,以预印本形式发表于2026年5月,论文编号为arXiv:2605.16819。感兴趣的读者可以通过这一编号在arXiv学术平台上找到完整原文。**研究概要**每当你用手机刷视频、用电脑玩游戏,或者使用任何一款AI应用时,背后都有一块GPU(图形处理器)在疯狂地运算。GPU就像一座拥有数千条流水线的超 ...
更多精彩内容 请点击上方蓝字关注我们吧! 今年 3 月,苹果发布了其自研 M1 芯片的最终型号 M1 Ultra,它由 1140 亿个晶体管组成,是有史以来个人计算机中最大的数字。苹果宣称只需 1/3 的功耗,M1 Ultra 就可以实现比桌面级 GPU RTX 3090 更高的性能。 随着用户 ...
【导读】用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。 试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰? 又有多少开发者曾因为频频闪烁的警报「CUDA版本 ...
AI自动生成的苹果芯片Metal内核,比官方的还要好? Gimlet Labs的最新研究显示,在苹果设备上,AI不仅能自动生成Metal内核,还较基线内核实现了87%的PyTorch推理速度提升。
仅需几十行 PyTorch 代码即可大幅提高 GPU 利用率,在英伟达 A100 上的 GPU 利用率高达 70%。这一能力由一款名为 LaCT 的新模型架构实现,它由北京大学本科校友、美国麻省理工学院博士生张天远和所在团队打造。 研究团队通过在不同模态的任务中采用范围从 2000 到 ...
作为应对,谷歌在近期发布了采用训练与推理分离设计的第八代TPU,并推出了旨在让PyTorch原生运行在TPU上的“TorchTPU”项目,试图降低生态迁移门槛。与此同时,行业也出现了混合策略的范例,例如Anthropic公司同时使用英伟达GPU、谷歌TPU和亚马逊Trainium芯片,根据不同工作负载选择最合适的平台,以平衡研究效率、训练成本与供应链安全。
PyTorch,这一广受欢迎的开源机器学习框架,近期正式推出了其最新版本——2.8版。此次版本更新聚焦于提升量化大语言模型(LLM)在Intel CPU上的推理性能,吸引了众多开发者和研究人员的目光。 在PyTorch 2.8中,开发者团队通过算法优化和技术革新,显著提高了 ...
在机器学习和人工智能领域,分布式计算框架正成为优化资源、加速工作流程和降低成本的关键工具。这些框架允许开发者跨多台机器(无论是CPU、GPU还是TPU)进行模型训练,从而显著缩短训练时间,并有效处理大型复杂数据集。 在众多分布式机器学习框架中 ...