Transformers - 搜索 News

Transformers v5 正式发布：MoE 推理速度提升最高11倍

最亮眼的是 MoE （混合专家）模型的性能提升，达到了6到11倍的加速。有开发者直接吐槽：“如果你把性能提升了2倍，说明你做了聪明的事；如果提升了10倍，说明你之前在做蠢事。”确实，v4 版本对 MoE 模型使用了非常简单的 for 循环处理专家模块，导致计算资源严重闲置。现在团队重写了这部分逻辑，并引入了更通用的自定义 kernel 方案。

14 天

马斯克：“做题家”没有未来，只有会提问的人才有未来

本次访谈涉及制造业转型、能源基建优势、教育以及中美科技博弈等话题。针对教育领域，马斯克认为，在AI导师面前，人类灌输知识的效率低得像拨号上网。未来的学校将彻底退化为社交场所。“做题家”没有未来，只有会提问的人才有未来。未来的教育是“人机协作”。在马斯克眼里，未来是每个孩子都有一个爱因斯坦级别的AI导师。

来自MSN

如何评价 Meta 新论文 Transformers without Normalization？

这篇文章有何恺明和杨立昆两位大佬坐镇，不由得让人重视。核心发现是：Transformer可以在不使用任何归一化层的情况下，通过简单的Dynamic Tanh（DyT）操作实现同等甚至更好的性能。训练深度神经网络时，每一层的输入的分布都在发生变化，这种现象被称为「 ...

来自MSN

《变形金刚：起源》伦敦首映寡姐、锤哥红毯合体

1905电影网讯当地时间9月19日，英国伦敦，电影《变形金刚：起源》（Transformers One）首映式。“锤哥”克里斯·海姆斯沃斯、“寡姐”斯嘉丽·约翰逊、布莱恩·泰里·亨利等出席活动。当天，寡姐一袭红色包身礼裙亮相，因为在伦敦赶拍《侏罗纪公园4》，寡姐 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

Transformers v5 正式发布：MoE 推理速度提升最高11倍

马斯克：“做题家”没有未来，只有会提问的人才有未来

如何评价 Meta 新论文 Transformers without Normalization？

《变形金刚：起源》伦敦首映 寡姐、锤哥红毯合体

《变形金刚：起源》伦敦首映寡姐、锤哥红毯合体