Transformer - 搜索 News

AI 论文周报丨Transformer前沿研究专题导读，解析结构稀疏化、记忆 ...

过去八年，Transformer 几乎重塑了整个人工智能研究版图。自 2017 年 Google 在「Attention Is All You ...

DeepMind世界模型研究员：是否Transformer架构不重要，AGI瓶颈在别处

Demis Hassabis在CNBC开年采访中给了一个判断：AGI还差一块拼图，可能是世界模型。他维持"5-10年实现AGI"的预测。2010年创立DeepMind时，他预计这是一个20年的任务，现在看来进度符合预期。但他也承认，Scaling ...

4 天

Transformer作者带队，Sakana AI连发三文：彻底重构长文本的记忆机制

这一组工作没有继续在现有架构上做简单的增量修补，而是从位置编码的移除（DroPE）、位置感知的重构（REPO）以及动态记忆机制的引入（FwPKM）三个维度，对 Transformer 处理长序列的方式提出了系统性的质疑与重构方案。

5 天

马斯克刚刚真把平台推荐算法开源，核心也是Transformer

众所周知，推荐算法是社交媒体平台的生命线，几乎已经成为了媒体平台获取用户留存，扩大营销收益的核心。在一周多前，马斯克在平台发推声明「将在 7 天后开源平台推荐算法」的时候几乎令人难以置信。

虎嗅网

Sebastian Raschka2026预测：Transformer统治依旧，但扩散模型正悄然崛起

站在2026年的开端回望，LLM的架构之争似乎进入了一个新的微妙阶段。过去几年，Transformer架构以绝对的统治力横扫了人工智能领域，但随着算力成本的博弈和对推理效率的极致追求，挑战者们从未停止过脚步。知名AI研究员Sebastian ...

4 天

非Transformer架构的新突破，液态神经网络的推理小模型只用900M内存

谷歌 2017 年提出的 Transformer 架构事实上已经基本垄断了大模型。不采用 Transformer 架构的大模型已经是少之又少，而采用非 Transformer 架构，还能与主流第一梯队大模型扳手腕的，更是凤毛麟角。

13 天

梁文锋署名新论文，DeepSeek V4架构首曝？直击Transformer致命缺陷

【新智元导读】深夜，梁文锋署名的DeepSeek新论文又来了。这一次，他们提出全新的Engram模块，解决了Transformer的记忆难题，让模型容量不再靠堆参数！

17 天

Transformer已死？DeepMind正在押注另一条AGI路线

借鉴人类联想记忆，嵌套学习让AI在运行中构建抽象结构，超越Transformer的局限。谷歌团队强调：优化器与架构互为上下文，协同进化才能实现真正持续学习。这篇论文或成经典，开启AI从被动训练到主动进化的大门。

9 天Opinion

Transformer亲爹痛斥：当前AI陷死胡同，微调纯属浪费时间！

【新智元导读】Transformer曾是AI革命的巅峰之作，但其发明者Llion Jones警告：它并非终点。就像RNN被取代一样，当前无数微调研究可能只是局部优化，而真正的AGI突破或藏在生物启发的全新架构中。

电子工程专辑

揭秘transformer专用ASIC芯片：Sohu!

2022年，我们打赌说transformer会统治世界。我们花了两年时间打造Sohu，这是世界上第一个用于transformer（ChatGPT中的“T”）的专用芯片。但对于transformer来说，Sohu是有史以来最快的芯片。借助Llama 70B每秒超过50万个token的吞吐量，Sohu可以让您构建在GPU上无法实现的 ...

电脑之家PChome.net

X平台新算法开源，马斯克：没有其他社交媒体公司这样做

1月20日消息，埃隆·马斯克今日在X社交平台上宣布，X平台新算法正式开源，该算法由与xAI的Grok模型相同的Transformer架构驱动。马斯克对此还表示：“我们知道这个算法很笨拙，需要大幅改进，但至少你可以实时、透明地看到我们努力改进它的过程。

雷锋网

谁将替代 Transformer？

导语：非 Transformer 面临的共同考验依然是证明自己的天花板有多高。【雷峰网(公众号：雷峰网)】2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经，此后席卷全球的人工智能热潮都可以直接追溯到 Transformer 的发明。 Transformer 由于其 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果