过去八年,Transformer 几乎重塑了整个人工智能研究版图。自 2017 年 Google 在「Attention Is All You ...
Demis Hassabis在CNBC开年采访中给了一个判断:AGI还差一块拼图,可能是世界模型。他维持"5-10年实现AGI"的预测。2010年创立DeepMind时,他预计这是一个20年的任务,现在看来进度符合预期。但他也承认,Scaling ...
这一组工作没有继续在现有架构上做简单的增量修补,而是从位置编码的移除(DroPE)、 位置感知的重构(REPO)以及动态记忆机制的引入(FwPKM)三个维度,对 Transformer 处理长序列的方式提出了系统性的质疑与重构方案。
众所周知,推荐算法是社交媒体平台的生命线,几乎已经成为了媒体平台获取用户留存,扩大营销收益的核心。在一周多前,马斯克在 平台发推声明「将在 7 天后开源平台推荐算法」的时候几乎令人难以置信。
站在2026年的开端回望,LLM的架构之争似乎进入了一个新的微妙阶段。过去几年,Transformer架构以绝对的统治力横扫了人工智能领域,但随着算力成本的博弈和对推理效率的极致追求,挑战者们从未停止过脚步。 知名AI研究员Sebastian ...
谷歌 2017 年提出的 Transformer 架构事实上已经基本垄断了大模型。 不采用 Transformer 架构的大模型已经是少之又少,而采用非 Transformer 架构,还能与主流第一梯队大模型扳手腕的,更是凤毛麟角。
【新智元导读】深夜,梁文锋署名的DeepSeek新论文又来了。这一次,他们提出全新的Engram模块,解决了Transformer的记忆难题,让模型容量不再靠堆参数!
借鉴人类联想记忆,嵌套学习让AI在运行中构建抽象结构,超越Transformer的局限。谷歌团队强调:优化器与架构互为上下文,协同进化才能实现真正持续学习。这篇论文或成经典,开启AI从被动训练到主动进化的大门。
【新智元导读】Transformer曾是AI革命的巅峰之作,但其发明者Llion Jones警告:它并非终点。就像RNN被取代一样,当前无数微调研究可能只是局部优化,而真正的AGI突破或藏在生物启发的全新架构中。
2022年,我们打赌说transformer会统治世界。 我们花了两年时间打造Sohu,这是世界上第一个用于transformer(ChatGPT中的“T”)的专用芯片。 但对于transformer来说,Sohu是有史以来最快的芯片。 借助Llama 70B每秒超过50万个token的吞吐量,Sohu可以让您构建在GPU上无法实现的 ...
1月20日消息,埃隆·马斯克今日在X社交平台上宣布,X平台新算法正式开源,该算法由与xAI的Grok模型相同的Transformer架构驱动。马斯克对此还表示:“我们知道这个算法很笨拙,需要大幅改进,但至少你可以实时、透明地看到我们努力改进它的过程。
导语:非 Transformer 面临的共同考验依然是证明自己的天花板有多高。 【雷峰网(公众号:雷峰网)】2017年谷歌发表的论文《Attention Is All You Need》成为当下人工智能的一篇圣经,此后席卷全球的人工智能热潮都可以直接追溯到 Transformer 的发明。 Transformer 由于其 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果