Pope - 搜索 News

华尔街见闻 on MSN

硬核拆解：GPT-5、Claude和Gemini是如何训练和推理的?

前谷歌TPU架构师Pope完成了一次AI“解密”：他估算，如果不批量处理用户请求，单次推理成本可能高出1000倍。而GPT-5的预训练数据量，是理论最优解的100倍。此外，DeepSeek V3拥有256个专家，每次推理只激活其中一小部分。MoE（混合专家）架构被限制在一个机架72块GPU以内，这是制约模型规模扩展的核心物理瓶颈之一。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

硬核拆解：GPT-5、Claude和Gemini是如何训练和推理的?

今日热点