点击上方蓝字关注我,加个🌟标不迷路。 大家好,我是 cxuan,一个和 AI Agent 互相折磨的 builder。 昨天就传出来了 Claude Code 可能会发布新模型的消息,果不其然,这就来了。 先交代下背景。上次 Opus 4.8 发布的时候,官方就预告过,几周内要把 Mythos 级模型带给 ...
当 OpenSpec、Superpowers、GStack、GSD、Agent Skills 同时摆在你面前……到底该选哪个?还是说,我们都被"工具焦虑"绑架了? 当 ...
我们今天来聊聊大模型的 Coding Benchmark,特别是 SWE-bench Pro,深入的了解Benchmark得分到底意味着什么? 以及 能不能用Benchmark来选择模型。 随着 Claude Mythos 5/Fable 5 的发布,大家是不是也像我一样被下面这张表刷屏了? 图片 特别是 SWE-bench Pro 80.3% 的得分,可以说是 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果