【新智元导读】伯克利团队造了个专门作弊的AI,用10行Python代码拿下SWE-bench满分!500道题全过,0个bug修复。8大主流评测基准,全部沦陷。同一周,两份独立审计确认:排行榜上的作弊早已不是假设,而是现实。
AI评测领域近日掀起轩然大波,多个主流基准测试的可靠性遭到严重质疑。伯克利大学研究团队通过开发自动化漏洞扫描工具,成功攻破八大权威评测体系,其中SWE-bench编程基准更被10行Python代码轻松破解,500道测试题全部获得满分却未修复任何真实漏洞。 该团队揭示的作弊手段令人震惊:在SWE-bench测试中,研究人员通过提交包含conftest.py文件的代码包,利用pytest框架的钩子机制 ...
GPT-5.5发布,虽定价翻倍但更高效。发布当天Benchmark数据不一,Codex桌面端升级且全面开放第三方,AI竞争已从模型转向生态。 GPT-5.5来了。API定价$5/$30每百万token,GPT-5.4的两倍。 但它并不更烧token。
腾讯的大模型更新来了。混元3.0(Hy3)近日以"Hy3 preview"名义在OpenRouter平台免费上线。这次最直接的变化是编程能力——SWE-bench测试中,混元3.0得分74.4%,前代混元2.0只有53.0%,提升超过40%。
4月9日,一篇来自加州大学伯克利分校Sky实验室的X帖子在AI社区引发广泛关注。 博士生Hanchen Li和合作者Hao Wang等人发布名为 ...
SWE-bench Verified 的分数看似在爬坡,实则充满了水分。通过对模型失败案例的审计,发现近 60% ...
近日,智谱正式发布了其最新大模型 GLM-5.1,引发了行业内的广泛关注。这款新品的推出,不仅带来了技术上的革新,也预示着国产大模型市场竞争格局的变化。 伴随着 GLM-5.1的上线,模型聚合平台 OpenRouter监测显示,智谱 GLM全线提价 10%。 此次调价后,GLM-5.1在 Coding(编程)等核心场景的缓存命中 Token价格已基本锚定 Anthropic旗下 Claude 3.
有人说,「我们期待的是草莓,但他们发布的是羽衣甘蓝。」我们来看看这个「羽衣甘蓝」是做什么用的。 一直以来,大模型的编程能力都备受关注,超强 AI 程序员 Devin 的问世更是将「AI 能否替代程序员」这一话题推上了风口浪尖。最近,Devin 也迎来了新对手 ...
OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分,对比之下,Anthropic的Claude完成全部500题。 几天前,OpenAI发布会上,奥特曼宣布GPT-5登顶了,号称代码能力全球第一。 但发布会上搞了一个大乌龙,52.8>69.1=30.8? 于是,OpenAI那些年薪上亿的天才们做 ...
OpenAI推出更可靠的代码生成评估基准:SWE-bench Verified。公司在官网的一篇Blog中称:“随着我们的系统越来越接近AGI(通用人工智能),我们需要在越来越具有挑战性的任务中对它们进行评估”。该基准是对现有SWE-bench 的改进版本(子集),旨在更可靠地评估AI ...
AI自动修bug,解决率达44%!这是全球开源模型的最新最强水平。 来自蚂蚁的开源新模型,在SWE-bench Lite上超越所有开源方案,性能媲美闭源模型。 具体表现如下,在SWE-bench Lite上: 所有开源模型方法(Open Weight Model)中排名 第一 ; 所有开源系统方法(Open Source ...
钛媒体APP on MSN
我被罗福莉打脸了
三个关键词:便宜、结实、耐用。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果