Swe Bench - 搜索 News

SWE-bench满分，0个bug修复：伯克利造了个专门作弊的AI

【新智元导读】伯克利团队造了个专门作弊的AI，用10行Python代码拿下SWE-bench满分！500道题全过，0个bug修复。8大主流评测基准，全部沦陷。同一周，两份独立审计确认：排行榜上的作弊早已不是假设，而是现实。

11 天

AI评测信任危机：10行代码拿下SWE-bench满分主流基准集体“沦陷”

AI评测领域近日掀起轩然大波，多个主流基准测试的可靠性遭到严重质疑。伯克利大学研究团队通过开发自动化漏洞扫描工具，成功攻破八大权威评测体系，其中SWE-bench编程基准更被10行Python代码轻松破解，500道测试题全部获得满分却未修复任何真实漏洞。该团队揭示的作弊手段令人震惊：在SWE-bench测试中，研究人员通过提交包含conftest.py文件的代码包，利用pytest框架的钩子机制 ...

6 天

GPT5.5：更贵不更烧

GPT-5.5发布，虽定价翻倍但更高效。发布当天Benchmark数据不一，Codex桌面端升级且全面开放第三方，AI竞争已从模型转向生态。 GPT-5.5来了。API定价$5/$30每百万token，GPT-5.4的两倍。但它并不更烧token。

7 天

腾讯混元3.0：编程能力提升40%，SWE-bench得分74.4%接近GLM-4.7

腾讯的大模型更新来了。混元3.0（Hy3）近日以"Hy3 preview"名义在OpenRouter平台免费上线。这次最直接的变化是编程能力——SWE-bench测试中，混元3.0得分74.4%，前代混元2.0只有53.0%，提升超过40%。

新浪网

SWE bench,彻底废了！伯克利团队推出AI基准终结者！10行代码，所有 ...

4月9日，一篇来自加州大学伯克利分校Sky实验室的X帖子在AI社区引发广泛关注。博士生Hanchen Li和合作者Hao Wang等人发布名为 ...

腾讯网Opinion

分数全是水分！SWE-bench Verified 早已失去 AI 编程评测意义

SWE-bench Verified 的分数看似在爬坡，实则充满了水分。通过对模型失败案例的审计，发现近 60% ...

22 天

智谱GLM-5.1发布：SWE-benchPro全球领先，国产大模型价格对标Claude 3.5 Sonnet

近日，智谱正式发布了其最新大模型 GLM-5.1，引发了行业内的广泛关注。这款新品的推出，不仅带来了技术上的革新，也预示着国产大模型市场竞争格局的变化。伴随着 GLM-5.1的上线，模型聚合平台 OpenRouter监测显示，智谱 GLM全线提价 10%。此次调价后，GLM-5.1在 Coding（编程）等核心场景的缓存命中 Token价格已基本锚定 Anthropic旗下 Claude 3.

新浪网

OpenAI「草莓」模型再次跳票，凌晨发布的SWE-bench Verified是个啥？

有人说，「我们期待的是草莓，但他们发布的是羽衣甘蓝。」我们来看看这个「羽衣甘蓝」是做什么用的。一直以来，大模型的编程能力都备受关注，超强 AI 程序员 Devin 的问世更是将「AI 能否替代程序员」这一话题推上了风口浪尖。最近，Devin 也迎来了新对手 ...

36氪

深度揭秘OpenAI如何让GPT-5「技术性」超越Claude：悄悄跳过最难的23道题

OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分，对比之下，Anthropic的Claude完成全部500题。几天前，OpenAI发布会上，奥特曼宣布GPT-5登顶了，号称代码能力全球第一。但发布会上搞了一个大乌龙，52.8＞69.1=30.8？于是，OpenAI那些年薪上亿的天才们做 ...

每经网

全球科技早参丨OpenAI推出SWE-bench Verified；美国团队宣布高温超导新 ...

OpenAI推出更可靠的代码生成评估基准：SWE-bench Verified。公司在官网的一篇Blog中称：“随着我们的系统越来越接近AGI（通用人工智能），我们需要在越来越具有挑战性的任务中对它们进行评估”。该基准是对现有SWE-bench 的改进版本（子集），旨在更可靠地评估AI ...

17173游戏网

大模型首次直接理解代码图：不用Agent自动修bug，登顶SWE-Bench开源 ...

AI自动修bug，解决率达44%！这是全球开源模型的最新最强水平。来自蚂蚁的开源新模型，在SWE-bench Lite上超越所有开源方案，性能媲美闭源模型。具体表现如下，在SWE-bench Lite上：所有开源模型方法（Open Weight Model）中排名第一；所有开源系统方法（Open Source ...