说在前面:这又是一篇讲Harness的Survey,你最近可能已经看过了数篇讲Harness的文章、论文,其中还可能包括我上周解读的《Agent Harness Engineering:Agent的底盘工程综述|CMU、耶鲁、Amazon》。 上周的《Agent Harness Survey》更像是在回答一个系统架构问题:一个真正可用的 Agent,外面应该包哪些东西? 而UIUC、Meta、St ...
今年3月,腾讯发布了《2026年AI人才报告》,其中提到“AI辅助编程工具使通用型开发任务效率提升约50%”。这个数字在测试圈的讨论群里引发了一轮激烈争论。不是因为50%有多吓人,而是因为测试本身就是一道“执行质量”的防线——如果连执行者都在被加速, ...
2026 年初,一个名叫 Pi 的终端 AI Coding Agent 在开发者社区火了。它的作者 Mario Zechner(也是知名游戏引擎 libGDX 的开发者)因为"讨厌所有现有的 Coding ...
今天,第三方大模型盲测平台LMArena旗下编程榜单Code Arena更新排名,阿里最新旗舰模型Qwen3.7-Max得分1541,在大模型厂商中位列全球第二,也是唯一突破1540分的中国模型。 图|Code Arena最新榜单排名 Code ...
微软正逐步在内部停用 Anthropic 推出的 AI 编码工具 Claude Code,并指示多个工程团队迁移至自研的 GitHub Copilot CLI。 据悉,负责 Windows、Microsoft 365、Outlook、Teams 及 ...
整理 | 屠敏出品 | CSDN(ID:CSDNnews)据外媒 The Verge 最新报道,一向在 AI 领域大手笔投入的微软,正在大幅缩减员工对 Anthropic 旗下 Claude Code 的直接使用权限,并逐步引导员工转向自家的 ...
硅谷最近兴起了一种“Tokenmaxxing”(Token刷榜)文化。
AIbase 报道5月26日,全球权威编程榜单 Code Arena 最新放榜,阿里巴巴 Qwen3.7-Max 以1541分强势登上全球第二,仅次于 Claude 系列模型,成为国产大模型在编程领域的新标杆。这一成绩超越了包括 GPT-5.5、Gemini3.5Flash 等多款前沿模型,标志着中国 AI 在 Agentic Coding 和长时程任务上的重大突破。 根据最新 Code Aren ...
过去一年,AI Coding 圈最魔幻的一件事,是所有人都在“造新东西”。 今天做 Agent、明天做 Workflow、后天开始 Multi-Agent,朋友圈里全是“一人公司”“三小时上线产品”“零代码创业”。可真正进入企业环境后,很多人会突然发现:现实世界里,根本没有那么多 ...
2026年5月,Anthropic旗下Claude Code产品负责人Boris Cherny在播客访谈中透露,该AI编程代理工具需求同比增长80倍,Anthropic工程师代码产出量增长约250%。Cherny本人表示不再直接写代码,而是通过prompt Claude并让代理指挥代理工作,非技术用户如医生、电工也开始使用Claude Code创造经济价值。
ZAKER on MSN
Code Arena放榜:阿里千问3.7编程能力超越GPT、Gemini,仅次于Claude系列
5月26日凌晨,全球权威三方编程榜单Code ...
ZAKER on MSN
DeepSeek 要用蜜雪冰城的打法,做中国版 Claude Code
DeepSeek 之于大模型,就像蜜雪冰城之于奶茶。你不必纠结性价比,因为它的本事你挑不出毛病,你的钱包它也从不为难。 最近,DeepSeek 官方宣布,DeepSeek-V4-Pro 模型 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果