近日,由山东大学领衔,联合香港科技大学(广州)、香港科技大学、美国哥伦比亚大学以及西安交通大学的研究团队,在 AAAI 2026 上发表了一项引人深思的研究。他们提出了首个专门用于评估手机智能体隐私意识的大规模基准测试—— SAPA-Bench 。该基准的名字全称为 S martphone A gent P rivacy A wareness Bench mark,意在提醒开发者和用户:在赋予 ...
说到底,这项来自西安交通大学和新加坡国立大学的研究开启了人工智能评估的新篇章。它不仅提供了一个测试AI记忆激活能力的标准化平台,更重要的是展示了一种更加符合人类认知规律的AI设计理念。就像人类学会骑自行车不仅需要了解力学原理,更需要通过实践培养肌肉记 ...
A:KAGE-Bench是莫斯科MIRIAI研究院开发的AI视觉智能测试平台,它的特别之处在于能够独立测试每种视觉变化对AI的影响,运行速度极快(每秒可达3300万步),并且包含34个专门设计的测试配对来精确诊断AI的视觉适应问题。
在人工智能编程领域,一项重大突破悄然诞生。xAI公司推出的首个编码模型Grok Code Fast 1,从零开始构建,以其卓越的编程实力震撼业界,成功跻身SWE-bench基准测试前五名,仅次于OpenAI的Codex-1。尤为引人注目的是,该模型背后的核心团队中,华人学者占据了显著 ...
在科技界的一场重量级较量中,OpenAI与Anthropic的Claude之间的博弈再次升级,而这次焦点集中在了SWE-bench Verified编程测试上的成绩。 近日,OpenAI在发布会上宣布GPT-5在代码能力上取得了全球领先的地位,但在发布会的高光时刻却出现了一个令人啼笑皆非的乌龙 ...