在人工智能编程领域,如何让AI系统像经验丰富的程序员一样精准评估代码质量,一直是困扰科研人员的关键难题。香港科技大学计算机科学与工程系与阿里巴巴通义千问团队联合研发的SWE-RM系统,通过构建三维评估体系,为解决这一难题提供了突破性方案。该系统在预印本平台arXiv公布的实验数据显示,其帮助主流AI编程模型的成功率提升最高达7.6个百分点,标志着AI编程评估技术进入全新阶段。