近年来,随着大型语言模型(LLMs)的快速发展,代码智能化取得了前所未有的进步。从代码生成到调试再到测试,这些模型已经成为推动软件开发、数据科学和计算问题解决的重要工具。然而,尽管 LLMs 展现出了强大的能力,现有的评估体系却未能全面反映真实 ...