“软工任务要改多文件、多轮工具调用,模型怎么学透?高质量训练数据稀缺,又怕轨迹含噪声作弊?复杂 RL 训练成本高,中小团队望而却步?”华为研究团队推出 SWE-Lego, 仅基于监督微调(SFT)的软件工程代码智能体,无需复杂 RL 流程,在 SWE ...