这项由腾讯公司联合中山大学、深圳MSU-BIT大学共同完成的研究成果发表于2025年1月,研究团队提出了一个名为AT?PO(Agentic Turn-based Policy Optimization via Tree Search)的全新框架。有兴趣深入了解的读者可以通过论文编号arXiv:2601.04767v1查询完整论文。