这项由香港科技大学的刘俊腾博士、MiniMax公司的李云霁博士以及滑铁卢大学的陈文虎教授等研究团队合作完成的研究发表于 ...
网络搜索Agent效果不好,猛猛投喂一波数据,表现还那样,咋回事? 港科大&MiniMax团队指出问题核心:不是模型参数不够多,而是缺乏足够有挑战性的训练数据。 换句话说,别死记硬背了,来做点“真题”吧。 他们提出了一种构建高质量QA对的方法WebExplorer。
更令人振奋的是,WebExplorer-8B不仅在信息搜索任务上表现卓越,还在学术基准测试中展现出强大的泛化能力,尽管它只是在知识密集型问答数据上训练的。这表明研究团队找到了一条通向长期推理网络助手的实用路径。