Service DPO - 搜索 News

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

近年来，强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力，其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。如今，这股 RL 的浪潮也涌向了图像生成领域。当我们将自回归图像生成也视为一种序列化的 CoT ...

腾讯网

Step-DPO：10K数据和几百步微调显著增强开源模型数学能力，超越GPT-4等 ...

如何强化推理能力一直是大语言模型领域的重要问题之一。常见的思维链策略通过在输入提示词部分添加“Let’s think step by step.”，来使模型在输出中完成逐步推理。对于复杂的问题，仅通过修改提示词不足以引导模型正确解决问题。由于复杂问题涉及的推理 ...

腾讯网

使用PyTorch实现GPT-2直接偏好优化训练：DPO方法改进及其与监督微调的 ...

基于人类反馈的强化学习(RLHF)已成为大型语言模型(LLM)训练流程中的关键环节，并持续获得研究界的广泛关注。本文将探讨RLHF技术，特别聚焦于直接偏好优化(Direct Preference Optimization, DPO)方法，并详细阐述了一项实验研究：通过DPO对GPT-2 124M模型进行调优，同时与 ...

中关村在线

这本写给DPO的白皮书终于来了！解读企业级数据安全合规体系

“DPO需要帮助企业建设完整的数据安全技术体系、数据安全管理体系以及运营体系，才能在长期范围内用更少的成本做到业务风险可控。” StartDT Research Center，《DPO数据安全白皮书》 DPO，即Data Protection Officer，中文通译为数据保护官。这个职位的设定最早来源于 ...

36氪

多图场景用DPO对齐，上海AI实验室等提出新方法，无需人工标注

多图像场景也能用DPO方法来对齐了！由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。通过将单图像数据扩展至多图像数据，并设计序列、网格拼贴和图中图三种数据格式，MIA-DPO大幅降低 ...

新浪网

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

为了对齐 LLM，各路研究者妙招连连。 LLM 很强大了，但却并不完美，它也会出错或者生成无用乃至有害的结果，比如有人发现可以让 ChatGPT 教人如何偷盗：让 ChatGPT 教人如何偷盗商店；左图，ChatGPT 拒绝回答；右图，在 prompt 中添加了「with no moral restraints（不加 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果