DPO - 搜索 News

DPO与GRPO谁更胜一筹？港中文、北大等联合发布首个系统性对比研究

近年来，强化学习 (RL) 在提升大型语言模型 (LLM) 的链式思考 (CoT) 推理能力方面展现出巨大潜力，其中直接偏好优化 (DPO) 和组相对策略优化 (GRPO) 是两大主流算法。如今，这股 RL 的浪潮也涌向了图像生成领域。当我们将自回归图像生成也视为一种序列化的 CoT ...

8 天

DPO 数据保护官认证培训：合规刚需与优质机构全指南

在全球数据合规监管趋严、国内《个人信息保护法》全面落地的背景下，DPO 数据保护官已成为企业合规运营与个人职业升级的核心资质。DPO（Data Protection Officer）是 EXIN 国际信息学考试学会基于欧盟 GDPR 推出的权威集成认证，是全球公认的数据保护专业能力凭证。系统完成 DPO 培训认证，既是满足监管要求的刚需，也是构建数据合规能力、拓宽职业赛道的关键路径。一、DPO ...

中关村在线

这本写给DPO的白皮书终于来了！解读企业级数据安全合规体系

“DPO需要帮助企业建设完整的数据安全技术体系、数据安全管理体系以及运营体系，才能在长期范围内用更少的成本做到业务风险可控。” StartDT Research Center，《DPO数据安全白皮书》 DPO，即Data Protection Officer，中文通译为数据保护官。这个职位的设定最早来源于 ...

腾讯网

DPO-Shift：一个参数可控改变DPO分布，缓解似然偏移

在人工智能领域，如何引导大语言模型产出贴合人类偏好的内容，已成为备受瞩目的研究焦点。强化学习从人类反馈中学习（RLHF）作为该领域的重要方法之一，虽成效显著，但也暴露出多阶段优化流程复杂、计算负担沉重等弊端。而直接偏好优化（DPO）及其衍生 ...

36氪

多图场景用DPO对齐，上海AI实验室等提出新方法，无需人工标注

多图像场景也能用DPO方法来对齐了！由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。通过将单图像数据扩展至多图像数据，并设计序列、网格拼贴和图中图三种数据格式，MIA-DPO大幅降低 ...

新浪网

2026年02月11日 11:00 市场资讯

在当今的大模型后训练（Post-training）阶段，DPO（直接偏好优化）凭借其无需训练独立 Reward Model 的优雅设计和高效性，成功取代 PPO 成为业界的「版本之子」，被广泛应用于 Llama-3、Mistral 等顶流开源模型的对齐中。然而，随着对模型能力要求的日益严苛，DPO 的 ...

中国日报网

DPO数据保护官认证带你走出数据合规困境

只要处理个人数据，就会引发隐私问题。 2018年在GDPR法案在欧盟正式颁布后，EXIN是全球早期的基于《欧盟通用数据保护条例 ...

36氪

中指控股今晚正式登陆纳斯达克，或成首家DPO中国公司

北京时间6月11日晚上21时，中指控股有限公司（China Index Holdings Ltd，以下简称中指控股）将正式登陆纳斯达克交易所，股票代码为CIH。《每日经济新闻》记者独家获悉，中指控股将采用“直接上市”（DPO）的方式在纳斯达克交易所挂牌交易，或成为纳斯达克交易 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果