English
全部
搜索
图片
视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
33:53
【PPO】【已完结】PPO第二部分 完整实现和代码解读
已浏览 6520 次
1 个月前
bilibili
东川路第一可爱猫猫虫
0:18
算法面试考点复习 [LLM-RL-PPO]
已浏览 90 次
2 周前
bilibili
小飞鱼的日常
15:14
[Agentic RL] 02 策略梯度基础,从 PG 到 TRPO 到 PPO-Clip 核心公式简
…
已浏览 3629 次
3 个月之前
bilibili
五道口纳什
25:17
【PPO的前身】【TRPO】第一部分 直观理解与算法理论
已浏览 7178 次
2 个月之前
bilibili
东川路第一可爱猫猫虫
7:12
Policy Optimization in Reinforcement Learning
已浏览 3 次
3 周前
YouTube
om
0:39
🔍 Understanding Proximal Policy Optimization (PPO) Advanced Rei
…
2 周前
YouTube
Chain
6:49
3.4 Optimal Policies and Optimal Value Functions | DRL Course
已浏览 5 次
2 个月之前
YouTube
Barmenteros FX
1:10
What is Proximal Policy Optimization ( PPO)?
1 个月前
YouTube
Data Science Made Easy
4:20
BAPO: Stabilizing Off‑Policy RL for LLMs
已浏览 6 次
2 个月之前
YouTube
AI Research Roundup
7:03
GRPO: The Reinforcement Learning Trick That Changed Everything
已浏览 31 次
3 周前
YouTube
mathtartic
38:24
Proximal Policy Optimization (PPO) - How to train Large Language Mod
…
已浏览 121 次
1 个月前
bilibili
bender2016
Advanced Concepts in Large Language Models. RL / SFT / MHA
…
3 周前
linkedin.com
Direct Preference Optimization: Forget RLHF (PPO)
已浏览 1.6万 次
2023年6月6日
YouTube
Discover AI
Proximal Policy Optimization (PPO) With TensorFlow 2.x | Towards Da
…
2020年9月21日
towardsdatascience.com
24:31
DPO Meets PPO: Reinforced Token Optimization for RLHF
已浏览 168 次
2024年4月30日
YouTube
Arxiv Papers
Further Contemporary RL Algorithms (TRPO, PPO - Lecture
…
已浏览 515 次
2023年7月5日
YouTube
Paderborn University - Department LEA
29:08
Proximal Policy Optimization is Easy with Tensorflow 2 | PPO Tuto
…
已浏览 1.3万 次
2022年1月12日
YouTube
Machine Learning with Phil
PPO Algorithm
已浏览 4 次
6 个月之前
YouTube
Machine Learning and Artificial Intelligence
13:42
ChatGPT狂飙:强化学习RLHF与PPO!【ChatGPT】系列第02篇
已浏览 3077 次
2023年2月12日
YouTube
ZOMI酱
15:55
Policy Optimization & TRPO & PPO | RL原理讲解系列 #3
已浏览 11 次
3 个月之前
YouTube
Up-Fei
40:53
DPO RM=PPO?RLHF算法串烧及详解
已浏览 2378 次
2024年11月10日
bilibili
AI玩家曹博士
36:49
7-PPO算法原理与实验实现
已浏览 713 次
2024年9月19日
bilibili
kindlytrees
7:50
近端策略优化算法 PPO(Proximal Policy Optimization Algorithms)
已浏览 236 次
1 个月前
bilibili
小迪学AI
27:35
[论文精读] Deepseek r1 (prepare) - RLHF & PPO & GRPO
已浏览 1.2万 次
9 个月之前
bilibili
酸果酿
4:48
98.RL专题:PPO中为什么不直接计算 θ 与 θ′ 之间的距离?
已浏览 4350 次
7 个月之前
bilibili
文言AI
22:29
PPO算法原理 || LLM 后训练应用
已浏览 2388 次
4 个月之前
bilibili
凶猛肱二头
1:02:47
PyTorch论文复现 | Proximal Policy Optimization (PPO)
已浏览 9502 次
2021年7月20日
bilibili
深度强化学习实验室
21:15
DPO直接偏好优化算法 (动画讲解)
已浏览 8122 次
2024年10月26日
bilibili
数源创域
19:42
【Offline RL】6.1 策略优化(Policy Optimization)
已浏览 504 次
4 个月之前
bilibili
JOJO想
8:17
97.RL专题:简述一下PPO算法。其与TRPO算法有何关系呢?
已浏览 3434 次
8 个月之前
bilibili
文言AI
观看更多视频
更多类似内容
反馈