English
全部
搜索
图片
视频
短视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
3:27
1.1K views · 101 reactions | A new short course on Reinforcement...
已浏览 1147 次
1 个月前
Facebook
DeepLearning.AI
2:44
What is Reinforcement Learning from Human Feedback (RLHF)? |
…
2023年4月20日
techtarget.com
1:18
DeepSpeed ZeRO++: A leap in speed for LLM and chat model trai
…
2023年6月22日
Microsoft
Brenda Potts
2:33
基于人类反馈微调大语言模型:RLHF与DPO方法详解 第九部分
已浏览 150 次
1 个月前
bilibili
光子AI
3:20
基于人类反馈微调大语言模型:RLHF与DPO方法详解 第四部分
已浏览 196 次
1 个月前
bilibili
光子AI
3:59
基于人类反馈微调大语言模型:RLHF与DPO方法详解(第五部
…
已浏览 147 次
1 个月前
bilibili
光子AI
3:56
基于人类反馈微调大语言模型:RLHF与DPO方法详解
已浏览 239 次
1 个月前
bilibili
光子AI
19:23
手把手带你快速弄懂SFT、RLHF、DPO !从定义到适用边界全流程解
…
已浏览 1447 次
1 个月前
bilibili
爱学大模型的柒柒
Generating Conversation: RLHF and LLM Evaluations with Nathan Lam
…
已浏览 1318 次
2023年9月6日
YouTube
RunLLM
1:00:38
Reinforcement Learning from Human Feedback From Zero to Ch
…
已浏览 2.2万 次
2022年12月13日
YouTube
HuggingFace
🐐Llama 3 Fine-Tune with RLHF [Free Colab 👇🏽]
已浏览 2万 次
2023年8月6日
YouTube
Whispering AI
1:19:43
Exploring the PPOTrainer in the HuggingFace TRL Library
已浏览 3939 次
2023年7月22日
YouTube
The LLM Show
24:18
第三篇: 使用RLHF调整LLM(Tune an LLM with RLHF) 中英文字幕
已浏览 795 次
2023年12月25日
YouTube
Bob Lin
44:14
DPO V.S. RLHF 模型微调
已浏览 5020 次
2024年1月20日
YouTube
Alice in AI-land
11:41
LLM大型语言模型如何进行微调? RLHF强化学习代码解读
已浏览 4477 次
2023年3月21日
zhihu.com
小工蚁创始人
1:03:19
【第七期】东大NLP实验室博士完整地剖析RLHF技术方法!
已浏览 501 次
2023年7月28日
zhihu.com
小牛翻译云平台
9:25
1小时速通 - 从强化学习到RLHF - PPO completed
已浏览 741 次
6 个月之前
bilibili
就要吃我就要吃
11:51
1小时速通 - 从强化学习到RLHF - OpenAI RLHF
已浏览 874 次
6 个月之前
bilibili
就要吃我就要吃
6:04
1小时速通 - 从强化学习到RLHF - DPO - 我们真的需要RLHF吗?
已浏览 863 次
6 个月之前
bilibili
就要吃我就要吃
14:02
1小时速通 - 从强化学习到RLHF - GRPO & DeepSeek-R1 training sc
…
已浏览 3493 次
6 个月之前
bilibili
就要吃我就要吃
1:10:05
RLHF训练法从零复现,TRL版本复现,代码实战,大语言模型训练
已浏览 8762 次
2024年11月18日
bilibili
蓝斯诺特
1:15:37
大模型后训练前沿技术报告 ① | 大语言模型的RLHF算法原理与实践
已浏览 1587 次
2024年8月23日
bilibili
并行科技
11:29
LLM系列之RLHF讲解
已浏览 307 次
2024年7月8日
bilibili
东土唐大哥
16:13
[中配] 基于人类反馈的强化学习(RLHF):Transformer 模型的训
…
已浏览 58 次
2 个月之前
bilibili
外番の声
4:41
1小时速通 - 从强化学习到RLHF - 21点
已浏览 1197 次
7 个月之前
bilibili
就要吃我就要吃
1:23:59
OpenRLHF:大规模分布式RLHF训练系统介绍
已浏览 3792 次
2024年9月1日
bilibili
NICE学术
53:25
大语言模型LLM第三集:RLHF
已浏览 5055 次
2024年5月19日
bilibili
自圆的圈
8:11
1小时速通 - 从强化学习到RLHF - 写在后面
已浏览 578 次
6 个月之前
bilibili
就要吃我就要吃
11:29
【大模型+强化学习】怎么理解大模型训练中的RLHF(人类反馈强化学
…
已浏览 1848 次
2024年9月30日
bilibili
计算机视觉与图像处理
4:52
1小时速通 - 从强化学习到RLHF - 简介
已浏览 3129 次
7 个月之前
bilibili
就要吃我就要吃
观看更多视频
更多类似内容
反馈