登录免费注册

首页  流程图  详情

基于人类反馈强化学习示意图

2024-05-10 15:57:36   1  举报





基于人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)，是指将人类标注者引入到大模型的学习过程中，训练与人类偏好对齐的奖励模型，进而有效指导语言大模型的训练，使得模型能够更好地遵循用户意图，生成符合用户偏好的内容。

RLHF

基于人类反馈强化学习

AI语言大模型关键技术

大模型

强化学习

作者其他创作

大纲/内容

增强学习是...

数据标记工程师给出优劣排序

第一步：训练监督策略模型

从前有一只熊猫…

PPO模型由模型初始化

从提示词数据集中取样一个提示词

基于人类反馈强化学习示意图

D>C>A>B

解释奖励...

奖励模型

PPO

通过监督学习微调

向6岁小孩解释强化学习

对...教学进行奖惩

奖励模型计算输出奖励值

利用PPO算法结合奖励更新策略

D

第二步：训练奖励模型

机器学习是...

第三步：采用近端策略优化进行强化学习

模型生成一个输出

奖惩是...

取样一个提示词和模型多个输出

数据标记工程师给出期望的输出行为

监督微调

参考：《开启智能新时代：2024 年中国AI大模型产业发展报告》

从提示词数据集取样一个新的提示词

训练奖励模型

A

C

B

写一个关于熊猫的故事

机器学习十大核心算法全解图集及分类-11张

 收藏

立即使用

机器学习十大核心算法全解图集及分类-11张

 收藏

立即使用

【模板】论文技术路线图

【数据分析BI】6个行业大数据技术应用架构案例

 收藏

立即使用

【数据分析BI】6个行业大数据技术应用架构案例

【合集】开题报告、课题、论文技术路线图

 收藏

立即使用

【合集】开题报告、课题、论文技术路线图

职业：硕士













评论

0 条评论

下一页

为你推荐

查看更多



技能切换示意图

深度强化学习对抗式双网络深度Q网络示意图

深度强化学习对抗式双网络深度Q网络示意图

分层示意图：边缘计算

合并拆分示意图

BS架构示意图

机器学习流程示意图

福利示意图

流程示意图