基于人类反馈强化学习示意图
2024-05-10 15:57:36 0 举报
基于人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),是指将人类标注者引入到大模型的学习过程中,训练与人类偏好对齐的奖励模型,进而有效指导语言大模型的训练,使得模型能够更好地遵循用户意图,生成符合用户偏好的内容。
作者其他创作
大纲/内容
增强学习是...
数据标记工程师给出优劣排序
第一步:训练监督策略模型
从前有一只熊猫…
PPO模型由模型初始化
从提示词数据集中取样一个提示词
基于人类反馈强化学习示意图
D>C>A>B
解释奖励...
奖励模型
PPO
通过监督学习微调
向6岁小孩解释强化学习
对...教学进行奖惩
奖励模型计算输出奖励值
利用PPO算法结合奖励更新策略
D
第二步:训练奖励模型
机器学习是...
第三步:采用近端策略优化进行强化学习
模型生成一个输出
奖惩是...
取样一个提示词和模型多个输出
数据标记工程师给出期望的输出行为
监督微调
参考:《开启智能新时代:2024 年中国AI大模型产业发展报告》
从提示词数据集取样一个新的提示词
训练奖励模型
A
C
B
写一个关于熊猫的故事
0 条评论
下一页