ChatGPT训练原理图
2023-04-26 11:10:51 7 举报
chatGPT的训练原理 收集数据并训练监督模型、收集数据训练奖励模型、使用人类反馈强化学习(RLHF) 进行训练
作者其他创作
大纲/内容
提取提示
Step1:收集人类数据,训练有监督的策略模型
基于模型生成若干个回答
海量源数据
奖励模型
无则 加勉
低分
社交媒体聊天记录
③
世界上最高的山是哪座山?
提示数据集
Step3:使用奖励模型并通过强化学习的方式对策略模型进行微调
人类回答
②
提示(问题)
这是一个好问题
高分
有监督策略模型
新闻评论
有监督策略模型ChatGPT
有则 改之
Step2:收集对比数据,训练奖励模型
其他问答数据
你能告诉我吗
在GPT3.5上微调
①
珠穆朗玛峰
基于人工排序结果训练奖励模型
电影剧本
0 条评论
下一页