ChatGPT训练原理图
2023-06-11 23:41:17 3 举报
对于ChatGPT工作原理的图形化介绍
作者其他创作
大纲/内容
提取提示
第一步:收集人类数据,训练有监督的策略模型
基于模型生成若干个回答
海量源数据
奖励模型(Reward Model)
无则 加勉
低分
社交媒体聊天记录
③
世界上最高的山是哪座山?
提示数据集
第三步:使用奖励模型并通过强化学习的方式对策略模型进行微调
奖励模型
人类回答
②
提示(问题)
这是一个好问题
高分
有监督策略模型
新闻评论
有监督策略模型ChatGPT
有则 改之
第二步:收集对比数据,训练奖励模型
开源样本库和其他问答数据
你能告诉我吗
在GPT3.5上微调(fine-tune)
①
珠穆朗玛峰
基于人工排序结果训练奖励模型
电影剧本
0 条评论
下一页