登录免费注册

首页  流程图  详情

ChatGPT训练原理图

2023-04-26 11:10:51   7  举报





chatGPT的训练原理收集数据并训练监督模型、收集数据训练奖励模型、使用人类反馈强化学习(RLHF) 进行训练

chatGPT

模型训练

原理图

作者其他创作

大纲/内容

提取提示

Step1：收集人类数据，训练有监督的策略模型

基于模型生成若干个回答

海量源数据

奖励模型

无则加勉

低分

社交媒体聊天记录

③

世界上最高的山是哪座山？

提示数据集

Step3：使用奖励模型并通过强化学习的方式对策略模型进行微调

人类回答

②

提示（问题）

这是一个好问题

高分

有监督策略模型

新闻评论

有监督策略模型ChatGPT

有则改之

Step2：收集对比数据，训练奖励模型

其他问答数据

你能告诉我吗

在GPT3.5上微调

①

珠穆朗玛峰

基于人工排序结果训练奖励模型

电影剧本

 收藏

立即使用

ChatGPT训练原理图

 收藏

立即使用

统计法规知识图谱

 收藏

立即使用

 收藏

立即使用

微服务系统架构

职业：研究生













评论

0 条评论

下一页

为你推荐

查看更多



测温原理图

获取权限原理图

ChatGPT训练原理图

活动页 cms 原理图

ChatGPT镜像原理

图7 鉴频器解调原理图

图10 差分检波法解调原理图

实验原理图

训练分类器