ChatGPT/InstructGPT详解
2023-03-01 10:30:02 21 举报
AI智能生成
ChatGPT/InstructGPT/强化学习/预训练模型
作者其他创作
大纲/内容
综述
GPT
Generative Pre-Trained Transformer
目的
通过Transformer为基础模型,使用预训练技术得到通用的文本模型
训练方式
指示学习(Instruction Learning)
人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)
GPT2思想
所有的有监督学习都是无监督语言模型的一个子集”的思想,这个思想也是提示学习(Prompt Learning)的前身
GTP3
In-context Learning
它是元学习(Meta-learning)的一种,元学习的核心思想在于通过少量的数据寻找一个合适的初始化范围,使得模型能够在有限的数据集上快速拟合,并获得不错的效果
GPT目标
提升模型在常见NLP任务上的表现效果;
提升模型在其他非典型NLP任务(例如代码编写,数学运算)上的泛化能力。
预训练模型的问题
对比完全由人工规则控制的专家系统来说,预训练模型就像一个黑盒子。没有人能够保证预训练模型不会生成一些包含种族歧视,性别歧视等危险内容,因为它的几十GB甚至几十TB的训练数据里几乎肯定包含类似的训练样本。这也就是InstructGPT和ChatGPT的提出动机
InstructGPT和ChatGPT的提出动机
有用的(Helpful);
可信的(Honest);
无害的(Harmless)。
指示学习(Instruct Learning)vs 提示(Prompt Learning) vs Finetuning
指示学习和提示学习的目的都是去挖掘语言模型本身具备的知识。
不同的是Prompt是激发语言模型的补全能力,例如根据上半句生成下半句,或是完形填空等
Instruct是激发语言模型的理解能力,它通过给出更明显的指令,让模型去做出正确的行动。
指示学习是谷歌Deepmind的Quoc V.Le团队在2021年的一篇名为《Finetuned Language Models Are Zero-Shot Learners》[5]文章中提出的思想。
它经过多任务的微调后,也能够在其他任务上做zero-shot,而提示学习都是针对一个任务的。泛化能力不如指示学习
人工反馈的强化学习
训练数据的分布便是影响生成内容的质量最重要的一个因素
我们希望模型不仅仅受到训练数据的影响,而是人为可控的,从而保证生成数据的有用性,真实性和无害性
Alignment
InstructGPT/ChatGPT原理解读
子采用了GPT-3的网络结构主题
通过指示学习构建训练样本来训练一个反应预测内容效果的奖励模型(RM)
通过这个奖励模型的打分来指导强化学习模型的训练
具体步骤
1. 根据采集的SFT数据集对GPT-3进行有监督的微调(Supervised FineTune,SFT);
2. 收集人工标注的对比数据,训练奖励模型(Reword Model,RM);
3. 使用RM作为强化学习的优化目标,利用PPO算法微调SFT模型。
0 条评论
下一页