ChatGPT
2024-04-02 16:52:08 0 举报
AI智能生成
ChatGPT,一个由OpenAI开发的大型语言模型,拥有强大的自然语言处理能力,可以对文本进行理解和生成,具有极高的准确性和流畅性。通过训练的数据集包含了大量的文本信息,使得ChatGPT能够理解和生成各种类型的文本,如文章、故事、对话等。此外,ChatGPT还能够理解和回答各种问题,以及执行各种任务,如撰写邮件、编写代码等。此外,它还能够通过学习和适应与人类的交互过程,不断提高自己的表现。
作者其他创作
大纲/内容
InstructGPT
指令微调的过程
准备prompt,进行模型微调
微调后的模型,根据更多的 prompt 生成答案
采样更多的 prompt,继续训练生成模型
改进内容
数据收集过程
主要结论
SuperGLUE:理解任务为主
Winogrande:推理任务为主
TriviaQA:阅读理解任务为主
TriviaQA:阅读理解任务为主
模型
模型初始化、归一化、Tokenization 做了一些优化
子主题
训练数据准备
子主题
模型训练过程
结果与讨论
主要结论
SuperGLUE:理解任务为主
Winogrande:推理任务为主
TriviaQA:阅读理解任务为主
次要结论
GPT-1
模型结构
Transformer 的 Decoder 部分
训练方法
自回归的生成方式进行语言模型预训练
判别式的结构进行下游任务微调
判别式的结构进行下游任务微调
预训练
Loss
模型
数据
微调
模型改动
loss
小细节
结果与讨论
主要验证方法
GPT-2
改进重点
Zero-Shot
使用方式
改进内容
训练数据
开源 Common Crawl
自建了 WebText 数据集
WebText 最终包括 4500w 链接,后处理过程
模型
沿用 GPT 结构
结果与讨论
模型大小
验证数据
次要结论
Children’s Book Test 任务
Winograd Schema Challenge 任务
其他 Zero-Shot 任务
语言模型预训练集和验证集的效果(perplexity 困惑度越小越好)
GPT-3
动机
领域数据
微调在小数据量下表现好,很可能只是过拟合
以人类的学习习惯对比
方案
沿用 GPT-2 的模型和训练方法
验证 In-Context learning 能力
根据下游任务进行微调
改进内容
模型训练方式
模型
模型初始化、归一化、Tokenization 做了一些优化
子主题
训练数据准备
子主题
模型训练过程
结果与讨论
主要结论
SuperGLUE:理解任务为主
Winogrande:推理任务为主
TriviaQA:阅读理解任务为主
次要结论
0 条评论
下一页