大语言模型LLaMa训练流程图
2023-12-13 10:23:40 0 举报
详细解释了大语言模型训练过程
作者其他创作
大纲/内容
Language modelingpredict the next token
Pretraining
1-100 GPUsdays of training
Stage
Reward Modeling
Reinforcement Learning
init from SFTuse RM
state of GPT
In-context learning: 在不需要重新训练的情况下,通过自然语言指令,并带几个期望输出的样例,LLM就能够学习到这种输入输出关系,新的指令输入后,就能输出期望的输出。
Step-by-step reasoning:通过思维链(chain-of-thought)提示策略,即把大任务分解成一步一步小任务,让模型think step by step得到最终答案。
RM model
initform
SFT model
Scaling:更多的模型参数、数据量和训练计算,可以有效提升模型效果。
Notes
Supervised Finetuning
1-100 GPUsdays of training
Model
RL model
Alignment tuning:对齐微调。为了避免模型输出一些不安全或者不符合人类正向价值观的回复,InstructGPT利用RLHF(reinforcement learning with human feedback)技术实现这一目的。
Algorithm
Instruction following:通过在多种任务数据集上进行指令微调(instruction tuning),LLM可以在没有见过的任务上,通过指令的形式表现良好,因此具有较好的泛化能力。
Training:分布式训练策略及一些提升训练稳定性和效果的优化trick。另外还有GPT-4也提出去建立一些特殊的工程设施通过小模型的表现去预测大模型的表现(predictable scaling)。
GPT Assistant training pipeline
Reinforcement Learninggenerate tokens that maximize the reward
LLM能力
Dataset
Binary classificationpredict rewards consistent weights preferences
LLM技术
Base Model
0 条评论
下一页