走进AI(三) | 解构 LLM
2025-03-05 18:03:04 0 举报
AI智能生成
解构 NLP 的演变过程
作者其他创作
大纲/内容
Pre-training 预训练:获得通用知识
预训练模型演进
静态词向量预训练
Word2Vec(词向量)
训练方法:观其伴,只其义
优点
不足
动态词向量预训练
基础模型
FNN(前馈神经网络):一种最简单的神经网络,CNN/RNN 都是基于此模型扩展的
CNN(卷积神经网络):适合空间建模,用于图像
RNN(循环神经网络)模型:能够捕捉序列之间的依赖关系,适合时间建模,用于自然语言
LSTM(长短期记忆网络)模型:解决上下文重要性区分的问题,通过门控机制,有选择的记住和忘记
ELMO(2018):基于双层的双向LSTM模型 - 效率低
Transformer模型:解决了输入序列只能串行处理不能并行处理的问题,擅长处理长文本。
一个基于attention的encoder-decoder(多层堆叠)结构的seq2seq模型
Self-Attention(自注意力机制) :Q-K-V 机制 => 捕捉上下文关系
注意:Transformer 是目前人工智能领域最广泛流行的架构,被用在各个领域,但并不是最先进的
预训练步骤
1. 数据处理流程
2. 技术架构选择
采用Decoder-only架构:OpenAI的GPT系列
采用Encoder-Decoder架构:T5
采用Encoder-only架构:谷歌的BERT系列
3. 预训练技术
遮罩语言建模(Masked Language Modeling, MLM):完形填空
下一句话预测(Next Sentence Prediction, NSP):优化 LLM 理解文本流和连贯性,让它生成更连贯的对话。
去噪自动编码器 (Denoising Autoencoders,DAEs):训练 LLM “清理”文本,重建原始版本,学习语言的通用模式,优化句子的连贯性和一致性。
参考文档
Pre-training in LLM Development
NLP(Natural Language Processing 自然语言处理) 基础
定义
简述发展历程
统计模型:不通用、维度多、表示能力弱
架构演进:N个任务模型 -> 1个预训练模型
LLM(大规模语言模型)
AI 摩尔定律-Scaling Laws(2022.1):LLM三要素【算力,数据规模,参数规模】任意一项指数增长,都会带来模型性能的线性提升,贡献:参数规模>数据规模>算力。
提出问题
生成式语言大模型的本质是什么?补全&续写:根据上文,猜(概率的)下一个词 ,进行“文字接龙”
AI能进行推理吗?CoT(思维链)
为什么训练的模型要很大,参数巨多?
为什么提示时最好给几个示例?Few-shot > One-shot > Zero-shot
大模型有什么硬伤缺陷吗?
并非知晓一切
没有「真逻辑」
GPT系列:生成式预训练Transformer模型,使用Transformer的Decoder模型
GPT1:采用 pretrain + finetune 方案
GPT2:采用 pretrain + prompt 方案,无需微调 主打 zero-shot , 证明模型越大效果越好
GPT3:采用 pretrain + prompt 方案,无需微调 主打 few-shot,证明“大模型+大数据”可以涌现突变的模型效果
GPT4:输入变宽,支持多模态(加入图像),安全性,推理能力更强,效果优于大部分微调模型
GPT4V:具备了多模态场景下遵循图文指令的能力
高性能计算手段
pipline并行:拆权重 - 异步操作
Tensor并行:拆权重&数据 - 同步操作,消耗带宽
数据并行:复制权重&拆数据 - 异步操作
GPT 可视化神器 LLM Visualization 解读
如何优化LLM?常见方法有提示工程、RAG、微调
提示词
RAG
Fine-tuning 微调
应用模式
0 条评论
下一页