AI-ML-DL-Model
2025-03-21 17:52:50 0 举报
AI智能生成
在当今数字时代,我们见证了AI(人工智能)、ML(机器学习)、DL(深度学习)、人工神经网络AI大模型技术的飞速进步.
作者其他创作
大纲/内容
AI大模型
特点介绍
参数规模巨大(亿级至万亿级)
预训练 + 持续训练 + 微调
具备多任务泛化能力
涌现能力(Emergent Ability)
发展历程
BERT(2018)
GPT-3(2020)
GPT-4(2023)
Sora(2024)
核心技术架构
Transformer架构
模型扩展技术
混合专家系统(MoE)
分布式训练框架(如DeepSpeed的ZeRO优化)
多模态融合
图文对齐(如CLIP)
视频生成架构(如Sora的时空块分解)
模型压缩
量化
蒸馏
剪枝
参数共享
低秩分解
基础模型(基座)
GPT系列(OpenAI)
Llama系列(Meta)
DeepSeek(深度求索)
通义千问(Qwen)
训练方法与工具链
训练流程
数据采集
数据清洗与预处理:去噪、隐私处理、分词与编码
预训练+优化与调参
持续训练与微调
部署与持续优化
训练工具
DeepSpeed
Megatron
Axolotl
Hugging Face
Unsloth
资源成本
8×H100 GPU集群+
数百万美元+
应用场景
文本生成
客服对话(如ChatGPT)
多模态创作
AI绘画(Midjourney)
视频生成(Sora)
垂直领域
医疗诊断(如AlphaFold)
金融分析(BloombergGPT)
挑战和伦理问题
算力成本高企(训练GPT-4需约6300万美金)
灾难性遗忘(Catastrophic Forgetting)
数据隐私泄露(如模型记忆训练数据)
生成内容滥用(Deepfake伪造视频案例)
合规性:欧盟《AI法案》、中国《生成式AI服务管理办法》
趋势展望
模型小型化(如Phi-3的4B参数媲美70B模型)
自监督学习(减少人工标注依赖)
就业结构变化(AI替代与新兴职业)
人机协作范式(如Copilot模式)
对AI的观点:
乐观看法
人类只要关掉电源就能除掉AI机器人。
AI科技也不会无限成长,依然存在许多难以克服的瓶颈。
AI不可能具有创意与智能、同情心与审美等这方面的能力。
AI无法突变、苏醒、产生自我意志
悲观看法
AI会遵循科技发展的加速度理论。
AI可能会有自我改造创新的能力。
AI进步的速度远远超过人类。
人类会有被灭绝的危机存在。
机器学习
Machine Learning
Machine Learning
无监督学习
聚类算法
K均值聚类
系统聚类
降维算法
主成分分析PCA
线性判断分析LDA
监督学习
分类算法
决策树
支持向量机
贝叶斯
K-临近算法
逻辑回归
随机深林
回归算法
线性回归
最小二乘回归
LOESS局部回归
神经网路
强化学习
人工神经网络ANN
Artificial Neural Network
Artificial Neural Network
前馈神经网路
feed forword
feed forword
反馈神经网路
feedback
feedback
循环神经网路
RNN
RNN
Hopfiled神经网路
CHNN&DHNN
CHNN&DHNN
多层神经网路
普通神经网络
DNN
DNN
卷积神经网路
CNN
CNN
深度信念网络
DBN
DBN
深度学习DL
基础架构
模型类型
模型类型
前馈神经网络(Feedforward Neural Networks, FNN)
输入层 → 隐藏层(多层) → 输出层,数据单向传递
应用:基础分类、回归任务,如房价预测、手写数字识别
卷积神经网络(Convolutional Neural Networks, CNN)
卷积层:提取局部空间特征(如边缘、纹理)
池化层:降维并保留关键信息(如最大池化)
应用:图像分类(ResNet)、目标检测(YOLO)、医学影像分析
循环神经网络(Recurrent Neural Networks, RNN)
引入时序记忆,处理序列数据(如文本、语音)
应用:机器翻译、语音识别、股票预测
Transformer 架构
自注意力(Self-Attention)替代循环结构,并行处理序列数据
长距离依赖建模能力强,训练效率高
应用:自然语言处理(BERT、GPT)、多模态模型(CLIP)
生成对抗网络(Generative Adversarial Networks, GAN)
生成器(Generator)与判别器(Discriminator)对抗训练
应用:图像生成(StyleGAN)、数据增强、艺术创作
学习框架
PyTorch
以灵活性为核心,适合学术研究、快速迭代和小规模创新
学术主导:在 NLP、计算机视觉等领域的研究中占主导地位(如 Transformer、BERT 实现)
快速迭代:社区活跃,新模型(如扩散模型)和工具(如 Lightning)更新迅速
TensorFlow
以稳定性和扩展性见长,适合工业级应用和大规模部署
工业级生态:Google 生态支持,集成工具丰富(如 TFX、TensorBoard)
跨平台部署:支持移动端(TFLite)、浏览器(TensorFlow.js)和嵌入式设备
TensorFlow 2.x
在静态图的基础上引入动态图支持,兼顾灵活性与性能
集成 Keras 提高易用性
训练流程
核心组件
核心组件
数据处理与增强
归一化、标准化、分词(NLP)、图像裁剪(CV)
旋转/翻转图像(CV)、同义词替换(NLP)
损失函数
(Loss Function)
(Loss Function)
分类任务:交叉熵损失(Cross-Entropy)
回归任务:均方误差(MSE)
生成任务:对抗损失(GAN)、感知损失(如VGG特征匹配)
优化算法
随机梯度下降(SGD)、动量法(Momentum)
Adam、RMSprop,自动调整学习率
正则化与
防过拟合
防过拟合
Dropout(随机屏蔽神经元)
权重衰减(L2正则化)
早停法(Early Stopping)
学习率调度
余弦退火(Cosine Annealing)
Warmup(初始阶段逐步提升)
0 条评论
下一页