【人工智能认证】深度学习基础
2023-03-10 09:12:52 0 举报
AI智能生成
根据阿里云人工智能助理工程师认证ACA内容整理
作者其他创作
大纲/内容
深度学习概述
深度学习
定义:是【机器学习】的分支,是一种以【人工神经网络】为架构,对资料进行【表征学习】的算法
传统机器学习与深度学习对比
传统机器学习:数据预处理 》 特征提取 》 选择分类器
深度学习:数据预处理 》 设计模型 》 模型训练
优点
学习能力强
覆盖范围广、适应性好
数据驱动、上限高
可移植性好
不足
计算量大、便携性差
硬件需求高
模型设计复杂
容易存在偏见
深度学习框架
定义:一种界面、库或工具,能够让开发人员利用【预先构建和优化好】的组件集合定义模型,更容易、更快速地构建深度学习模型
关键特征
针对性能进行优化
易于理解与编码
强大的社区生态
并行化进程加快运算
自动计算渐变
常见深度学习框架
TensorFlow
定义:一个利用【数据流图】进行数值计算的开源软件库,可以在众多异构的系统上方便地移植
特点
机动性
可适性强
多种编程语言可选
最优化表现
相关术语
基础操作
TensorFlow2.0
主要变化:1.0版本使用相对繁琐,调试困难,文档接口混乱,2.0版本都有很好的优化
Torch
定义:包含大量的机器学习、计算机视觉、信号处理、并行计算、图像、视频、音频的库
特点
支持卷积神经网络
支持循环神经网络
构建模型简单
高度模块化
快速高效的GPU支持
运行速度快,无需额外编译
可嵌入到iOS等后端接口
Caffe
定义:一个清晰而高效的深度学习框架,基于C++/CUDA的架构,支持命令行、Python和Matlab接口;可以在CPU和GPU直接无缝切换,并支持多GPU
特点
广泛地应用于前沿的工业界和学术界
可完成计算机视觉领域的多种任务
第一个主流的工业级深度学习框架
在各种硬件环境编译并具有良好的移植性
提供了Python语言接口pycaffe
使用许多顺序连接的层来描述神经网络结构
选择
选择标准
学习门槛
开发速度
上手难度
易用性
文档齐全规范
如何选择
工业化应用多,要求资料齐全 》 Caffe
学术性高,社区活跃 》 Torch
初学者,规范的例子 》 TensorFlow
神经网络
定义:人工神经网络,简称神经网络,是一种模仿生物神经网络的结构和功能的数学或计算模型
目的:模仿大脑的某些机理与机制,实现某个方面的功能,例如图像识别、语音识别
组成
神经元
负责计算和处理输入信息
网络连接
负责将不同神经元连接起来,形成神经网络,连接两端各为一个神经元
多层感知机
感知机
定义:人工智能最早的模型,一种有监督的学习算法,感知机是对神经元的模仿
本质上是一个二分类问题,是神经网络和支持向量机的基础
缺点:感知机只能解决单纯的线性问题
多层感知机
层级结构
输入层
隐藏层
输出层
激活函数
定义:是一种在人工智能神经网络的神经单元上运行的函数,旨在帮助网络学习数据中的复杂模式,负责将神经元节点的输入映射到输出端
常见激活函数
Sigmoid函数
定义:也叫Logistic函数,用于隐藏层神经元输出,取值范围为0到1,可以将一个实数映射到0到1区间
应用:二分类
不足
输出不是0均值
存在梯度消失的情况
Tanh函数
优点
解决了Sigmoid函数的不是零均值化输出问题
在特征相差明显时的效果更好
在循环过程中会不断扩大特征效果
不足
存在梯度消失的问题
ReLU函数
优点
解决了梯度消失的问题
计算速度非常快
收敛速度远快于Sigmoid和Tanh
不足
部分神经元在训练时会很脆弱,甚至会“死亡”
Leaky-ReLU函数
ELU函数
BP神经网络算法
定义:是一种按误差逆传播算法训练的多层神经网络,正向传播求损失,反向传播回传误差,根据误差信号修正每层的权重
卷积神经网络
概述
定义:一种带有卷积结构的深度神经网络,通过特征提取和分类识别完成对输入数据的判别
历史
在1989年提出,早期被成功用于手写字符图像识别
2012年更深层次的AlexNet网络取得成功,此后被广泛应用
层级结构
输入层
定义:接收数据的输入,可以处理多维数据,也能对输入特征进行标准化处理,有利于提升卷积神经网络的学习效率和表现
进行预处理的主要原因
数据范围影响
输入数据单位不一致
激活函数值域影响
卷积层
定义:提取一个局部区域的特征,不同的卷积核相当于不同的特征提取器
主要应用:图像处理
池化层
定义:包含预设定的池化函数,将特征图中单个点的结果替换为其相邻区域的特征图统计量
目的:对数据进行降维,减少数据特征,减少网络参数和运算次数,避免过拟合
常用方法
最大值池化
均值池化
全连接层
神经元排成一列,这些神经元与前一层神经元通过权值互连,呈全连接结构
等价于传统前馈神经网络中的隐藏层,通常位于卷积神经网络的最后部分,并只向其他全连接层传递信号
输出层
通常是全连接层,其结构和工作原理与传统前馈神经网络中的输出层相同
可能的输出结果
分类标签
中心坐标、大小、分类
每个像素分类结果
经典卷积神经网络
LeNet-5
时间:上世纪90年代,第一个卷积神经网络
结构
7层网络结构 = 2个卷积层 + 2个池化层 + 2个全连接层 + 1个输出层
卷积核大小:5*5
应用:手写数字识别系统在20世纪90年代被美国很多银行使用,用来识别支票上的手写数字
AlexNet
时间:2012年的ImageNet竞赛,第一个现代深度卷积网络模型
结构
8层网络结构 = 5卷积 + 3全连接
卷积核大小:11*11、5*5、3*3
使用现代深度卷积网络技术方法
使用CPU进行并行训练
采用ReLU作为非线性激活函数
使用Dropout防止过拟合
使用数据增强来提高模型准确率
ResNet
时间:残差网络,ILSVRC 2015胜利者
结构
152层网络结构 = 151卷积 + 1全连接
使用残差单元
使用了跳跃链接,并大量使用了批量归一化
优点
容易优化
能够通过增加深度来提高准确率
缓解了梯度消失问题
应用
一维卷积
序列模型、自然语言处理模型
文本分类
语音识别
机器翻译
二维卷积
图像处理、计算机视觉领域
垃圾分类(图像分类)
车牌识别
图像搜索
三维卷积
医学领域、视频处理领域
循环神经网络 RNN
概览
定义:一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式链接的递归神经网络
循环神经网路 = 神经网络 + 循环
网络结构
典型的RNN网络包含一个输入x,一个输出h,和一个神经网络单元A
实质:上一个时刻的网络状态信息将会作用于下一个时刻的网络状态
类别
一对一
一对多
多对一
多对多
经典循环神经网络
长短期记忆网络 LSTM
优点
增强循环神经网络的学习能力
缓解网络的梯度消失等问题
对有价值的信息进行长期记忆
减小循环神经网络的学习难度
流程:见PPT
应用
文本生成
机器翻译
语音识别
生成图像描述
视频标记
生成对抗网络
0 条评论
下一页