卷积神经网络知识点笔记总结
2022-10-21 10:23:29 0 举报
AI智能生成
卷积神经网络知识点笔记总结
作者其他创作
大纲/内容
概念
一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习(deep learning)的代表算法之一
卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类
也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks, SIANN)
卷积神经网络仿造生物的视知觉(visual perception)机制构建,可以进行监督学习和非监督学习
结构
输入层
卷积神经网络的输入层可以处理多维数据
一维卷积神经网络的输入层接收一维或二维数组,其中一维数组通常为时间或频谱采样
维数组可能包含多个通道
二维卷积神经网络的输入层接收二维或三维数组
三维卷积神经网络的输入层接收四维数组
隐含层
卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑
3类常见构筑在隐含层中的顺序通常为:输入-卷积层-池化层-全连接层-输出
卷积层
卷积核
卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector),类似于一个前馈神经网络的神经元(neuron)
卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连,区域的大小取决于卷积核的大小
卷积层参数
卷积层参数包括卷积核大小、步长和填充,三者共同决定了卷积层输出特征图的尺寸,是卷积神经网络的超参数
其中卷积核大小可以指定为小于输入图像尺寸的任意值,卷积核越大,可提取的输入特征越复杂
随着卷积层的堆叠,特征图的尺寸会逐步减小
激励函数
卷积层中包含激励函数以协助表达复杂特征
激励函数操作通常在卷积核之后,一些使用预激活(preactivation)技术的算法将激励函数置于卷积核之前 [34] 。在一些早期的卷积神经网络研究
池化层
Lp池化
Lp池化是一类受视觉皮层内阶层结构启发而建立的池化模型
随机/混合池化
混合池化(mixed pooling)和随机池化(stochastic pooling)是Lp池化概念的延伸
随机池化会在其池化区域内按特定的概率分布随机选取一值,以确保部分非极大的激励信号能够进入下一个构筑
混合池化可以表示为均值池化和极大池化的线性组合
谱池化
谱池化是基于FFT的池化方法,可以和FFT卷积一起被用于构建基于FFT的卷积神经网络
谱池化有滤波功能,可以在保存输入特征的低频变化信息的同时,调整特征图的大小 [40] 。基于成熟的FFT算法,谱池化能够以很小的计算量完成
全连接层
卷积神经网络中的全连接层等价于传统前馈神经网络中的隐含层
全连接层位于卷积神经网络隐含层的最后部分,并只向其它全连接层传递信号
特征图在全连接层中会失去空间拓扑结构,被展开为向量并通过激励函数
输出层
卷积神经网络中输出层的上游通常是全连接层
学习理论
学习范式
监督学习(supervised learning)
卷积神经网络在监督学习中使用BP框架进行学习,是最早在BP框架进行学习的深度算法之一
卷积神经网络中的BP分为三部分,即全连接层与卷积核的反向传播和池化层的反向通路
非监督学习(unsupervised learning)
优化
正则化(regularization)
在神经网络算法的各类正则化方法都可以用于卷积神经网络以防止过度拟合
常见的正则化方法包括Lp正则化(Lp-norm regularization)、随机失活(spatial dropout)和随机连接失活(drop connect)
分批归一化(Batch Normalization, BN)
跳跃连接(skip connection)
加速
通用加速技术
卷积神经网络可以使用和其它深度学习算法类似的加速技术以提升运行效率,包括量化(quantization)、迁移学习(transfer learning)等
量化即在计算中使用低数值精度以提升计算速度,该技术在一些深度算法中有得到尝试。对于卷积神经网络
通常为使用在标签数据下完成学习的卷积核权重初始化新的卷积神经网络,对非标签数据进行迁移,或应用于其它标签数据以缩短学习过程
FFT卷积
权重稀疏化
构筑与算法
一维构筑
时间延迟网络(Time Delay Neural Network, TDNN)
TDNN是一类应用于语音识别问题的一维卷积神经网络,也是历史上最早被提出的卷积神经网络算法之一
TDNN的学习目标为对FFT变换的3个语音音节/b,d,g/进行分类,其隐含层完全由单位步长,无填充的卷积层组成
结构
(3)×16×8的卷积层(步长为1,无填充,Sigmoid函数)
(5)×8×3的卷积层(步长为1,无填充,Sigmoid函数)
对9×3的特征图求和输出
WaveNet
WaveNet是被用于语音建模的一维卷积神经网络
特点是采用扩张卷积和跳跃连接提升了神经网络对长距离依赖的学习能力
二维构筑
LeNet-5
LeNet-5是一个应用于图像分类问题的卷积神经网络
学习目标
从一系列由32×32×1灰度图像表示的手写数字中识别和区分0-9
隐含层
2个卷积层、2个池化层构筑和2个全连接层组成
构建方式
(3×3)×1×6的卷积层(步长为1,无填充),2×2均值池化(步长为2,无填充),tanh激励函数
(5×5)×6×16的卷积层(步长为1,无填充),2×2均值池化(步长为2,无填充),tanh激励函数
2个全连接层,神经元数量为120和84
ILSVRC中的优胜算法
AlexNet
AlexNet是2012年ILSVRC图像分类和物体识别算法的优胜者,也是LetNet-5之后受到人工智能领域关注的现代卷积神经网络算法
隐含层
5个卷积层、3个池化层和3个全连接层
构建方式
(11×11)×3×96的卷积层(步长为4,无填充,ReLU),3×3极大池化(步长为2、无填充),LRN
(5×5)×96×256的卷积层(步长为1,相同填充,ReLU),3×3极大池化(步长为2、无填充),LRN
(3×3)×256×384的卷积层(步长为1,相同填充,ReLU)
(3×3)×384×384的卷积层(步长为1,相同填充,ReLU)
(3×3)×384×256的卷积层(步长为1,相同填充,ReLU),3×3极大池化(步长为2、无填充)
3个全连接层,神经元数量为4096、4096和1000
ZFNet
ZFNet是2013年ILSVRC图像分类算法的优胜者,其结构与AlexNet相近,仅将第一个卷积层的卷积核大小调整为7×7、步长减半
性质
连接性
卷积神经网络中卷积层间的连接被称为稀疏连接
相比于前馈神经网络中的全连接,卷积层中的神经元仅与其相邻层的部分,而非全部神经元相连
表征学习
作为深度学习的代表算法,卷积神经网络具有表征学习能力,即能够从输入信息中提取高阶特征
卷积神经网络中的卷积层和池化层能够响应输入特征的平移不变性,即能够识别位于空间不同位置的相近特征
能够提取平移不变特征是卷积神经网络在计算机视觉问题中得到应用的原因之一
生物学相似性
0 条评论
下一页