计算机视觉的任务
2021-02-16 19:55:14 35 举报
AI智能生成
计算机视觉是一门研究如何使机器“看”世界的科学,它试图理解和解析从图像或多维数据中获取的信息。其主要任务包括图像识别、目标检测、场景理解与跟踪等。首先,图像识别是识别和分类图像中的物体或场景;其次,目标检测是在图像中找到并定位特定目标的位置;再者,场景理解是对图像中的场景进行深入的语义分析,以获取更丰富的信息;最后,跟踪则是在视频序列中持续追踪目标的位置和运动。这些任务的目标是让机器能够像人一样理解视觉信息,从而实现自主导航、无人驾驶、智能监控等功能。
作者其他创作
大纲/内容
计算机视觉low-level任务
去雨、去雾、去模糊、去马赛克
图像修复 Image Inpainting
图像去噪、图像增强与图像恢复 Denoising、Enhancement、Restoration
图像质量评价 Image Quality Assessment
超分辨率重建 Super Resolution
是指从观测到的低分辨率图像重建出相应的高分辨率图像
SRCNN是将深度学习引入分辨率重建的开山之作,结构类似AE,只用了3层CNN,基于此的改进还有DRCN,ESPCN
既然是生成图片那就有必要考虑生成模型 GAN了,就有了SRGAN,其出发点是传统的方法一般处理的是较小的放大倍数,当图像的放大倍数在4以上时,很容易使得到的结果显得过于平滑,而缺少一些细节上的真实感。因此SRGAN使用GAN来生成图像中的细节,同时也改进了损失函数。放一张SRGAN的结构图
图像压缩与视频压缩
纹理生成(texture synthesis)和风格迁移(style transform)
问题定义
给定一小张包含特定纹理的图像,纹理合成旨在生成更大的包含相同纹理的图像。给定一张普通图像和一张包含特定绘画风格的图像,风格迁移旨在保留原图内容的同时,将给定风格迁移到该图中
Gram矩阵
给定D×H×W的深度卷积特征,我们将其转换为D×(HW)的矩阵X,则该层特征对应的Gram矩阵定义为[公式]。通过外积,Gram矩阵捕获了不同特征之间的共现关系
基本思路
特征逆向工程(feature inversion)
给定一个中间层特征,我们希望通过迭代优化,产生一个特征和给定特征接近的图像。此外,特征逆向工程也可以告诉我们中间层特征中蕴含了多少图像中信息。可以看出,低层的特征中几乎没有损失图像信息,而高层尤其是全连接特征会丢失大部分的细节信息。从另一方面讲,高层特征对图像的颜色和纹理变化更不敏感
纹理生成基本思路
对给定纹理图案的Gram矩阵进行特征逆向工程。使生成图像的各层特征的Gram矩阵接近给定纹理图像的各层Gram。低层特征倾向于捕获细节信息,而高层特征可以捕获更大面积的特征
风格迁移基本思路
优化目标包括两项,使生成图像的内容接近原始图像内容,及使生成图像风格接近给定风格。风格通过Gram矩阵体现,而内容则直接通过神经元激活值体现
2.5D重建
运动/光流估计
传统的方法包括局部法和全局法,这里CNN取代的就是全局法
视差/深度图估计
深度图估计和运动估计是类似问题,唯一不同的是单目可以估计深度图,而运动不行
视频去隔行/内插帧
新视角图像生成
3D 场景重建
摄像头标定
内参数
外参数
3D点云
RGB-D
多视角重建
MVS(multiple view stereo),就是多帧匹配,是双目匹配的推广,这样采用CNN来解决也合理
region growing
PMVS
depth-fusion
KinectFusion
运动重建
SLAM (Mono, Stereo, RGB-D, LiDAR)/SFM
网络理解
网络压缩 Network Compression
方法
低秩近似
用低秩矩阵近似原有权重矩阵。例如,可以用SVD得到原矩阵的最优低秩近似,或用Toeplitz矩阵配合Krylov分解近似原矩阵
剪枝 Pruning
在训练结束后,可以将一些不重要的神经元连接(可用权重数值大小衡量配合损失函数中的稀疏约束)或整个滤波器去除,之后进行若干轮微调。实际运行中,神经元连接级别的剪枝会使结果变得稀疏,不利于缓存优化和内存访问,有的需要专门设计配套的运行库。相比之下,滤波器级别的剪枝可直接运行在现有的运行库下,而滤波器级别的剪枝的关键是如何衡量滤波器的重要程度。例如,可用卷积结果的稀疏程度、该滤波器对损失函数的影响、或卷积结果对下一层结果的影响来衡量
量化 Quantization
对权重数值进行聚类,用聚类中心数值代替原权重数值,配合Huffman编码,具体可包括标量量化或乘积量化。但如果只考虑权重自身,容易造成量化误差很低,但分类误差很高的情况。因此,Quantized CNN优化目标是重构误差最小化。此外,可以利用哈希进行编码,即被映射到同一个哈希桶中的权重共享同一个参数值
降低数据数值范围
默认情况下数据是单精度浮点数,占32位。有研究发现,改用半精度浮点数(16位)几乎不会影响性能。谷歌TPU使用8位整型来表示数据。极端情况是数值范围为二值或三值(0/1或-1/0/1),这样仅用位运算即可快速完成所有计算,但如何对二值或三值网络进行训练是一个关键。通常做法是网络前馈过程为二值或三值,梯度更新过程为实数值。此外,有研究认为,二值运算的表示能力有限,因此其使用一个额外的浮点数缩放二值卷积后的结果,以提升网络表示能力。
精简结构设计
有研究工作直接设计精简的网络结构。例如,(1). 瓶颈(bottleneck)结构及1×1卷积。这种设计理念已经被广泛用于Inception和ResNet系列网络设计中。(2). 分组卷积。(3). 扩张卷积。使用扩张卷积可以保持参数量不变的情况下扩大感受野
知识蒸馏 Knowledge distillation
训练小网络以逼近大网络,但应该如何去逼近大网络仍没有定论
网络可视化(visualizing)和网络理解(understanding)
方法
直接可视化第一层滤波器
由于第一层卷积层的滤波器直接在输入图像中滑动,我们可以直接对第一层滤波器进行可视化。可以看出,第一层权重关注于特定朝向的边缘以及特定色彩组合。这和生物的视觉机制是符合的。但由于高层滤波器并不直接作用于输入图像,直接可视化只对第一层滤波器有效
t-SNE
对图像的fc7或pool5特征进行低维嵌入,比如降维到2维使得可以在二维平面画出。具有相近语义信息的图像应该在t-SNE结果中距离相近。和PCA不同的是,t-SNE是一种非线性降维方法,保留了局部之间的距离。下图是直接对MNIST原始图像进行t-SNE的结果。可以看出,MNIST是比较容易的数据集,属于不同类别的图像聚类十分明显
可视化中间层激活值
对特定输入图像,画出不同特征图的响应。观察发现,即使ImageNet中没有人脸或文字相关的类别,网络会学习识别这些语义信息,以辅助后续的分类
最大响应图像区域
选择某一特定的中间层神经元,向网络输入许多不同的图像,找出使该神经元响应最大的图像区域,以观察该神经元用于响应哪种语义特征。是“图像区域”而不是“完整图像”的原因是中间层神经元的感受野是有限的,没有覆盖到全部图像
输入显著性图
对给定输入图像,计算某一特定神经元对输入图像的偏导数。其表达了输入图像不同像素对该神经元响应的影响,即输入图像的不同像素的变化会带来怎样的神经元响应值的变化。Guided backprop只反向传播正的梯度值,即只关注对神经元正向的影响,这会产生比标准反向传播更好的可视化效果
梯度上升优化
选择某一特定的神经元,计算某一特定神经元对输入图像的偏导数,对输入图像使用梯度上升进行优化,直到收敛。此外,我们需要一些正则化项使得产生的图像更接近自然图像。此外,除了在输入图像上进行优化外,我们也可以对fc6特征进行优化并从其生成需要的图像
遮挡实验(occlusion experiment)
用一个灰色方块遮挡住图像的不同区域,之后前馈网络,观察其对输出的影响。对输出影响最大的区域即是对判断该类别最重要的区域。从下图可以看出,遮挡住狗的脸对结果影响最大
对抗样本(adversarial examples)
选择一张图像和一个不是它真实标记的类别,计算该类别对输入图像的偏导数,对图像进行梯度上升优化。实验发现,在对图像进行难以察觉的微小改变后,就可以使网络以相当大的信心认为该图像属于那个错误的类别。实际应用中,对抗样本会将会对金融、安防等领域产生威胁。有研究认为,这是由于图像空间非常高维,即使有非常多的训练数据,也只能覆盖该空间的很小一部分。只要输入稍微偏离该流形空间,网络就难以得到正常的判断
计算机视觉感知任务
准确表示单个物体对象信息
准确表示单个物体对象信息
计算机视觉三大任务
分类 Classfication
通用图像分类 image classification
数据集
CIFAR-100、ImageNet
网络结构
LeNet,AlexNet,VGGNet, NIN, GoogleNet, Inception v3/v4, Highway Network, ResNet, DenseNet,SE-Net
细粒度图像分类 fine-grained image classification
基本思路
细粒度图像分类的经典做法是先定位出目标的不同部位,例如鸟的头、脚、翅膀等,之后分别对这些部位提取特征,最后融合这些特征进行分类。这类方法的准确率较高,但这需要对数据集人工标注部位信息。目前细粒度分类的一大研究趋势是不借助额外监督信息,只利用图像标记进行学习,其以基于双线性CNN的方法为代表
方法
双线性CNN bilinear CNN
通过计算卷积描述向量(descriptor)的外积来考察不同维度之间的交互关系。由于描述向量的不同维度对应卷积特征的不同通道,而不同通道提取了不同的语义特征,因此,通过双线性操作,可以同时捕获输入图像的不同语义特征之间的关系
精简双线性汇合
双线性汇合的结果十分高维,这会占用大量的计算和存储资源,同时使后续的全连接层的参数量大大增加。许多后续研究工作旨在设计更精简的双线性汇合策略,大致包括以下三大类:(1). PCA降维。在双线性汇合前,对深度描述向量进行PCA投影降维,但这会使各维不再相关,进而影响性能。一个折中的方案是只对一支进行PCA降维。(2). 近似核估计。可以证明,在双线性汇合结果后使用线性SVM分类等价于在描述向量间使用了多项式核。由于两个向量外积的映射等于两个向量分别映射之后再卷积,有研究工作使用随机矩阵近似向量的映射。此外,通过近似核估计,我们可以捕获超过二阶的信息(如下图)。(3). 低秩近似。对后续用于分类的全连接层的参数矩阵进行低秩近似,进而使我们不用显式计算双线性汇合结果
检测/识别 Object Detection
问题定义
在目标定位中,通常只有一个或固定数目的目标,而目标检测更一般化,其图像中出现的目标种类和数目都不定。因此,目标检测是比目标定位更具挑战性的任务。
数据集
PASCAL VOC,MS COCO
网络结构
基于候选区域的目标检测算法(two-stage)
问题思路
使用不同大小的窗口在图像上滑动,在每个区域,对窗口内的区域进行目标定位。即,将每个窗口内的区域前馈网络,其分类分支用于判断该区域的类别,回归分支用于输出包围盒。基于滑动窗的目标检测动机是,尽管原图中可能包含多个目标,但滑动窗对应的图像局部区域内通常只会有一个目标(或没有)。因此,我们可以沿用目标定位的思路对窗口内区域逐个进行处理。但是,由于该方法要把图像所有区域都滑动一遍,而且滑动窗大小不一,这会带来很大的计算开销。
网络结构
R-CNN,fast RCNN,faster RCNN,R-FCN
小结
基于候选区域的目标检测算法通常需要两步:第一步是从图像中提取深度特征,第二步是对每个候选区域进行定位(包括分类和回归)。其中,第一步是图像级别计算,一张图像只需要前馈该部分网络一次,而第二步是区域级别计算,每个候选区域都分别需要前馈该部分网络一次。因此,第二步占用了整体主要的计算开销。R-CNN, Fast R-CNN, Faster R-CNN, R-FCN这些算法的演进思路是逐渐提高网络中图像级别计算的比例,同时降低区域级别计算的比例。R-CNN中几乎所有的计算都是区域级别计算,而R-FCN中几乎所有的计算都是图像级别计算。
基于直接回归的目标检测算法(端到端)
问题思路
基于直接回归的方法不需要候选区域,直接输出分类/回归结果。这类方法由于图像只需前馈网络一次,速度通常更快,可以达到实时。
网络结构
SSD,YOLO,FPN,RetinaNet,CornerNet
弱监督定位
从卷积结果中找到一些较高响应的显著性区域,认为这个区域对应图像中的目标
3D 目标检测
显著目标检测
伪装目标检测
小样本目标检测
分割 Segmentation
语义分割semantic segmentation
问题定义
目标检测基础上进一步判断图像中哪些像素属于哪个目标
数据集
PASCAL VOC,MS COCO
网络结构
FCN,DeepLab,Parsenet,Segnet,Mask R-CNN,RefineNet,PSPNet,U-Net
全卷积神经网络FCN
开山之作
医疗图像分割
UNET
技巧
扩张卷积
经常用于分割任务以增大有效感受野的一个技巧。标准卷积操作中每个输出神经元对应的输入局部区域是连续的,而扩张卷积对应的输入局部区域在空间位置上不连续。扩张卷积向标准卷积运算中引入了一个新的超参数扩张量(dilation),用于描述输入局部区域在空间位置上的间距。当扩张量为1时,扩张卷积退化为标准卷积。扩张卷积可以在参数量不变的情况下有效提高感受野。例如,当有多层3×3标准卷积堆叠时,第l 层卷积(l 从1开始)的输出神经元的感受野为2l +1。与之相比,当有多层3×3扩张卷积堆叠,其中第l 层卷积的扩张量为2^{l-1}时,第l 层卷积的输出神经元的感受野为2^{l +1}-1。感受野越大,神经元能利用的相关信息越多。和经典计算机视觉手工特征相比,大的感受野是深度学习方法能取得优异性能的重要原因之一
条件随机场
条件随机场是一种概率图模型,常被用于微修全卷积网络的输出结果,使细节信息更好。其动机是距离相近的像素、或像素值相近的像素更可能属于相同的类别。此外,有研究工作用循环神经网络(recurrent neural networks)近似条件随机场。条件随机场的另一弊端是会考虑两两像素之间的关系,这使其运行效率不高
利用低层信息
综合利用低层结果可以弥补随着网络加深丢失的细节和边缘信息,利用方式可以是加和(如FCN)或沿通道方向拼接(如U-net),后者效果通常会更好一些
场景解析
场景解析是一种特殊的语义分割,对整幅场景图像进行语义像素标注,典型应用是自动驾驶领域的道路环境的语义分割
实例分割 instance segmentation
2D 实例分割
问题定义
语义分割不区分属于相同类别的不同实例。例如,当图像中有多只猫时,语义分割会将两只猫整体的所有像素预测为“猫”这个类别。与此不同的是,实例分割需要区分出哪些像素属于第一只猫、哪些像素属于第二只猫
基本思路
目标检测+语义分割。先用目标检测方法将图像中的不同实例框出,再用语义分割方法在不同包围盒内进行逐像素标记
网络结构
Mask R-CNN
用FPN进行目标检测,并通过添加额外分支进行语义分割(额外分割分支和原检测分支不共享参数),即Mask R-CNN有三个输出分支(分类、坐标回归、和分割)
3D 实例分割
全景分割 Panoptic Segmentation
问题定义
全景分割即同时实现对背景的语义分割和前景的实例分割
视频目标分割 Video Object Segmentation
问题定义
视频目标分割是集检测、跟踪、分割、ReID于一体的计算机视觉任务,提供了更加丰富的信息,标注成本很高,计算量也比较大,近年来随着高性能设备和相关数据集的出现,也越来越受到关注。
图像感知
人脸技术
人脸验证/识别(face verification/recognition)
问题定义
人脸验证是给定两张图像、判断其是否属于同一个人,而人脸识别是回答图像中的人是谁。一个人脸验证/识别系统通常包括三大步:检测图像中的人脸,特征点定位、及对人脸进行验证/识别。人脸验证/识别的难题在于需要进行小样本学习。通常情况下,数据集中每人只有对应的一张图像,这称为一次学习(one-shot learning)
基本思路
当作分类问题(需要面对非常多的类别数),或者当作度量学习问题。如果两张图像属于同一个人,我们希望它们的深度特征比较接近,否则,我们希望它们不接近。之后,根据深度特征之间的距离进行验证(对特征距离设定阈值以判断是否是同一个人),或识别(k近邻分类)
方法
DeepFace
第一个将深度神经网络成功用于人脸验证/识别的模型。DeepFace使用了非共享参数的局部连接。这是由于人脸不同区域存在不同的特征(例如眼睛和嘴巴具有不同的特征),经典卷积层的“共享参数”性质在人脸识别中不再适用。因此,人脸识别网络中会采用不共享参数的局部连接。其使用孪生网络进行人脸验证。当两张图像的深度特征小于给定阈值时,认为其来自同一个人
FaceNet
利用三元损失,希望和负样本之间的距离以一定间隔(如0.2)大于和正样本之间的距离。此外,输入三元的选择不是随机的,否则由于和负样本之间的差异很大,网络学不到什么东西。选择最困难的三元组(即最远的正样本和最近的负样本)会使网络陷入局部最优。FaceNet采用半困难策略,选择比正样本远的负样本
大间隔交叉熵损失
近几年的一大研究热点。由于类内波动大而类间相似度高,有研究工作旨在提升经典的交叉熵损失对深度特征的判断能力。例如,L-Softmax通过使对应类别的参数向量和深度特征夹角增大,以使优化目标变得更困难。 A-Softmax进一步约束L-Softmax的参数向量长度为1,使训练更集中到优化深度特征和夹角上。实际中,L-Softmax和A-Softmax都很难收敛,训练时采用了退火方法,从标准softmax逐渐退火至L-Softmax或A-Softmax
人脸生成、编辑、反欺骗
图像检索(image retrieval)
基本思路
首先,设法从图像中提取一个合适的图像的表示向量。其次,对这些表示向量用欧式距离或余弦距离进行最近邻搜索以找到相似的图像。最后,可以使用一些后处理技术对检索结果进行微调。可以看出,决定一个图像检索算法性能的关键在于提取的图像表示的好坏
方法
无监督图像检索
问题描述
无监督图像检索旨在不借助其他监督信息,只利用ImageNet预训练模型作为固定的特征提取器来提取图像表示
思路
深度全连接特征
由于深度全连接特征提供了对图像内容高层级的描述,且是“天然”的向量形式,一个直觉的思路是直接提取深度全连接特征作为图像的表示向量。但是,由于全连接特征旨在进行图像分类,缺乏对图像细节的描述,该思路的检索准确率一般
深度卷积特征
由于深度卷积特征具有更好的细节信息,并且可以处理任意大小的图像输入,目前的主流方法是提取深度卷积特征,并通过加权全局求和汇合(sum-pooling)得到图像的表示向量。其中,权重体现了不同位置特征的重要性,可以有空间方向权重和通道方向权重两种形式
CroW
深度卷积特征是一个分布式的表示。虽然一个神经元的响应值对判断对应区域是否包含目标用处不大,但如果多个神经元同时有很大的响应值,那么该区域很有可能包含该目标。因此,CroW把特征图沿通道方向相加,得到一张二维聚合图,并将其归一化并根号规范化的结果作为空间权重。CroW的通道权重根据特征图的稀疏性定义,其类似于自然语言处理中TF-IDF特征中的IDF特征,用于提升不常出现但具有判别能力的特征
Class weighted features
该方法试图结合网络的类别预测信息来使空间权重更具判别能力。具体来说,其利用CAM来获取预训练网络中对应各类别的最具代表性区域的语义信息,进而将归一化的CAM结果作为空间权重
PWA
深度卷积特征的不同通道对应于目标不同部位的响应。因此,PWA选取一系列有判别能力的特征图,将其归一化之后的结果作为空间权重进行汇合,并将其结果级联起来作为最终图像表示
有监督图像检索
问题描述
有监督图像检索首先将ImageNet预训练模型在一个额外的训练数据集上进行微调,之后再从这个微调过的模型中提取图像表示。为了取得更好的效果,用于微调的训练数据集通常和要用于检索的数据集比较相似。此外,可以用候选区域网络提取图像中可能包含目标的前景区域
思路
孪生网络(siamese network)
使用二元或三元(++-)输入,训练模型使相似样本之间的距离尽可能小,而不相似样本之间的距离尽可能大
半监督图像检索
对抗图像检索
组合查询图像检索
草图的图像检索
域适应图像检索
文本图像
手写文本
场景文本
医学影像
遥感与航空影像
视频感知
目标跟踪(object tracking)
单目标跟踪
问题描述
目标跟踪旨在跟踪一段视频中的目标的运动情况。通常,视频第一帧中目标的位置会以包围盒的形式给出,我们需要预测其他帧中该目标的包围盒。目标跟踪类似于目标检测,但目标跟踪的难点在于事先不知道要跟踪的目标具体是什么,因此无法事先收集足够的训练数据以训练一个专门的检测器
方法
孪生网络
利用孪生网络,一支输入第一帧包围盒内图像,另一支输入其他帧的候选图像区域,输出两张图的相似度。我们不需要遍历其他帧的所有可能的候选区域,利用全卷积网络,我们只需要前馈整张图像一次。通过互相关操作(卷积),得到二维的响应图,其中最大响应位置确定了需要预测的包围盒位置。基于孪生网络的方法速度快,能处理任意大小的图像
CFNet
相关滤波通过训练一个线性模板来区分图像区域和它周围区域,利用傅里叶变换,相关滤波有十分高效的实现。CFNet结合离线训练的孪生网络和在线更新的相关滤波模块,提升轻量级网络的跟踪性能
多目标跟踪
目标跟踪与分割
长期跟踪
3D目标跟踪
细胞跟踪
目标跟踪鲁棒性
多模态目标跟踪
视频检索 video retrieval
视频中人的动作五大任务
动作识别/视频分类 Action Recognition
问题定义
对剪辑后的一段包含特定动作的视频进行分类
数据集
HMDB-51
51类、6,766剪辑视频、每个视频不超过10秒、分辨率320 [公式] 240、共2 GB。视频源于YouTube和谷歌视频,内容包括人面部、肢体、和物体交互的动作这几大类
UCF-101
101类、13,320视频剪辑、每个视频不超过10秒、共27小时、分辨率320 [公式] 240、共6.5 GB。视频源于YouTube,内容包含化妆刷牙、爬行、理发、弹奏乐器、体育运动五大类。每类动作由25个人做动作,每人做4-7组
Sports-1M
487类、1,100,000视频(70%训练、20%验证、10%测试)。内容包含各种体育运动
Charades
157类、9,848未剪辑视频(7,985训练、1,863测试)、每个视频大约30秒。每个视频有多个标记,以及每个动作的开始和结束时间
Kinetics
400类、246k训练视频、20k验证视频、每个视频大约10秒。视频源于YouTube。Kinetics是一个大规模数据集,其在视频理解中的作用有些类似于ImageNet在图像识别中的作用,有些工作用Kinetics预训练模型迁移到其他视频数据集
YouTube-8M
4716类、7M视频、共450,000小时。不论是下载还是训练都很困难
Something-something
174类、108,000视频、每个视频2到6秒。和Kinetics不同,Something-something数据集需要更加细粒度、更加底层交互动作的区分,例如“从左向右推”和“从右向左推
方法
DT和iDT方法
DT利用光流得到视频中的运动轨迹,再沿着轨迹提取特征。iDT对相机运动进行了补偿,同时由于人的运动比较显著,iDT用额外的检测器检测人,以去除人对相邻帧之间投影矩阵估计的影响。这是深度学习方法成熟之前效果最好的经典方法,该方法的弊端是特征维度高(特征比原始视频还要大)、速度慢。实践中,早期的深度学习方法在和iDT结合之后仍能取得一定的效果提升,现在深度学习方法的性能已较iDT有大幅提升,因此iDT渐渐淡出视线
逐帧处理融合
这类方法将视频看成一系列帧的图像组合。网络同时接收属于一个视频片段的若干帧图像(例如15帧),并分别提取其深度特征,之后融合这些图像特征得到该视频片段的特征,最后进行分类。实验发现,使用"slow fusion"效果最好。此外,独立使用单帧图像进行分类即可得到很有竞争力的结果,这说明单帧图像已经包含很多的信息。Slow fusion即使用3D卷积。连续10帧图像前馈网络,第一层卷积核时间方向大小为4,第二、三层卷积核时间方向大小为2
三维卷积
将经典的二维卷积扩展到三维卷积,使之在时间维度也局部连接。例如,可以将VGG的3×3卷积扩展为3×3×3卷积,2×2汇合扩展为2×2×2汇合
Two-stream
采用两个分支。一个分支输入单帧图像,用于提取图像信息,即在做图像分类。另一个分支输入连续10帧的光流(optical flow)运动场,用于提取帧之间的运动信息。由于一个视频片段中的光流可能会沿某个特别方向位移的支配,所以在训练时光流减去所有光流向量的平均值。两个分支网络结构相同,分别用softmax进行预测,最后用直接平均或SVM两种方式融合两分支结果。
ConvLSTM
这类方法是用CNN提取每帧图像的特征,之后用LSTM挖掘它们之间的时序关系
Du等人利用人体姿态估计辅助动作识别 RPAN: An end-to-end recurrent pose-attention network for action recognition in videos. ICCV'17.
CNN+RNN捕获远距离依赖
之前的方法只能捕获几帧图像之间的依赖关系,这类方法旨在用CNN提取单帧图像特征,之后用RNN捕获帧之间的依赖
Non-local network
试图将CNN和RNN合二为一,使每个卷积层都能捕获远距离依赖
动作定位/检测 Action Localization/Dectection
问题定义
在一段未剪辑的视频中找到动作开始和结束的时间,并对动作进行分类
数据集
HUMOS2014/2015
ActivityNet
方法
SCNN
Shou等人提出SCNN,用不同大小的滑动窗产生视频片段,之后用3D候选区域网络判断该视频片段是前景/背景,用3D分类网络判断K+1个类别的分数(包括背景),最后用定位网络判断开始/结束时间。后处理使用非最大抑制(NMS)
TURN TAP
类似于Faster R-CNN
R-C3D
以C3D网络为基础,借鉴Faster R-CNN,对输入视频片段先提取特征,再生成提取候选时序,最后RoI汇合后进行检测
Convolutional-de-convolutional networks
类似于语义分割问题的思路,为了得到对应于每一帧的分类预测分数,Shou等人在3D卷积层之后提出CDC卷积,在空间方向用卷积进行下采样,在时间方向上用转置卷积进行上采样
UntrimmedNets
分类模块用于对每个视频片段进行分类,而选择模块用于给出不同视频片段的重要性。选择模块的实现包括hard selection和soft selection。训练时端到端联合优化
SSN
视频分为三个部分,最终构成全局特征。分类时有动作性分类器和完整性分类器
动作分割(Action Segmentation)
对一段未剪辑视频进行分段,并对每一段视频分配预先定于的动作标签
动作解析(Action Parsing)
在一段动作视频中,定义一连串子动作(sub-action),动作解析即定位这些子动作的开始帧。该任务可更好的进行动作间和动作内部的视频理解
异常检测(anomaly detection)与重点动作识别(Action Spotting)
通常用于判断监控视频中出现的异常事件。
由于训练时只知道一段视频中有/没有异常,而异常事件的种类和发生时刻未知,Sultani等人利用多示例学习,将异常检测问题转化为一个回归排序问题,让异常样本的排序值高于普通样本,训练时让正负样本之间的距离尽可能远
光流
姿态、手势、形态、位姿估计、动作捕捉
姿态估计 Human Pose Estimation
二维图像姿态估计
基于CNN的单人姿态估计方法
Deep Pose、CPM,hourglass以及各种hourglass结构
基于CNN的多人姿态估计方法
two-step framework
先进行行人检测,得到边界框,然后在每一个边界框中检测人体关键点,连接成一个人形,缺点就是受检测框的影响太大,漏检,误检,IOU大小等都会对结果有影响,代表方法就是RMPE
part-based framework
就是先对整个图片进行每个人体关键点部件的检测,再将检测到的部件拼接成一个人形,缺点就是会将不同人的不同部位按一个人进行拼接,代表方法就是openpose
三维图像姿态估计
6D位姿估计 Hand-Object Pose Estimation
手势估计 Gesture Recognition
人体形状估计 Human Pose and Shape Estimation
人体动作捕捉(Human Motion Capture)
行人检测与重识别
行人检测(Pedestrian Detection)
人员重识别(Person Re-Identification,ReID)
拥挤人群计数(Crowd Counting)
步态识别(Gait Recognition)
显著目标检测 Salient Object Detection
计算机视觉认知任务
深入理解整体场景的语义信息
深入理解整体场景的语义信息
视觉关系 Visual Relationship
图像关系检测 Visual Relationship Detection
人物交互 HOI
视觉问答 Visual Question Answering
基本思路
使用CNN从图像中提取图像特征,用RNN从文字问题中提取文本特征,之后设法融合视觉和文本特征,最后通过全连接层进行分类。该任务的关键是如何融合这两个模态的特征。直接的融合方案是将视觉和文本特征拼成一个向量、或者让视觉和文本特征向量逐元素相加或相乘
方法
注意力机制
注意力机制包括视觉注意力(“看哪里”)和文本注意力(“关注哪个词”)两者。HieCoAtten可同时或交替产生视觉和文本注意力。DAN将视觉和文本的注意力结果映射到一个相同的空间,并据此同时产生下一步的视觉和文本注意力
双线性融合
通过视觉特征向量和文本特征向量的外积,可以捕获这两个模态特征各维之间的交互关系。为避免显式计算高维双线性汇合结果,细粒度识别中的精简双线性汇合思想也可用于视觉问答
看图说话
方法
编码-解码网络(encoder-decoder networks)
看图说话网络设计的基本思想,其借鉴于自然语言处理中的机器翻译思路。将机器翻译中的源语言编码网络替换为图像的CNN编码网络以提取图像的特征,之后用目标语言解码网络生成文字描述
Show, attend, and tell
注意力(attention)机制是机器翻译中用于捕获长距离依赖的常用技巧,也可以用于看图说话。在解码网络中,每个时刻,除了预测下一个词外,还需要输出一个二维注意力图,用于对深度卷积特征进行加权汇合。使用注意力机制的一个额外的好处是可以对网络进行可视化,以观察在生成每个词的时候网络注意到图像中的哪些部分
Adaptive attention
之前的注意力机制会对每个待预测词生成一个二维注意力图,但对于像the、of这样的词实际上并不需要借助来自图像的线索,并且有的词可以根据上文推测出也不需要图像信息。该工作扩展了LSTM,以提出“视觉哨兵”机制以判断预测当前词时应更关注上文语言信息还是更关注图像信息。此外,和之前工作利用上一时刻的隐层状态计算注意力图不同,该工作使用当前隐层状态
视频摘要与视频浓缩 video summarization and video synopsis
从原始视频中提取有代表性的关键帧,而视频浓缩将多帧视频合并成一帧。
"看视频说话" video captioning
基本思路和看图说话一致,用编码网络提取视频信息,用解码网络生成文字描述
根据文字生存图片/视频 Image Generation
组合查询图像检索和跨模态图像/视频-文本检索
生成式模型 Generative Models
图片生成
问题描述
这类模型旨在学得数据(图像)的分布,或从该分布中采样得到新的图像。生成式模型可以用于超分辨率重建、图像着色、图像转换、从文字生成图像、学习图像潜在表示、半监督学习等。此外,生成式模型可以和强化学习结合,用于仿真和逆强化学习
方法
显式建模
根据条件概率公式,直接进行最大似然估计对图像的分布进行学习。该方法的弊端是,由于每个像素依赖于之前的像素,生成图像时由于需要从一角开始序列地进行,所以会比较慢
变分自编码器(variational auto-encoder, VAE)
为避免显式建模的弊端,变分自编码器对数据分布进行隐式建模。其认为图像的生成受一个隐变量控制,并假设该隐变量服从对角高斯分布。变分自编码器通过一个解码网络从隐变量生成图像。由于无法直接进行最大似然估计,在训练时,类似于EM算法,变分自编码器会构造似然函数的下界函数,并对这个下界函数进行优化。变分自编码器的好处是,由于各维独立,我们可以通过控制隐变量来控制输出图像的变化因素
生成式对抗网络(generative adversarial networks, GAN)
由于学习数据分布十分困难,生成式对抗网络绕开这一步骤,直接生成新的图像。生成式对抗网络使用一个生成网络G从随机噪声中生成图像,以及一个判别网络D判断其输入图像是真实/伪造图像。在训练时,判别网络D的目标是能判断真实/伪造图像,而生成网络G的目标是使得判别网络D倾向于判断其输出是真实图像。实际中,直接训练生成式对抗网络会遇到mode collapse问题,即生成式对抗网络无法学到完整的数据分布。随后,出现了LS-GAN和W-GAN的改进。和变分自编码器相比,生成式对抗网络的细节信息更好。
视频生成(next frame generation)
利用生成式模型对视频进行生成
0 条评论
下一页