Detection in ImageNet 2016
2017-01-17 11:10:32 0 举报
AI智能生成
ImageNet 2016 Detection
作者其他创作
大纲/内容
Video Detection
算法流程
在视频帧上应用目标检测算法
利用视频的时序信息和上下文信息修正检测结果
基于高质量检测窗口的跟踪轨迹进一步修正检测结果
重点
单帧目标检测
目标检测框架和检测技巧的选择
训练数据的选取
VID数据集:30类,3862个视频片段,>112万帧
缺点:同一个视频片段背景单一,数据多样性差
从ILSVRC DET,ILSVRC LOC和COCO DET数据中抽取包含VID类别的图片扩充
平衡样本,去冗余
扩充数据集可提升10%的检测精度
网络结构的选择
同样的训练数据,基于ResNet101的Faster R-CNN比基于VGG16的检测精度高12%
2016主流:ResNet/Inception, GBD-Net
改进分类损失
通过视频中的时序和上下文信息辅助处理运动模糊、低分辨率、遮挡等问题
MGP-运动指导传播
单帧检测存在漏检,相邻帧可能包含这些目标
借助光流信息将当前帧结果前向后向传播
经过MGP处理可以提高目标的召回率
MCP-多上下文抑制
单个视频中只会出现较少几类目标,且这些类别间有共现关系
对整个视频段上的检测结果进行统计分析
对所有检测窗口按得分排序
选出得分较高的类别
剩余得分较低的类别可能是误检,对其得分进行抑制
经过MCS处理后的检测结果中正确的类别靠前,错误的类别靠后,提升了目标检测精度
利用跟踪信息修正
使用图像检测算法取得较好的检测结果
从中选择检测得分最高的目标作为跟踪的起始锚点
基于选择的锚点向前向后在整个视频片段上进行跟踪,生成跟踪轨迹
从剩余目标中选择得分最高的进行跟踪
算法迭代进行,可以用得分阈值作为终止条件
网络选择与训练技巧
VID任务的评价标准
时序一致性:计算每个目标跟踪轨迹的mAP
目标检测mAP:评价每个检测窗口是否精准
保证视频检测中目标的时序一致性
保证每帧图像检测的结果尽量精准
对高质量检测窗口进行跟踪并保证跟踪的质量
对前两步获取到的跟踪结果存在的重叠或临接的情况进行针对性的后处理
解决方案
基于检测和跟踪的目标管道生成方法
检测算法定位较好,召回率低
跟踪算法定位不准,召回率高
MCG-ICT-CAS的融合算法提高了12.1% mAP
功能
利用context信息
GBD-Net[1]
CUImage ImageNet No1
BaseNetwork - ResNet-269
利用双向门口呢的CNN网络在不同尺度的上下文窗口中选择性地传递信息,以此为context建模
motivation
对context信息在候选窗口分类过程中起到的作用的分析
context信息失灵时不灵,因此要选择性的利用
采集context信息的方式
直接在目标窗口基础上放大窗口获得更多context信息,或缩小窗口以保留更多的目标细节,以此得到多个support regions
双向连接的网络让不同尺度和分辨率的信息在每个support regions之间相互传递,综合学习到最优的特征
由于并非有所的context都能给决策带来增益,因此在双向互通的连接上加了一个门,控制context信息的相互传播
Dilation as context
Global context
改进分类的损失
RPN改进
CUImage和海康 都源于CRAFT
网络选择与训练技巧
ResNet / Inception-v4 / Identity mapping[9]
不同的网络通常收敛到不同的极值点
网络的差异性是模型融合获得较大提升的关键
训练目标检测模型之前,具有针对性的模型与训练通常可以使得最后训练的目标检测模型能收敛到更优的位置
海康
初始化global context的分支时使用与训练的模型效果远好于随机初始化
用ILSVRC LOC的数据先在1000类上预训练一个惊喜分类的目标检测模型,再迁移到DET数据上训练200类模型
CUImage
在1000类Image-centric方式训练分类网络后,又采取基于ROI-pooling的Object-centric方式训练分类网络
预训练网络使最终目标检测模型的mAP提升约1%
测试技巧
多尺度测试,窗口微调,水平翻转,多窗口投票,多模型融合,NMS阈值调整
CUImage[14], Hikivision[15], Trimps Soushen[16], 360+MCG-ICT-CAS_DET[12]都用了几乎一致的融合策略
先用一个或多个模型的RPN网络产生固定的ROI
再把这些ROI经过不同模型得到的分类和回归结果相加,得到最终的融合结果
经过多重融合方法的实验,分数相加的方法能够获得较好的融合性能
0 条评论
下一页