基于深度学习的自然场景文字识别
2020-04-22 14:32:55 0 举报
AI智能生成
论文:基于深度学习的自然场景文字识别
作者其他创作
大纲/内容
特点
检测+识别
端到端
贡献
1、人合成数据集
2、East方法进行检测
3、注意力机制对中英数据进行识别
4、CNN+LSTM+CTC 识别
5、端到端
East文字定位
神经卷积识别
第一章绪论
检测
连通域
滑动窗口
基于深度学习的文本检测方法
region propesal
分割
其他
自然场景文字识别
基于字符
基于单词
第二章深度学习简介
第三章基于深度学习的文字检测
人工合成数据
图-分割(语义+深度)-选定区域-加入文本
Faster Rcnn检测网络
卷积池化层
RPN
区域候选网络:判断背景or前景+修正
ROI Pooling
聚合特征
全连接层
East网络文本检测
FCN 直接产生文本域侧框
对于侧框进行非最大值预测NMS
特征提取
4个级别特征图
特征合并
逐层合并(1放大+2)
输出层
RBOX
5个参数像素到顶右底左的距离及倾斜角+分数
QUAD
8个参数四个顶点坐标+分数
缺点
较大较长的文本检测不好
本文改进
加入1x5卷积核
CTPN网络进行文字检测
(CONNECTION TEXT PROPOSAL NETWORK)
(CONNECTION TEXT PROPOSAL NETWORK)
直接预测文本的竖直位置
-VGG-feature map-卷积-取锚点-神经网络-全连接256维向量
检测
分数层(背景前景)
output
效果图
边框层-回归层
识别
第四章基于深度学习的文字识别
基于注意力机制的文字识别
无注意力机制
encoder 和 decoder
特点:全文编码解码程序相同,无针对性
注意力机制
编码解码有权重
基于CNN
+LSTM
+CTCLOSS
的文字识别
+LSTM
+CTCLOSS
的文字识别
卷积+池化,输出feature map
长短时间记忆输出文字序列信息
LSTM:通过控制门状态控制传输状态
1、遗忘阶段:选择性遗忘
2、选择记忆阶段
3、输出阶段
不用RNN
因为rnn是机械叠加记忆
用ctc损失函数代替softmax loss 函数
第五章总结展望
弯曲文本
漫画字体
收藏
0 条评论
下一页