登录免费注册

首页  思维导图  详情

基于深度学习的自然场景文字识别

2020-04-22 14:32:55   0  举报





仅支持查看

AI智能生成

论文：基于深度学习的自然场景文字识别

文字检测识别

深度学习

自然场景

读书笔记

学习笔记

知识管理

作者其他创作

大纲/内容

特点

检测+识别

端到端

贡献

1、人合成数据集

2、East方法进行检测

3、注意力机制对中英数据进行识别

4、CNN+LSTM+CTC 识别

5、端到端

East文字定位

神经卷积识别

第一章绪论

检测

连通域

滑动窗口

基于深度学习的文本检测方法

region propesal

分割

其他

自然场景文字识别

基于字符

基于单词

第二章深度学习简介

第三章基于深度学习的文字检测

人工合成数据

图-分割（语义+深度）-选定区域-加入文本

Faster Rcnn检测网络

卷积池化层

RPN

区域候选网络：判断背景or前景+修正

ROI Pooling

聚合特征

全连接层

East网络文本检测

FCN 直接产生文本域侧框

对于侧框进行非最大值预测NMS

特征提取

4个级别特征图

特征合并

逐层合并（1放大+2）

输出层

RBOX

5个参数像素到顶右底左的距离及倾斜角+分数

QUAD

8个参数四个顶点坐标+分数

缺点

较大较长的文本检测不好

本文改进

加入1x5卷积核

CTPN网络进行文字检测
(CONNECTION TEXT PROPOSAL NETWORK)

直接预测文本的竖直位置

-VGG-feature map-卷积-取锚点-神经网络-全连接256维向量

检测

分数层（背景前景）

output

效果图

边框层-回归层

识别

第四章基于深度学习的文字识别

基于注意力机制的文字识别

无注意力机制

encoder 和 decoder

特点：全文编码解码程序相同，无针对性

注意力机制

编码解码有权重

基于CNN
+LSTM
+CTCLOSS
的文字识别

卷积+池化，输出feature map

长短时间记忆输出文字序列信息

LSTM:通过控制门状态控制传输状态

1、遗忘阶段：选择性遗忘

2、选择记忆阶段

3、输出阶段

不用RNN

因为rnn是机械叠加记忆

用ctc损失函数代替softmax loss 函数

第五章总结展望

弯曲文本

漫画字体

基于深度学习的自然场景文字识别

 收藏

立即使用

基于深度学习的自然场景文字识别

职业：暂无













评论

0 条评论

下一页

为你推荐

查看更多



深度强化学习模型

【算法模型图】深度学习方法

基于深度学习的车牌识别算法

调制方法的识别

分类图关系图、自然场景

【时间轴】大模型、深度学习、机器学习发展历程

【时间轴】大模型、深度学习、机器学习发展历程

基于图像的深度学习项目



图形选择

思维导图

主题

补充说明

AI生成





修改AI描述

去编辑

重新生成

提示 

关闭后当前内容将不会保存，是否继续？

取消

确定