首页  流程图  详情

EL抽取流程图

2021-12-27 23:00:29   4  举报





为你推荐

查看更多



信息抽取架构图

El problema de la subjetivación

EL01

Código Civil para el Distrito Federal

PAQUETES VALLE DE ELÍ

关系抽取流程图

EL抽取流程

开发流程图

作者其他创作

大纲/内容

入队

第二次修复

读取原始结果并写入到数据库

出队

监听队列

待处理队列

第一次修复

人工处理

第三次修复

数据检查

IDRP待上传抽取队列

数据修复线程

开始

是否需要人工处理

是

下载抽取结果

添加到最终EXCEL

标记为需要人工处理

通过

未通过

IDRP已上传未抽取队列

文档监控线程

模拟登录IDRP

否

注：数据检查： • 金额和比例是否符合浮点数规则 • 【总额 * 第一笔费用比例 = 第一笔费用金额】是否成立 • 日期格式是否符合规则。eg：yyyy年MM月dd日 • 合同编号是否符合规则，EL开头，长度为13 • 货币单位，是否包含【元】 • 币种，是否在预设币种中。eg：人民币、RMB、美元、$第一次数据修复： • 去除和替换各个字段中的干扰字符，包括OCR误识别的字符。 • 总额、第一笔费用、第一笔费用比例关系修复 a. 三者都有值，总额和第一笔金额位数不一致（推断是OCR识别漏掉了字符） b. 第一笔费用金额无值，总额和第一笔费用比例有值 c. 总额无值，第一笔费用金额和第一笔费用比例有值 d. 第一笔费用比例无值，第一笔费用金额和总额有值第二次数据修复： • 根据【总额说明】，用正则匹配出【总额】 • 根据【第一笔费用说明】，用正则匹配出【第一笔费用金额】、【第一笔费用比例】、【第一笔费用付款时间】 • 根据【IT费用说明】，用正则匹配出【IT费用比例】 • 合同编号由文件名中匹配得出第三次数据修复： • 读取PDF首页，用正则匹配出【签订日期】或者【合同编号】解析PDF结构，抽出【收费节点】，通过“总额”、“总服务费用”，“日内”，“IT”等等关键词，找出【总额】、【第一笔费用付款时间】等的所在子句，然后再按第二次数据修复的规则进行匹配

OCR(转换为可编辑PDF)

新建IDRP抽取任务

监测EL所在的共享目录

存储到数据库

等待人工处理

有新文档放入

IDRP模拟器