EL抽取流程图
2021-12-27 23:00:29 4 举报
登录查看完整内容
EL抽取流程
作者其他创作
大纲/内容
入队
第二次修复
读取原始结果并写入到数据库
出队
监听队列
待处理队列
第一次修复
人工处理
第三次修复
数据检查
IDRP待上传抽取队列
数据修复线程
开始
是否需要人工处理
是
下载抽取结果
添加到最终EXCEL
标记为需要人工处理
通过
未通过
IDRP已上传未抽取队列
文档监控线程
模拟登录IDRP
否
注:数据检查: • 金额和比例是否符合浮点数规则 • 【总额 * 第一笔费用比例 = 第一笔费用金额】是否成立 • 日期格式是否符合规则。eg:yyyy年MM月dd日 • 合同编号是否符合规则,EL开头,长度为13 • 货币单位,是否包含【元】 • 币种,是否在预设币种中。eg:人民币、RMB、美元、$第一次数据修复: • 去除和替换各个字段中的干扰字符,包括OCR误识别的字符。 • 总额、第一笔费用、第一笔费用比例关系修复 a. 三者都有值,总额和第一笔金额位数不一致(推断是OCR识别漏掉了字符) b. 第一笔费用金额无值,总额和第一笔费用比例有值 c. 总额无值,第一笔费用金额和第一笔费用比例有值 d. 第一笔费用比例无值,第一笔费用金额和总额有值第二次数据修复: • 根据【总额说明】,用正则匹配出【总额】 • 根据【第一笔费用说明】,用正则匹配出【第一笔费用金额】、【第一笔费用比例】、【第一笔费用付款时间】 • 根据【IT费用说明】,用正则匹配出【IT费用比例】 • 合同编号由文件名中匹配得出第三次数据修复: • 读取PDF首页,用正则匹配出【签订日期】或者【合同编号】解析PDF结构,抽出【收费节点】,通过“总额”、“总服务费用”,“日内”,“IT”等等关键词,找出【总额】、【第一笔费用付款时间】等的所在子句,然后再按第二次数据修复的规则进行匹配
OCR(转换为可编辑PDF)
新建IDRP抽取任务
监测EL所在的共享目录
存储到数据库
等待人工处理
有新文档放入
IDRP模拟器
0 条评论
回复 删除
下一页