装载画像流程图
2020-10-29 09:53:23 0 举报
生产消费模型流程图
作者其他创作
大纲/内容
单表抽取
遍历所有得pid,获取符合条件得pid
结构化数据大写转小写1.md5用于更新,计算md5时需要注意文档结构顺序2.删除标记如果src中有删除标记,那么删除mongo,es中对应的文书。es需要判断是否删除整个诊次
统计该批次的就诊次数量、人数,读取得总数量,并追加写入到mongodb
任务结束
初始化
画像根据画像模型中的路径取值和条件合成对应字段
redis订阅者通收到消息后,提交到线程池
是否补装载
send
补装载根据关联zz任务号获得失败mongo表获取pid,根据关联装载任务号获取抽取任务号列表
lock/condition
合并已处理数据根据未处理中的pid合并已处理hzlb_src中的数据
遍历抽取表,获取符合条件得一批pid,和文书名称以及对应得抽取任务号
结构化增加md5、删除标记、创建时间、更新时间、文书类型和原始文书类型
以pid为key,表名称为值进行合并
subscribe
按条件装载
多个抽取库
分词前处理
生产者
redis
批量入库根据md5更新mongodb,根据hzlb合成es结构数据
任务启动
科室检查进行清洗文书调用分词如果concurrenthashmap占用内存小于指定size,那么发送请求至uwsgi
分词后处理
是
未处理抽取任务列表,可以是多中心任务
数据加工去隐私,年龄加工等
创建kafka topic1.如果不存在进行创建,如果创建失败则循环再次创建,如果循环次数内均失败,则中断。2.分区数的计算规则总人数/处理性能总人数因自动获取读取较耗时故参数处理性能由测试得出,例如4wpid/h分区数介于[60-4000]/node
异常批次数据的pid写入到对应zz任务号表,用于补装载
kafka
是否为多库
三组线程池并行
参数初始化获取指定版本号的抽取、检索和画像模型。日志输出参数
批量读取每读取5个kafka msg读取一次数据,如果小于指定大小那么继续读取,并将这批kafka msg是哪个offset保留下来
批处理,读取指定大小数据
按条件装载可以按年、住院或者门诊装载
ppid
遍历所有表,读取对应得pid
kafka消费者通过参数控制可以继续消费可以重新消费
创建es index如果存在那么进行删除后再创建。索引成功后创建mapping分布式锁
排期橙色部分暂未开发,绿色部分正在调试。1.初始化和生产者部分需要1-3天(10.22--10.27)2.分词前和分词后部分需要3-5天(10.27--10.31)
否
词清洗词归一
src数据写入到mongodb,异常批次数据的pid写入到对应得zz任务号表,用于补装载
根据抽取任务号列表,读取一条id
1.根据抽取任务号获取所有表连接2.获取符合条件得一批pid
检索模型是否结构化
0 条评论
下一页