首页  流程图  详情

装载画像流程图

2020-10-29 09:53:23   0  举报





生产消费模型流程图

java生产消费

作者其他创作

大纲/内容

单表抽取

遍历所有得pid，获取符合条件得pid

结构化数据大写转小写1.md5用于更新，计算md5时需要注意文档结构顺序2.删除标记如果src中有删除标记，那么删除mongo，es中对应的文书。es需要判断是否删除整个诊次

统计该批次的就诊次数量、人数，读取得总数量，并追加写入到mongodb

任务结束

初始化

画像根据画像模型中的路径取值和条件合成对应字段

redis订阅者通收到消息后，提交到线程池

是否补装载

send

补装载根据关联zz任务号获得失败mongo表获取pid，根据关联装载任务号获取抽取任务号列表

lock/condition

合并已处理数据根据未处理中的pid合并已处理hzlb_src中的数据

遍历抽取表，获取符合条件得一批pid，和文书名称以及对应得抽取任务号

结构化增加md5、删除标记、创建时间、更新时间、文书类型和原始文书类型

以pid为key，表名称为值进行合并

按条件装载

多个抽取库

分词前处理

生产者

redis

批量入库根据md5更新mongodb，根据hzlb合成es结构数据

任务启动

科室检查进行清洗文书调用分词如果concurrenthashmap占用内存小于指定size，那么发送请求至uwsgi

分词后处理

是

未处理抽取任务列表，可以是多中心任务

数据加工去隐私，年龄加工等

创建kafka topic1.如果不存在进行创建，如果创建失败则循环再次创建，如果循环次数内均失败，则中断。2.分区数的计算规则总人数/处理性能总人数因自动获取读取较耗时故参数处理性能由测试得出，例如4wpid/h分区数介于[60-4000]/node

异常批次数据的pid写入到对应zz任务号表，用于补装载

kafka

是否为多库

三组线程池并行

参数初始化获取指定版本号的抽取、检索和画像模型。日志输出参数

批量读取每读取5个kafka msg读取一次数据，如果小于指定大小那么继续读取，并将这批kafka msg是哪个offset保留下来

批处理，读取指定大小数据

按条件装载可以按年、住院或者门诊装载

ppid

遍历所有表，读取对应得pid

kafka消费者通过参数控制可以继续消费可以重新消费

创建es index如果存在那么进行删除后再创建。索引成功后创建mapping分布式锁

排期橙色部分暂未开发，绿色部分正在调试。1.初始化和生产者部分需要1-3天(10.22--10.27)2.分词前和分词后部分需要3-5天(10.27--10.31)

否

词清洗词归一

src数据写入到mongodb，异常批次数据的pid写入到对应得zz任务号表，用于补装载

根据抽取任务号列表，读取一条id

1.根据抽取任务号获取所有表连接2.获取符合条件得一批pid

检索模型是否结构化

 收藏

立即使用

装载画像流程图

曹天

职业：暂无

去主页





0 条评论

下一页

为你推荐

查看更多

