医疗数据中心 - KettleETL数据采集方案
2024-07-02 10:16:41 0 举报
登录查看完整内容
医疗行业,提供前置机及标准API服务,采用ETL抽取、清洗、装载,融合Kettle数据采集工具 Kettle-ETL数据采集方案是一种高效、灵活的数据整合工具,主要用于从不同数据源中提取、转换和加载数据到目标数据库。该方案以Kettle工具为核心,提供了图形化用户界面和丰富的插件支持,使得数据采集任务变得简单易懂。用户可以通过拖拽式的操作来定义数据流,无需编写复杂的代码。同时,Kettle还支持多种数据源,包括关系型数据库、NoSQL数据库、XML文件、CSV文件等,满足不同业务场景的需求。此外,Kettle的调度功能可以帮助用户自动执行数据采集任务,提高工作效率。
作者其他创作
大纲/内容
同步
统一批次ID
业务表
处理步骤
总行数、成功行数、失败行数
前置机数据库
2
汇总质控表
1、标准字段基础检验:必填、长度、类型 --可以基于数据库表定义来实现强约束2、条件必填,来源当前表其它字段值是它,当前字段就必填3、字段来源值域检验:标准医院-数据值域对照表值是否符合4、字段来源主表字段,主从关系是否存在5、主记录是有限的,保证主记录不可缺失(质控,第三方重传/检验),数据完整性容许差异,但误差减到最小 (注意:病例) a. 有些数据需要实时(出院),对实时资料建表(就医动态),增加抽取方法 (完整单位才能在区域中心交换)
服务
数据检验规则
1、删除业务表数据2、插入错误表
中医院
明细质控表
1
处理反馈结果:日期、时间、处理的数据表、提交数据条数、通过数据条数,质控处理发现问题的数据条数。质控处理发现问题的数据备份表,与中间库一致质控明细表处理结果:如果一行展示:处理的数据表、质控汇总表主键、主键、质控【动态列名】处理发现问题的数据,建议用JSON存储
汇总及明细呈现
第三方:1、首次,全量进行转换插入2、T+1,业务发生后,【次日】上传 --增量3、T+15,业务发生后,【次月15日】之前一性上传当月 --上月全量同步时效:1、全量同步,不随时间限制2、按T+2,第三方同步后,第二天凌晨1点进行同步 a. 数据检验通过,覆盖数据中心已清洗或空数据,展示最新的数据,上次清洗数据到数据中心历史表留痕对比 a. 数据检验不通过,清理中间库数据,并插入数据到中间库备份表 3、每月16号进行上传上月全量数据(全量数据覆盖清洗到数据中心库) a. 全量数据检验通过,覆盖已清洗数据中心的数据,上次清洗数据到数据中心历史表留痕对比 b. 全量数据有检验不通过/或已删除数据,清理中间库数据,并插入数据到中间库备份表
处理前
API服务
第三方服务
扩展:明细主键行数据可做对比
过滤
3
正常数据同步
Kettle(转换) - 检验输出
Exception
写入结果
错误备份表
Info
资源管理
检验组件
服务2
乡镇卫生院n.
中间库
Msg
任务管理
清洗管理
区域数据中心前置机
数据中心库
清理
数据清洗【多次】同步逻辑设计
写入
Token
1、数据清洗工具-应用架构图
数据清洗同步逻辑设计
Kettle(转换) - 同步数据中心
检验增量同步
相关主题
检验规则表输出
人民医院
数据报告
检验结果
错误数据
3、数据清洗及入库策略
清洗规则
数据表同步方式
数据上传接口
Kettle(转换) - 错误数据表
质控
异常数据同步
批次ID
Kettle-ETL数据采集方案
调用API
同步模型一:提供交换中间库(前置机)标准数据集方式进行数据传输中心产生或发生变更时,采用数据清洗、转换-双向写入前置机数据库。检验&同步前置机的增量数据
国产数据库 - PGSQL
妇幼保健院
数据清洗逻辑及时效性
写入数据库
白名单
历史表
全域
WEBSERVICE API
区域中心服务
调用
2、结合Kettle - 运行模型
系统管理
调用上传接口
中间数据库
监控管理
清洗
正确数据
数据对账
备份
接口调用时序图
上传结果
同步模型二:提供监管平台前置WEBSERVICE API服务,供第三方接入区域数据中心按规定的频次,调用API接口将数据传至总医院管理平台中间库
1、Kettle转换步骤之间都是独立线程,可以并发执行2、转换组件分离(检验、清洗、装载),职责单一,利于维护3、通过Kettle作业进行统一包装,按转换组件顺序执行,邮件及报告预警
查询已存在主键数据,先删除后插入方式
装载
HTTPS
预警管理
0 条评论
回复 删除
下一页