数据质量思维导图
2022-07-21 23:46:45 1 举报
AI智能生成
数据质量
作者其他创作
大纲/内容
核查规则类型
唯一性校验
完整性校验
准确性校验
一致性校验
关联性校验
及时性校验
任务管理模块
新建一个数据质量任务
每一个任务对应的是一个表
任务id
任务名称
所属数据源
创建人
创建时间
监控表
数据源类型
每一个任务里面有多个子任务,每个子任务都是针对这个表的进行数据质量检查
包含的子任务属性(规则)
子任务编号
名称
所属表
所属数据源
数据源类型
创建人
创建时间
修改时间
状态
创建
启动
停止
上次执行时间
详情
打开一个新的页面
检测类型
表类型检测
表的数据量检测
表的大小的检查
关联判断
表与表之间的关系,比如数量的大小关系,表的大小的关系
字段类型检测
数量
平均数(avg)
预警方式
和某个数进行直接比较,如果不满足该条件,就触发报警
波动率
配置一个比例, 比如设置一个10%,并与过去的1,3,7,30 天进行比较如果波动率超过了此限制,则就触发报警
如果之前没有该任务则,在进行检测的时候没有找到历史数据,则暂时不执行判断,再第二天就可以进行判断
暂时默认是与过去的1,3,7,30进行历史数据的波动率比较,后续再进行自定义设置
总量(sum)
最大值(max)
最小值(min)
条件判断
字段唯一性
字段的枚举类型是否在指定的字典内
空值判断
非空值判断
邮箱检测
数值范围检测
身份证检测
日期范围检测
自定义正则
字段与字段之间的大小关系,比如字段1 > 字段2; 或者字段1 + 字段2 = 字段3
自定义(SQL)检测
直接输入SQL
比如 SELECT COUNT(*) AS cnt from table where cnt > 1000
后续的自定义模板
调度设置
设置定时任务的周期性运行时间
每周
每天
每月
每小时
前置依赖
告警信息
邮件告警
企业微信群告警
执行时间
这个地方使用watch Dog 进行实现,顺便梳理一下里面的实现逻辑
0 条评论
下一页