数据治理
2022-11-10 10:32:24 2 举报
AI智能生成
数据治理 模型打分 计算资源治理 存储资源治理
作者其他创作
大纲/内容
日志下游应用监控
日志上报方式优化
无效埋点优化
日志采集
业务覆盖度
元数据覆盖度
完整性
模型宽度
模型深度
跨层引用率
复用性
定义规范
开发规范
测试规范
发布规范
元数据规范
规范性
模型分
准确性问题数
时效性问题数
基线破线次数
故障、问题止损效率
质量故障、问题数
数据源监控覆盖率
完备监控覆盖率
监控报警准确率
监控发现问题占比
埋点规范覆盖率
模型设计规范覆盖率
开发规范覆盖率
不规范case数(预防核查问题)
质量分
N天0热度
分区数据重复
无效存储
N天无产出
重复模型计算
无效计算
生命周期设置不合理
未EC
未压缩
待转冷数据
分区数据相似
异常存储
任务失败次数过多
申请计算资源过大
小文件过多
map数过多
不合理小时任务
异常计算
成本分
安全覆盖
安全越权
安全分
找数体验
取数体验
服务分
健康分
任务消耗资源Top治理
上线任务单次调度运行时长
超长任务Top治理
任务已废弃或者不在使用
无效任务治理
防止分配资源不合理
计算资源治理
防止任务依赖配置不合理,导致任务无效等待
任务依赖治理
map、reduce数量治理
近7天任务失败次数
任务失败次数治理
dp任务信号等待时间治理
任务读取、写出数据量治理
计算治理
清理冗余数据
表生命周期设置
底表已经存在,但星河没有生成元数据
表认领表治理
无用表治理
空表清理治理
底层已删除,但星河元数据还在
表元数据清理治理
小文件压缩或者优化合并小文件
小文件治理
设置不同的压缩格式提升压缩效率
表压缩治理
表最近未访问治理
表更新时间进行清理
表最近未更新治理
近一段时间内表在云窗上查询人次
表热度为0治理
one by one确认表业务使用情况
大于2T表治理
冷数据治理
数据复用情况治理
重复数据治理
单个hadoop账号下,同库不同表名同字段,不同库同表名视为相似表
相似表治理
存储治理
表分层治理
表依赖治理
防止跨层调用
表调用治理
表存储目录治理
数仓分层和主题
命名和类型、词根
公共维度、关联关系
模型设计规范
开发流程
代码编写
注释信息
模型开发规范
模型基础信息
数仓主题和分层
ETL代码生成
模型开发
模型命名规范标准化
自动命名标准化
命名规则工具
数仓规范性检测
数据依赖检测
上线规则检测工具
数仓分层
血缘关系
数仓相似度
数仓规范监控
数仓规范报告
数据冗余报告
规范治理
数据治理
0 条评论
回复 删除
下一页