数据治理
2022-11-10 10:32:24 2 举报
AI智能生成
数据治理 模型打分 计算资源治理 存储资源治理
作者其他创作
大纲/内容
日志采集
日志下游应用监控
日志上报方式优化
无效埋点优化
健康分
模型分
完整性
业务覆盖度
元数据覆盖度
复用性
模型宽度
模型深度
跨层引用率
规范性
定义规范
开发规范
测试规范
发布规范
元数据规范
质量分
质量故障、问题数
准确性问题数
时效性问题数
基线破线次数
故障、问题止损效率
监控发现问题占比
数据源监控覆盖率
完备监控覆盖率
监控报警准确率
不规范case数(预防核查问题)
埋点规范覆盖率
模型设计规范覆盖率
开发规范覆盖率
成本分
无效存储
N天0热度
分区数据重复
无效计算
N天0热度
N天无产出
重复模型计算
异常存储
生命周期设置不合理
未EC
未压缩
待转冷数据
分区数据相似
异常计算
任务失败次数过多
申请计算资源过大
小文件过多
map数过多
不合理小时任务
安全分
安全覆盖
安全越权
服务分
找数体验
取数体验
计算治理
任务消耗资源Top治理
超长任务Top治理
上线任务单次调度运行时长
无效任务治理
任务已废弃或者不在使用
计算资源治理
防止分配资源不合理
任务依赖治理
防止任务依赖配置不合理,导致任务无效等待
map、reduce数量治理
任务失败次数治理
近7天任务失败次数
dp任务信号等待时间治理
任务读取、写出数据量治理
存储治理
表生命周期设置
清理冗余数据
表认领表治理
底表已经存在,但星河没有生成元数据
空表清理治理
无用表治理
表元数据清理治理
底层已删除,但星河元数据还在
小文件治理
小文件压缩或者优化合并小文件
表压缩治理
设置不同的压缩格式提升压缩效率
表最近未访问治理
表最近未更新治理
表更新时间进行清理
表热度为0治理
近一段时间内表在云窗上查询人次
大于2T表治理
one by one确认表业务使用情况
冷数据治理
重复数据治理
数据复用情况治理
相似表治理
单个hadoop账号下,同库不同表名同字段,不同库同表名视为相似表
规范治理
模型设计规范
数仓分层和主题
表分层治理
表依赖治理
表调用治理
防止跨层调用
表存储目录治理
命名和类型、词根
公共维度、关联关系
模型开发规范
开发流程
代码编写
注释信息
模型开发
模型基础信息
数仓主题和分层
ETL代码生成
命名规则工具
模型命名规范标准化
自动命名标准化
上线规则检测工具
数仓规范性检测
数据依赖检测
数仓规范监控
数仓分层
血缘关系
数仓相似度
数仓规范报告
数仓规范报告
数据冗余报告
0 条评论
下一页