数据治理
2020-01-06 23:13:19 239 举报
AI智能生成
数据治理是一种组织和管理企业数据的方法,旨在确保数据的质量和安全性。它涉及到对数据的收集、存储、处理和共享进行规划、监督和控制。数据治理的目标是确保数据的准确性、一致性和可靠性,以便为企业决策提供可靠的信息支持。此外,数据治理还关注保护数据免受未经授权的访问和使用,以确保数据的保密性和完整性。总之,数据治理是一种重要的管理工具,有助于提高企业的运营效率和竞争力。
作者其他创作
大纲/内容
数据治理
元数据
业务元数据
业务指标、业务规则、数据质量规则、专业术语、数据标准、概念数据模型、实体/属性、逻辑数据模型
技术元数据
关联性技术元数据
数据之间的关联和数据在信息技术环境之中的流转情况
范围
技术规则(计算/统计/转换/汇总)、数据质量规则技术描述、字段、衍生字段、事实/维度、统计指标、表/视图/文件/接口、报表/多维分析、数据库
操作元数据
与元数据管理相关的组织、岗位、职责、流程、项目、版本,以及系统生产运行中的操作记录
管理元数据
数据所有者、数据质量定责、数据安全等级等
数据地图
数据DAG图
当在数据分析中发现问题数据的时候,可以依赖血缘关系,追根溯源,快速地定位到问题数据的来源和加工流程,减少分析的时间和难度。
数据特征
可视化
数据冷热分析
数据血缘分析
数据质量
唯一性
健康标准
完整性、一致性、有效性、准确性、及时性、稳定性、唯一性
问题
业务方向
业务发展快,变更频繁
时效性要求高
数据方向
体量大,链路复杂
流转快,影响大
数据业务化,对质量要求高
用户方向
用户多样
认知不同
专业技能不同
现在,除了本身做数据算法研发的同学之外,其他的技术同学也都会在平台上使用数据,这些同学可能对于数据的认知不同,那么在数据驱动下真正保证数据质量就显得异常重要。
标准和规范
故障等级
极高、高、中、低
模型热度等级
热、温、冷、冰等四类标准
作业耗时等级
优、良、一般、关注、耗时等
存储空间等级
资源增长等级
历史周期分类
作业重要等级
数据分级
核心数据范围
准入和退出机制
故障处理
日常优化
评估体系
管理流程
制度建设
owner归属争议
数据规范
数据存储
数据归类
生产交易
服务支撑
系统日志
重要性
更具重要性归类
访问频次
更具访问频次归类
访问性能要求
更具使用性能归类
数据量
更具数据量归类
存储策略
在线存储
及时性很高,随时读写
近线存储
介于在线和归档之间
归档存储
访问频次低、读写要求不高
数据安全
功能级权限管控
数据级权限管控
针对事前、事中、事后等三个场景,分别设计了审批、权限、审计三个子系统以保障数据安全的完整闭环。
ACL->RBAC->
数据计算
优化方向
业务方向
废弃项目
米折、友团、有店、育儿宝等
废弃产品
比邻星、罗盘、定位仪、数据集市等
技术方向
数据生成过程
小时级统计调度任务
贝管家等
采集任务切换到实时
数据使用率
报表长期无访问
接口长期无访问
调度任务无下游
计算资源TOP200
配置使用不合理
内存配置过大
map数过大
reduce数过大
跨项目组
无下游调度任务
星空长时间无访问报表
不合理脚本
数据成本
0 条评论
回复 删除
下一页