元数据管理平台调研
2020-07-31 14:27:02 8 举报
AI智能生成
元数据管理架构
作者其他创作
大纲/内容
元数据管理平台
什么是元数据
概念+连接
信息的维度
传统元数据
元数据类型
业务元数据:业务规则、指标、术语等
技术元数据:数据结构、接口信息等
管理元数据:人员职责、管理流程等
存储介质
模型设计工具:PowerDesigner等
系统数据库:mysql、oracle等
ETL工具:datastage等
规范文档:excel、xml等
元数据关系
组合关系:库包含表、表包含字段等
依赖关系:指标加工、数据迁移等过程的数据流向
广义元数据
1、简单的库表
2、整个数据平台
3、服务的管理
突破管理范畴,形成广义元数据管理
元数据管理架构
采集
采集原理
如何采集
1、筛选元数据类型
2、选择不同适配器
3、采集入库程序
4、元数据存储数据库
采集过程
2、创建数据源
3、配置采集任务
4、执行采集任务
5、元数据存储数据库
采集步骤(串行)
1、获取元数据
2、入临时表
3、与正式表比对
4、更新元数据ID
5、得到元数据的变更信息
6、将元数据和变更信息入正式表
采集策略
准备采集服务(主备)
采集目标数据源与采集服务映射
采集任务执行(并行,取消临时表)
1、元数据编码+元数据类型+元数据父级路径
2、MD5加密生成的字符串作为元数据的ID
3、通过ID将元数据和正式表数据作比对
4、得到变化的元数据
5、写入到数据库中的正式表
存储
元模型设计
CWM元模型
定义:对应一对一转换成关系型数据库表
举例
1、T_SchemaList(数据库记录)
2、T_TableList(表记录)
3、T_ColumnList(字段记录)
4、T_PrimaryKeyList(主键记录)
优点:系统容易实现,库表设计难度低
缺点:不支持扩展,支持有限范围元数据管理
MOF元模型
定义:存储CWM元模型,可支持任何类型的元数据扩展
1、T_MM_CLASSILIER(类表):schema、table、column、primarykey作为类存储在此表
2、T_MM_DATATYPE(数据类型表)
3、T_MM_ENUMER(枚举表)
4、T_MM_PACKAGE(包)
5、T_MM_CLASSES(类)
6、T_MM_ATTRIBUTE(类属性)
7、T_MM_RELATION_COMP(类组合关系)
8、T_MM_RELATION_DEP(类依赖关系)
优点:支持扩展,支持所有种类的元数据管理
缺点:系统实现复杂,库表设计难度大
元数据表划分和存储
元数据系统管理表:元模型管理表(采用mysql+redis)
元数据应用表:元数据关联关系,其血缘关系、影响关系和数据地图(存储展示使用图数据库,检索使用ES)
元数据事实表:通过元数据采集适配器采集来的原始的元数据(HBase)
存储应用
HBase存储元数据对象
不变属性:每一类元数据都固有属性
可变属性:根据元数据类型的不同而发生变化的属性
rowkey设计:元数据code+元数据类型+元数据路径进行MD5加密生成的字符串
图数据库存储关联关系
节点
关系
属性
label
Gremlin+Neo4j(OrientDB)
管理和应用
0 条评论
回复 删除
下一页