元数据规范
2024-02-28 16:40:18 0 举报
AI智能生成
元数据规范是一种用于描述和组织数据集的标准化方法。它包含了数据的核心内容,如数据来源、格式、生成时间等,同时还包括了文件的类型和修饰语。通过遵循元数据规范,可以确保数据的一致性和可访问性,便于数据管理和分析。
作者其他创作
大纲/内容
基本定义
元数据
定义和描述其他数据的数据。
数据项
用于描述元数据的基本数据单元。
元模型
规定一个或多个其他数据模型的数据模型。数据中台元模型由技术属性、业务属性、操作属性构成,可根据需求增加新的属性
属性
一个对象或实体的特征。
技术属性
从源库同步的技术类元数据。
业务属性
定义的有业务含义的元数据。
操作属性
描述处理和访问数据的细节的元数据
元数据描述
采用摘要表示的方式定义和描述元数据,摘要内容包括中文名称、定义、英文名称、数据类
型、值域、缩写名、约束/条件、最大出现次数和备注
型、值域、缩写名、约束/条件、最大出现次数和备注
元数据扩展
当已经定义的元数据不能满足数据实际使用时,可根据实际需求新增属性,或者进行已有数据项的新增或者修改
元模型
技术属性:表名、所属数据库、创建时间、表结构信息、主键、分区、外键;
业务属性:负责单位、负责部门、负责人、表中文名、主题域、数仓层级、业务域
操作属性:创建日期、变更频率、DDL 最后变更时间、储存位置、储存大小、最近同步时间。
其他元数据属性举例:例如所属系统、任务信息、数据流向、接口信息、管理属性
元数据描述
描述约定
中文名称
元数据的中文名称,如表名、所属数据库、创建时间
英文名称
元数据的英文名称。所有组成词汇的首字母应大写,且用空格连接。
缩写名
元数据的缩写名。宜采用英文名称的首字母大写连写
定义
元数据的基本内容、概念和说明
数据类型
元数据的数据存储数据类型,如:字符串、日期型、时间型、布尔型、整型、浮点型等。
值域
元数据可取值的范围。例如值域中的日期型取值统一为北京时间。
约束/条件
该元数据是否可选。该说明符分别为:
a) M:必选,表明该元数据应选;
b) C:一定条件下必选,当满足约束条件中所定义的条件时必选,条件必选用于以下三种可能性
之一:
1) 当在多个选项中进行选择时,至少有一个选项为必选,且应使用;
2) 当一个元数据已经使用时,选用另一个元数据;
3) 当一个元数据已经选择了一个特定值时,选用另一个元数据。
c) O:可选,根据实际应用可选择也可不选的元数据。已经定义的可选元数据,可指导部门元数
据标准制定人员充分说明其信息。
a) M:必选,表明该元数据应选;
b) C:一定条件下必选,当满足约束条件中所定义的条件时必选,条件必选用于以下三种可能性
之一:
1) 当在多个选项中进行选择时,至少有一个选项为必选,且应使用;
2) 当一个元数据已经使用时,选用另一个元数据;
3) 当一个元数据已经选择了一个特定值时,选用另一个元数据。
c) O:可选,根据实际应用可选择也可不选的元数据。已经定义的可选元数据,可指导部门元数
据标准制定人员充分说明其信息。
最大出现次数
说明该元数据可以出现的最大次数,只出现一次的用“1”表示,多次重复出现的用“N”表示,允
许不为1的固定出现次数用相应的数字表示,例如“2”“3”“4”等
许不为1的固定出现次数用相应的数字表示,例如“2”“3”“4”等
备注
与元数据有关的说明注释
元数据展示
技术属性
表名
英文名称:Table Name
缩写词:TN
定义:数据库或者数据源的数据表的名称
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:
缩写词:TN
定义:数据库或者数据源的数据表的名称
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:
所属数据库
英文名称:Data Base
缩写词:DB
定义:元数据所描述的数据表所在的原始数据库名称
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:
缩写词:DB
定义:元数据所描述的数据表所在的原始数据库名称
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:
创建时间
英文名称:Create Time
缩写词:CT
定义:元数据所描述的数据表的创建时间
数据类型:日期型
值域:自由文本
可选/必选:M
最大出现次数:1
备注:按照“yyyy-mm-dd hh:mm:ss”格式表示。
缩写词:CT
定义:元数据所描述的数据表的创建时间
数据类型:日期型
值域:自由文本
可选/必选:M
最大出现次数:1
备注:按照“yyyy-mm-dd hh:mm:ss”格式表示。
表结构信息
英文名称:Table Structure
缩写词:TS
定义:元数据所描述的数据表的表结构信息,包括:字段名、字段中文名、数据类型、长度、精度、
允许空、默认值、字段说明
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:
缩写词:TS
定义:元数据所描述的数据表的表结构信息,包括:字段名、字段中文名、数据类型、长度、精度、
允许空、默认值、字段说明
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:
主键
英文名称:Primary Key
缩写词:PK
定义:数据表的主键,能够唯一标识一行数据的主关键字段名称
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:多个主键用半角逗号“,”分割。
缩写词:PK
定义:数据表的主键,能够唯一标识一行数据的主关键字段名称
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:多个主键用半角逗号“,”分割。
分区
英文名称:Partition Key
缩写词:PTK
定义:数据表的分区,用于将数据按照不同的分区维度进行切分管理
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:多个分区用半角逗号“,”分割。
缩写词:PTK
定义:数据表的分区,用于将数据按照不同的分区维度进行切分管理
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:多个分区用半角逗号“,”分割。
外键
英文名称:Foreign Key
缩写词:FK
定义:数据表的外键,用于指向另一张数据表的主键,帮助两张表做数据关联
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:多个外键用半角逗号“,”分割
缩写词:FK
定义:数据表的外键,用于指向另一张数据表的主键,帮助两张表做数据关联
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:多个外键用半角逗号“,”分割
...
业务属性
负责单位
英文名称:Responsible Company
缩写词:RC
定义:数据表的责任单位
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:
缩写词:RC
定义:数据表的责任单位
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:
负责部门
英文名称:Responsible Department
缩写词:RD
定义:数据表的责任部门
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:
缩写词:RD
定义:数据表的责任部门
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:
负责人
英文名称:Table Manager
缩写词:TM
定义:数据表的责任人,责任人一般为该数据表的创建者
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:采用英文描述。
缩写词:TM
定义:数据表的责任人,责任人一般为该数据表的创建者
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:采用英文描述。
表中文名
英文名称:Table Name Cn
缩写词:TNC
定义:数据表的中文描述名称
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:采用中文描述。
缩写词:TNC
定义:数据表的中文描述名称
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:采用中文描述。
主题域
英文名称:Subject Domain
缩写词:SD
定义:数据表所属的业务主题域,如销售主题域、物流主题域等
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:采用英文描述
缩写词:SD
定义:数据表所属的业务主题域,如销售主题域、物流主题域等
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:采用英文描述
数仓层级
英文名称:Data Warehouse Layer
缩写词:DWL
定义:数据表在数据的分层架构中所属的层级
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:采用英文描述,一般为ODS、DIM、DWD、DWS、ADS。
缩写词:DWL
定义:数据表在数据的分层架构中所属的层级
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:采用英文描述,一般为ODS、DIM、DWD、DWS、ADS。
业务域
英文名称:Business Domain
缩写词:BD
定义:与业务流程相关的数据分域
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
缩写词:BD
定义:与业务流程相关的数据分域
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
...
操作属性
创建日期
英文名称:Metadata Create Date
缩写词:MCD
定义:元数据的创建日期。
数据类型:日期型
值域:自由文本
可选/必选:M
最大出现次数:1
备注:按照“yyyy-mm-dd”格式表示。
缩写词:MCD
定义:元数据的创建日期。
数据类型:日期型
值域:自由文本
可选/必选:M
最大出现次数:1
备注:按照“yyyy-mm-dd”格式表示。
变更频率
英文名称:Change Frequency
缩写词:CF
定义:数据表的数据更新频率,变更频率决定了表的数据时效性
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:一般以秒、分钟、小时、天、周、月为单位。
缩写词:CF
定义:数据表的数据更新频率,变更频率决定了表的数据时效性
数据类型:字符串
值域:自由文本
可选/必选:M
最大出现次数:1
备注:一般以秒、分钟、小时、天、周、月为单位。
DDL最后变更时间
缩写词:DUT
定义:元数据所描述的数据表的DDL最后更新时间
数据类型:日期型
值域:自由文本
可选/必选:M
最大出现次数:1
备注:按照“yyyy-mm-dd hh:mm:ss”格式表示
定义:元数据所描述的数据表的DDL最后更新时间
数据类型:日期型
值域:自由文本
可选/必选:M
最大出现次数:1
备注:按照“yyyy-mm-dd hh:mm:ss”格式表示
存储位置
英文名称:Storage Location
缩写词:SL
定义:元数据所描述的数据表的访问地址
数据类型:字符串
值域:自由文本
可选/必选:可选
最大出现次数:1
备注:路径用半角正斜杠符号‘/’分割
缩写词:SL
定义:元数据所描述的数据表的访问地址
数据类型:字符串
值域:自由文本
可选/必选:可选
最大出现次数:1
备注:路径用半角正斜杠符号‘/’分割
存储大小
英文名称:Storage Size
缩写词:SZ
定义:元数据所描述的数据表的物理存储空间大小
数据类型:bigint
值域:数值
袋鼠云DTSTACK
T/ZAII 035—2022
7
可选/必选:M
最大出现次数:1
备注:展示的时候单位为KB、MB、GB、TB等。
缩写词:SZ
定义:元数据所描述的数据表的物理存储空间大小
数据类型:bigint
值域:数值
袋鼠云DTSTACK
T/ZAII 035—2022
7
可选/必选:M
最大出现次数:1
备注:展示的时候单位为KB、MB、GB、TB等。
最近同步时间
英文名称:Recent Sync Time
缩写词:RST
定义:元数据所描述的数据表的最近一次执行元数据同步的时间
数据类型:日期型
值域:自由文本
可选/必选:可选
最大出现次数:1
备注:按照“yyyy-mm-dd hh:mm:ss”格式表示
缩写词:RST
定义:元数据所描述的数据表的最近一次执行元数据同步的时间
数据类型:日期型
值域:自由文本
可选/必选:可选
最大出现次数:1
备注:按照“yyyy-mm-dd hh:mm:ss”格式表示
....
元数据扩展
扩展类型
属性扩展
内容扩展
数据项扩展
扩展原则
技术属性只作内容扩展,不增加新的数据项;
业务属性可作内容扩展,亦可增加新的数据项;
操作属性可作内容扩展,亦可增加新的数据项;
新增的元数据属性、摘要内容及数据项不应与已有的定义的命名、定义相冲突。
扩展步奏
分析现有元数据
定义元数据属性代码表
扩展新元数据属性代码表
定义新元数据属性
扩展新元数据属性
元数据扩展验证
完成元数据扩展文档
元数据校验
校验内容
一致性校验
数据是否一致
数据类型是否一致
数据描述是否一致
完整性校验
属性是否齐全
必填信息是否齐全
数据是否完整
校验步奏
启动元数据校验(手动触发/周期性自动)
元数据一致性校验
元数据完整性校验
校验问题定位修改
完成元数据校验
0 条评论
下一页