数据湖体系规划-入湖建设要求与规范
2024-09-03 12:44:01 0 举报
数据湖体系规划-入湖建设要求与规范是一份详细的指导性文件,规定了数据湖的建设标准和流程。它涵盖了数据接入、数据存储、数据管理、数据安全等多个方面,以确保数据湖的高效、稳定和安全运行。这份文件要求数据接入必须遵循统一的数据标准和协议,数据存储必须采用高可靠、高可用的存储架构,数据管理必须采用先进的数据管理和治理工具,数据安全必须采用严格的安全策略和加密技术。这份文件还强调了数据质量的重要性,要求对数据进行清洗、验证和转换,以确保数据的准确性和完整性。同时,这份文件还提供了一些最佳实践和建议,以帮助用户更好地建设和管理数据湖。
作者其他创作
大纲/内容
历史全量同步
数据湖体系规划 - 入湖建设要求与规范
◻ 生态入湖步骤● 依据数据价值推进生态数据入湖● 生态圈需求驱动原生数据的入湖◻ 原生入湖演进● 原则上遵循生态数据原生入湖● 当原生入湖存在海量采集(性价比低),理解/支撑困难等情况,允许按照如下原则进行非原生数据入湖:① 核心和经营入湖:非原生采集,汇入整合层② 营销和运营入湖:根据需要采集原生并逐步替换③ 生态协同入湖:完全实现原生数据入湖● 生态业务变动大且原生结果滞后数据,允许前瞻性获取生产变化过程表,避免数据模型的大幅调整
初始化全量上传
◻ 运营原则:● 前瞻性● 全面性● 科学性● 合理性
全量合并整合
+
后续变更采集
作者:豆豆周末@ProcessOn 更多模板素材请关注豆豆周末个人主页(只提供优质素材)点击右下方 图标链接 进入豆豆周末@ProcessOn 个人主页 ➡️
◻ 生态圈入湖要求:● 立足企业级视角● 生产侧与数据侧建设协同● 生产:原生接入保障● 数据:共享服务保障
◻ 原生数据规范保障● 业务规范:业务指导、流程、制度等文档● 主数据:范围、内容及管理规范● 数据字典:数据模型、编码约束、元数据等● 数据流图(DFD):生产数据流、加工数据流等● 指标口径:术语定义、报表指标说明等◻ 生态能力入湖规划● 数据规模:生态全量、核心资料、经营数据等大小● 更新频率:交易频率、业务变更频率等● 存储结构:生产数据存储模式、存储周期、分层结构等● 接入要求:I/O带宽、接入约束、生产备份情况等
生态数据运营
入湖建设演进
=
生态圈入湖规范 · 价值 · 灵活
◻ 原生数据入湖方案● 资料类:● 交易类:● 主数据/编码类:实时全量同步 ◻ 运营规范要求(联动同步) ● 业务调整通知:新业务定义,生产约束 变更、业务流程变更等; ● 数据运营同步:模型结构变更、历史数 据调整、口径新增/调整等; ● 生产模型建设规范:新增/变更模型 遵循大数据湖整体规范要求;
周期增量采集
生产源端规范
0 条评论
回复 删除
下一页