数据平台建设
2020-06-30 18:29:51 2 举报
AI智能生成
最好的大数据平台建设方案
作者其他创作
大纲/内容
建设理论
成熟度模型
5V
3ONE
one id
以业务/自然对象+萃取标签构建
one data
以业务板块,业务过程,分析维度构建
one service
统一开放平台服务与业务应用
建设阶段
业务线
2 ERP ,营销系统
3 SOA,微服务,应用中台,自研
数据线
1 报表系统,业务编码
2 BI分析,管理驾驶舱,数据仓库,数据挖掘
3 数据治理,数据应用,数据中台
4 智能数据
建设步骤
1 需求整理
企业业务线
企业指标
业务线指标
更多细分指标
2 分析
数据源与数据质量(必须从源头进行约束与控制——即需要对业务系统进行约束)标准建设
数据标准
编码
清洗标准
补值标准
丢弃标准
异常值
格式标准
主题设计
主题与指标的包含关系
设计衍生指标
数据维度
维度层次
维度聚合方式
3 数据仓库模型设计
概念模型
确认主题,主题边界
逻辑模型
粒度层次
事实度量
数据分割策略(针对数据量,如何切割)
结构模型确认
物理概念模型
确认存储结构(空间利用率,写读时间效率,维护代价)
确认索引结构
专用
复杂
文档性的
存放形式(归并,冗余,数据序列)
优化存储分配(块大小,缓存大小)
4 数据模型分层设计
ODS 操作数据层
结构化数据增量同步
非结构化数据进行结构化
历史数据清洗,去重,过滤,分类,保存
CDM 公共维度模型层
DWD 明细宽表层
采用维度退化手法,减少事实表与维度表的关联
DWS 公共汇总数据层
加强指标的维度退化,采用更多的宽表,构建公共指标层
ADS
个性指标加工,专用性,不可复用-指数型,排名型,比值型
大宽表集市,横转众
5 数据基础平台建设
采集平台
存储平台
计算平台
分析平台(工具平台)
应用平台
6 数仓建设
ETL 开发
加载
历史
日常
数据备份与回复
数据模型测试
模型性能优化
7 数据管理体系
生命周期
创建
存储
移动
共享
停用
类型
格式
业务分类
业务含义
取值范围
数据质量
真实性
一致性
完整性
及时性
价值
元数据
技术
业务
管理
安全等级
数据平台建设
技术建设
功能图
数据源
结构化源
业务系统数据库
半结构化
业务系统日志,爬虫
非结构化
文件,图片,视频
数据清洗
补录
丢弃
数据存储
数据分析
数据开发平台
用户画像
决策引擎
机器学习算法
数据聚合
数据层次,业务线,主题
商品画像
规则引擎
查询平台
数据资产管理
元数据管理
数据生命周期管理
模型管理
生命周期管理
血缘关系型管理
指标管理
维度管理
数仓规划
主题管理
标签管理
数据应用
数据可视化
智能推荐
智能决策
智慧运营
领导管理驾驶舱
报表体系
页面流
BI
精准营销
任务调度
监控
技术架构图
人员建设
数据挖掘工程师
精通建模,机器学习算法实现
编程能力,java
大数据开发工程师
熟悉基于hadoop spark flink flume kafka的编程,工作在,采集,清洗,存储,统计,可视化中的一环
产品经理
负责产品的需求分析,功能演进,模型算法,数据流转等功能的设计
运维工程师
负责数据平台的稳定性,扩容,变更管理,故障处理,需要yarn,hive hbase impala presto hadoop kafka的部署实施经验
数据分析师
需要一些数理统计只是,精通数据建模与经典分析算法,懂ETL
架构师
负责数据平台的技术选型,规划,容灾,优化,前沿技术的调研与引进
熟悉数据处理流程,采集,清洗,转换,预处理,存储,挖掘流程与相关技术
hadoop hive flink yarn kafka impala presto k8s docker es hbase 等
行业标准,成熟度模型,治理标准
0 条评论
回复 删除
下一页