数据中台
2020-10-13 18:30:37 18 举报
AI智能生成
数据中台知识整理
作者其他创作
大纲/内容
基础概念
概念定义
机制
通过这套机制融合新老模式,整合分散在各个孤岛上的数据,快速形成数据服务能力,
为企业经营决策、精细化运营提供支撑,这套机制就是数据中台
为企业经营决策、精细化运营提供支撑,这套机制就是数据中台
定义
数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,
是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,
构建的一套持续不断把数据变成资产并服务于业务的机制
是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,
构建的一套持续不断把数据变成资产并服务于业务的机制
业务与数据闭环
业务数据化、数据资产化、资产服务化、服务业务化
和业务中台的对比
区别
业务中台更偏向业务流程管控,抽象业务流程的共性形成通用业务服务能力。
数据中台是抽象数据能力的共性形成通用数据服务能力。
联系
数据应用闭环
业务中台的沉淀的业务数据进入到数据中台进行体系化的加工
数据中台以服务化的方式支撑业务中台的应用
形成循环不息的数据闭环
从数据层面看
业务中台只是数据中台的数据源之一,
其它来源如app、小程序、LoT等多源数据
其它来源如app、小程序、LoT等多源数据
从服务层面看
数据中台的数据服务也不一定经过业务中台作用于业务,
它可以直接被上层应用系统进行封装,如电商领域的“千人千面”系统
它可以直接被上层应用系统进行封装,如电商领域的“千人千面”系统
和数据仓库的对比
区别
数据仓库主要支持管理决策和业务分析
数据中台主要是将数据服务化后提供给业务系统
联系
数据中台包含数据仓库的完整内容,把数据仓库当做数据源
中台能力
核心能力
1、汇聚整合
2、提纯加工
数据经过提纯加工才能使用,这个过程就是数据资产化
3、服务可视化
4、价值变现
计算能力
离线计算
批量离线计算,如Hadoop
实时计算
实时流式计算,如Flink
即席计算(实时计算)
决策类业务,实时查询等,如圈人、ad-hoc需求
在线计算
高并发场景,用户画像等,如Redis
数据资产管理
4个目标
可见
资产全面盘点形成数据资产地图
可懂
通过元数据管理,完善对数据资产的描述
将数据资产标签化,标签是面向业务视角的数据组织方式
可用
统一数据标准,提升数据质量和数据安全性,提升数据的可信度
可运营
建立符合数据驱动的组织管理制度流程和价值评估体系,提升数据资产的价值
处于数据中台的位置
数据开发->数据资产管理->数据应用
资产管理的8个核心领域
数据战略
数据治理
以元数据为核心的分布式数据治理
6个目标
提升数据质量
统一数据标准
良好响应数据需求
培训组织内,统一数据问题解决的方法
实现可重复的数据管理流程
实现数据的可持续运营、数据资产的增值
6个原则
标准化原则
透明原则
数据的认责与问责
平衡原则
数据可商用是平衡原则的重要参考
变更原则
持续改进原则
数据架构
数据标准
数据质量
数据安全
数据应用
数据生命周期
不可恢复的数据
原始数据
可恢复的数据
中间过程或结果数据
数据资产管理职能
数据标准管理
数据标准是对数据的表达、格式及定义的一致约定,包含数据业务属性、技术属性和管理属性的统一定义
数据标准分类
业务术语标准
是被批准、管理的业务概念定义的描述
参考数据和主数据标准
参考数据是枚举值
主数据是核心业务实体数据
数据元标准
数据元是用一组属性描述其定义、标识、表示和允许值的数据单元,是描述数据的最基本单元
指标数据标准
经营分析过程中衡量某一个目标或事物的数据
数据模型管理
数据模型从抽象层次上描述了数据的静态特征、动态行为和约束条件
管理内容
数据模型的设计
数据模型和数据标准词典的同步
数据模型审核发布
数据模型差异对比
版本管理
元数据管理
元数据是描述数据的数据
管理的核心在于数据地图
描述元数据的数据叫元模型
元数据类型
技术元数据
库表结构、字段约束、数据模型、程序、SQL等
业务元数据
业务指标、业务代码、业务术语等
管理元数据
数据所有者、数据质量定责、数据安全等级等
元数据的应用
数据血缘分析
血缘分析指向数据的上游来源
数据影响性分析
影响性分析指向数据的下游
数据冷热度分析
对数据表的被使用情况进行统计,从访问频次和业务需求角度出发,用图表展现表的重要性指数
主数据管理
数据质量管理
数据质量的评估标准和管理流程
质量评估的标准
准确性
完整性
一致性
有效性
唯一性
及时性
稳定性
连续性
合理性
数据安全管理
对数据设定安全等级,保证数据被合法合规、安全地采集、传输、存储和使用
数据价值管理
度量维度
数据成本
数据应用价值
数据共享管理
API输出
API服务监控
服务链路分析
影响度分析
异常监控警告
API服务管控
API接口鉴权认证
流量控制
访问次数控制
中台建设
建设步骤
理现状
组织现状、业务现状、数据现状、技术现状
立架构
组织架构、业务架构、技术架构、应用架构、数据架构
建资产
数据集成、数据萃取、数据标准、数据质量
用数据
数据安全、场景服务
做运营
监控审计、价值评估、质量评估、资产排名
建设内容
技术体系、数据体系、服务体系、运营体系
企业数据应用能力成熟度
1、统计分析
统计报表、定制导数、周月报等
2、决策支持
业务主题的指标体系等
3、数据驱动
风控、千人千面、精准营销、算法挖掘等
4、运营优化
数据资产运营部门,统一数据资产、数据治理、数据服务化、服务业务等
建设落地方案
数据汇聚方案
ETL (Extract-Transform-Load,抽取-转换-存储)
开源产品 Canal、Sqoop、DataX
采集模块
交换核心模块
处理缓冲、流控、并发、数据转换等技术问题
写入模块
数据同步
全量同步
分为表全量同步和库全量同步
增量同步
分为新增、覆盖和更新三种策略
实时同步
数据订阅服务
数据的订阅和读取、任务实例的启停控制等
插件式设计
数据消费服务
任务状态控制、数据解析、数据过滤、数据转换、数据写入等
数据存储
在线存储设备
磁盘、磁盘阵列、云存储等
离线存储设备
硬盘、磁带、光盘等
OLTP和OLAP
OLTP 联机事务处理
面向应用,事务驱动的数据处理
简单事务处理,100MB到GB级
OLAP 联机分析处理
面向主题,分析驱动的数据处理
复杂查询处理,100GB到TB、PB级
存储技术
分布式系统
NoSQL数据库
云数据库
数据开发方案
数据开发产品能力
离线开发
离线数据的加工、发布、运维管理以及数据分析、数据探索、在线查询和即席分析相关工作
作业调度
作业之间形成有向无环图(DAG Directed AcyclicGraph)
上下游作业的表级血缘依赖图
基线控制方法
用于统一管理数据作业的完成时间、优先级、告警策略,保障数据加工按时完成
调度模块会根据最先到达、最短执行时间原则,动态调整资源分配及作业的优先级,让资源利用效率最大化
采用算法对作业完成时间进行智能预测
数据权限
两种策略
RBAC (Role-Based Access Control) 基于角色的访问控制
PBAC(Policy-Based Access Control) 基于策略的访问控制
实际开发中,一般运维人员把整个库的权限授权给某个开发负责人,
然后库里面的表、字段、函数的权限管理由开发负责人负责
然后库里面的表、字段、函数的权限管理由开发负责人负责
权限审计
所有权限的申请、审批都会有记录,便于进行权限审计
在统一的数据权限服务中,会对接底层的各种权限管理系统,例如Sentry、Ranger、Oracle,
同时对数据权限管理中心提供服务,执行权限的申请、授权、撤销等操作
同时对数据权限管理中心提供服务,执行权限的申请、授权、撤销等操作
实时开发
涉及数据的实时接入和实时处理
实时开发套件是对流计算能力的产品封装
元数据注册中心
元数据管理
组件化开发
将流计算的输入源、转换逻辑、UDF函数、结果的持久化等封装为组件
开发人员可以通过拖拽相关组件来进行简单的配置和SQL逻辑编写等,
将任务具体化为流计算的加工拓扑图,由平台负责任务的调度、解析及运行
将任务具体化为流计算的加工拓扑图,由平台负责任务的调度、解析及运行
算法开发
提供可视化拖拽方式和Notebook方式实现数据价值的挖掘
建模方式
可视化建模
可视化拖拽,自由编排数据集、模型以及机器学习/深度学习等算法组件,组成有向无环图
完成数据处理、模型训练、模型评估和预测的实验流程设计和调试,覆盖主流算法应用场景
多角色协同
Notebook建模
JupyterLab在线编程
支持通过API方式调用标准算法套件
支持多语言,包括Scala、Python、R、Shell等
算法开发套件
集成主流的机器学习、深度学习计算框架和丰富的标准化算法组件能力
多算法框架
TensorFlow 谷歌出品,深度学习框架,提供了开源机器学习库以及各种API
PyTorch Facebook出品,深度学习框架,采用动态计算图架构
LightGBM 梯度boosting框架,使用基于学习算法的决策树
完整算法建模过程
数据接入-》数据预处理-》特征工程-》模型训练-》模型评估-》导出
机器学习
分类算法
监督学习
分类用于推测输入数据的类别
预测客户是否逾期还款,预测病人是否患病等
案例:将历史病人数据作为训练数据,通过数据预处理和特征工程组件将病人的相关体征和信息处理成输入的特征,
并将是否患病作为标签列,就可以通过分类组件与机器学习预测组件对后续的病人是否患病进行预测
并将是否患病作为标签列,就可以通过分类组件与机器学习预测组件对后续的病人是否患病进行预测
常见的组件
GBDT二分类、线性支持向量机、K近邻、决策树分类、多层感知机分类、
朴素贝叶斯分类、LightGBM分类、随机森林分类、逻辑回归分类等
朴素贝叶斯分类、LightGBM分类、随机森林分类、逻辑回归分类等
回归算法
监督学习
用于预测输入变量和输出变量之间的关系
股价预测、销量预测、营业额预测、房价预测等
将历史房价数据作为训练数据,通过数据预处理和特征工程组件将影响房价的信息处理成输入的特征,
并将房价作为标签列,就可以通过回归组件与机器学习预测组件对未来的房价进行预测
并将房价作为标签列,就可以通过回归组件与机器学习预测组件对未来的房价进行预测
分为线性回归和非线性回归
常见的组件
GBDT回归、随机森林回归、线性回归、LightGBM回归等
聚类算法
无监督学习
将数据分为多个簇,使得簇内的样本较为相似、簇与簇之间样本的差距较大
电商领域用于发现兴趣相似的用户,给这类用户推荐相似的商品
常见的组件
kmeans、高斯混合聚类等
深度学习
深度学习框架
Tensorflow、MXNet、Caffe、XGBoost、LightGBM等
文本分析
实现文本分类、关键词抽取、摘要生成等文本应用
PLDA、TF-IDF、Word2Vec、Doc2Vec、词频统计、去停用词、分词处理、关键词抽取等
网络分析
提供图数据结构的分析组件
最大联通子图、标签传播分类、标签传播聚类、Modularity、树深度等常见组件
解决包含网状关系的业务场景
例如:金融风控、社群发现、最短路径查找等
应用场景
金融风控和反欺诈
文本挖掘分析
广告精准营销
个性化推荐
多维用户画像,千人千面
数据计算能力类型
批计算
海量数据,批量计算
MapReduce、Hive、Spark等
流计算
实时数据,毫秒级RT
Flink、Spark Streaming、Storm等
流式ETL、流式报表、监控预警等
在线查询
毫秒级RT,高QPS
Redis、HBase、MySQL、ES等
画像服务、搜索、圈人场景等
即席分析
秒级RT,内存计算
Kylin、Impala、ClickHouse、Hawk等
数据Cube等
数仓建设方案
数仓体系特征
覆盖全域数据
覆盖所有业务过程数据
结构层次清晰
纵向的数据分层
横向主题域、业务过程划分
数据准确一致
统一一致性指标、统一命名、统一业务含义、统一计算口径
性能提升
统一规划设计、合理数据模型、统一定义规范、考虑使用场景
更低成本
数据可以共享,避免烟囱式的重复建设
方便易用
后台复杂,数据使用方便
数仓层次架构
应用数据层 ADS
面向业务场景
例如:客户画像属性表、客群洞察信息表
标签数据层 TDM
全域标签体系
标签分类
属性标签
实体基本性质的刻画,比如 性别、年龄、体重
统计标签
维度和度量的组合,比如日均登录次数、最近30天交易额等
算法标签
通过复杂逻辑分析推理得出,比如信用指数、购买能力、品牌偏好等
标签根目录-》标签类目-》标签-》标签值
归类为:人、物体、场景
面向对象建模
对象标签表
对象的属性标签、统计标签、算法标签与对象标签类目、对象标识组装起来就生成对象标签表
例如:商品标签表、客户基础标签表、客户行为标签表
统一数仓层 DW
分为 明细数据层DWD 、汇总数据层DWS
原始数据从业务完整性的角度重新组织数据,数据域
建模方法:范式建模、维度建模、实体建模
通过事实表、维度表来组织数据
业务过程一般与事实表一一对应
主题域是有效归纳、组织业务过程的方式,同时定位指标/度量
指标
原子指标
指标名称一般采用“动作+度量”方式命名,比如支付金额、注册用户数
派生指标
派生指标=1个原子指标+多个修饰词+时间修饰词,比如最近一天北京买家支付金额
指标归属到具体数据域,定义指标的含义、命名、类型、计算方法,确保全局一致性
数据域
根据业务分类的规律总结出划分业务范围的标准定义
数仓层设计步骤
数据域的划分、指标的定义、维表设计、事实表设计
例如:客户数据域、交易数据域、商品数据域
贴源数据层 ODS
原始数据,简单处理
0 条评论
下一页