《数据中台:让数据用起来》读书笔记
2020-07-23 18:30:45 76 举报
AI智能生成
数据中台学习笔记
作者其他创作
大纲/内容
数据中台的基本概念
发展阶段
数据中台探索
数据中台整合数据应用提升效率
数据中台重构数据空间和业务空间
企业业务空间
企业数据空间
自主生产数据
自主消费数据
外部数据
内外交互数据
目的
对象数字化
规则数字化
结果数据化
业务流程可以按照规则自由自行组建和优化
信息化建设模型
软件功能驱动
数据治理驱动
业务能力驱动
业务服务化驱动
核心认知
数据中台需要提升奇特下一代基础设施高度,进行规模化投入
数据中台需要全新的数据价值观和方法论,并在其指引下形成平台级能力
数据中台围绕业务、数据、分析会衍生出全新人才培养标准
什么是数据中台
独立建设的多个数据孤岛
通过这套机制融合新老模式,整合分散在各个孤岛上的数据
快速形成数据服务能力
为企业经营决策、经营细化运营提供支撑
这套机制就是数据中台
技术价值
能力多,成本低,应用广
应对多数据处理的需求
丰富标签数据,降低管理成本
数据价值体系业务系统效果
支持跨域访问数据
数据复用不是复制
业务价值
从洞察走向赋能业务创新形成核心壁垒
以客户为中心,拥有洞察驱动企业稳健行动
以数据为基础,支持大规模商业创新
盘活全盘数据,构筑坚实壁垒以持续领先
数据中台与业务中台
区别
业务中台
业务中台偏向于业务流程管理
将业务流程中共性的服务抽象出来形成通用的服务能力
例子
订单
交易
商品
购物车
数据中台
抽象数据能力的共性形成通用数据服务能力
例子
原始数据形成用户画像
信用评级
同一个服务应用层面展现不一样底层数据一致
联系
相辅相成
业务中台数据进入数据中台加工处理
以服务化的方式支持业务中台的应用
新数据又流回数据中台形成闭环
服务层面上业务中台只是数据中台的数据源之一
业务层面上数据中台可以使业务系统拥有全维度智能化能力
各种平台以后可能会合成一个
企业中台
数据中台的核心能力
汇聚整合
整合完善
一站式大数据平台工具
数据集成和运营能力
提纯加工
数据资产化
多业务间的关联数据
连通全域数据
制定统一的标准和质量体系
服务可视化
提供便捷,快速的数据服务能力
提供数据化运营平台
ai技术 基于业务分析资产化数据
价值变现
将数据洞察变成直接驱动业务行为的核心动能
效果评估
进行持续反馈
数据中台的建设与架构
持续让数据用起来
根本性创新
把数据资产作为一个基础要是独立出来
让成为资产的数据作为生产资料融入业务产生价值
不是单纯技术叠加不是技术化的大数据平台
数据中台关心数据业务能力
数据是企业的战略资产
方法论
一战略行动
把用数据中台驱动业务发展定位为企业级战略,全局谋划
要求企业用一个数据计算平台
共建数据体系
共享数据服务能力
业务梳理,技术支持,组件支撑
两项保障条件
通过宣导统一组织间数据认知
中台战略实施需全面提升企业数据意识
思维方式
用数据说话
数据采集
数据标准化
数据使用
数据安全
通过流程加速组织变革
中台战略实施需要组织保障
团队
资源
责任
业务承接
维护
效果
三条目标准则
数据可见
指标管理可视化
是否具备统一的指标管理能力
定义
修改
删除
生命周期
元数据可视化
是否具备针对元数据的可视化管理工具
表
字段
分区
任务
标签名
数据自测类目可视化
资产可视化类目管理
增删改查类目结构
类目下标签指标名称
数据源可视化
是否具备对中台所涉及的业务数据源的可视化管理
自由增删
数据建模可视化
是否具备对数据建模可视化管理能力
批量生成指标
批量生产模型标准
数据消费者可视化
是否具备对数据消费者的统一管理
权限
限速
并发
高可用
算法建模可视化
是否具备可拖拽式可视化和notebook可视化
数据可用
数据内容可用性
数据内容是否无歧义
符合业务所需的标准和质量
数据服务可用性
是否具备数据服务的快速生成
用过可视化生成
数据任务的可用性
数据任务的运维能力
自动重跑
补数据
空跑
自动调整
任务资源配比
任务资源配比
数据指标化
是否把数据定义成指标
BI报表
可视化大屏
数据标签化
是否把数据定义成标签
来源
原始字段
统计类加工后的字段
算法加工后的字段
用处
数据应用依赖各种标签体系
资产(指标,标签)的易阅读性
看得懂
查得到
数据可运营
质量量化管理
任务失败次数
产出时间稳定性
标签覆盖率
价值量化管理
任务资源占用情况
表生命周期
最近访问周期
数据运营角色
针对数据本身的运营角色或岗位
数据质量优化
价值挖掘
四套建设内容
技术体系
大数据存储计算计算
hadoop
spark
flink
greenplum
elasticsearch
redis
phoenix
数据中台工具计算组件
数据汇聚
数据开发
数据资产管理
数据服务管控
数据体系
汇聚到数组中台
按照一定建模方式加工
完整
准确
使用广泛
建设方法和功能要求相似
服务体系
通过数据中台的服务组件把数据变为服务
例子
客户画像
信用评估
风险预警
通过数据决策而不是凭经验
运营体系
数据中台的基础
流程执行规范
数据价值评估
数据服务推广
稽查排名
持续性工作
五个关键步骤
理现状
梳理现有系统建设
了解已拥有数据
业务特点
企业对数据中台的认知
数据化建设情况
获取产品与服务信息
形成业务调研报告
I业务数据沉淀
数据库
数据量
数据字段
更新周期
立架构
业务架构
业务运管模型
流程体系
技术架构
数据存储和计算进行统一选项
应用架构
数据中台作为平台应用进行承接
组织架构
人员
建资产
数据汇集
数据仓库建设
标签体系建设
这个是建立规则
应用数据建设
用数据
数据安全
服务化
业务化
做运营
迭代发展
不是一锤子买卖
图
架构
数据汇集
来源
业务系统
日志
文件
网络
方法
数据库同步
埋点
爬虫
消息队列
时效性
批量汇集
实时采集
数据开发
把原始数据架构成对业务有价值的形式
面对开发人员分析人员提供离线或实时算法开发工具
以任务的管理、代码发布、运维、监控、等集成工具、方便使用
数据体系
建立企业的数据体系
数据的一致性和可复用性
数据不同、内容不同
建设方法相似
统一建设
贴源数据
统一数仓
标签数据
应用数据
数据资产管理
资产目录
元数据
数据质量
数据血缘
数据生命周期
数据服务体系
服务生成能力
服务管控、鉴权、计量
运营体系和安全管理
持续发展最重要
数据中台建设的评估与选择
企业数据的成熟度
统计分析
企业战略方面
业务驱动
满足业务需求
实现业务流程化自动化
数据形态
少量业务积累
数据维度单一
无数据质量管理
数据场景
简单汇总
单一维度
基于业务定制开发
数据应用工具
导出报表
模式单一
组织架构方面
无相关部门
为某个业务部门提供excel
决策支持
企业战略
数据支撑经营决策思路
数据可视化实现业务与数据结合
解决业务问题
支撑管理决策
数据形态
维度逐渐丰富
数据质量管理
数据场景
基于业务进行数据收集管理分析
为管理人员提供决策支持
数据应用工具
针对数据收集和管理建立数据仓库、数据开发工具、可视化工具
进行系统化数据收集、管理、分析
组织架构
数据分析师
数据挖掘部门
数据驱动
企业战略
数据作为企业重要的资产和生成资料
提供数据服务,驱动业务发展
相关数据汇聚、打通、分析挖掘
数据形态
数据积累具备一定规模
数据处理应用
根据需求加工和标准化数据
数据场景
满足业务需求为主
提示业务现有能力
业务与数据开始融合
算法深入挖掘
为优化业务提供数据支撑
个性化推荐、风控、精准营销
数据应用工具
hadoop/spark
批计算
流计算
及时计算
在线计算
机器学习
深度学习
组织架构
数据团队
数据工程师
算法工程师
数据科学家
运营优化
企业战略
未来5到10年的数据能力支撑
可持续数据应用
数据形态
业务快速发展数据量快速增长
体系化、标准化数据采集存储打通应用流程
完善数据管理制度和规范
数据资产管理闭环
数据场景
统一的数据资产体系
统一的标准版数据服务能力
快速数据服务支持
数据应用工具
api、可视化形态服务
转移数据资产化管理工具
构建运营指标对数据价值质量安全统一度量
数据可持续应用
组织架构
数据管理委员会
cdo
数据资产运营部门
应用场景
金融行业
数据驱动向运营优化过度
业务强依赖数据
有数仓和垂直数据应用
自主可控
其余行业
基本没有达到数据驱动的程度
对数据利用不如金融行业充分
数据汇集连通
数据采集、汇集的方法和工具
线上行为采集
客户端埋点
服务端埋点
线下行为采集
硬件
物联网
摄像头
传感器
互联网数据采集
爬虫
内部数据汇集
结构化数据
半结构化数据
非结构化数据
周期性数据迁移
消息通知
工具
canal
模拟mysql交互协议
sqoop
以hadoop为核心
使用mapreduce程序实现
dataX
离线数据交互
本质上是结构化数据
数据交互产品
数据源管理
关系型数据库
mysql
oracle
postgres
nosql数据库
hbase
elasticserch
redis
mongodb
网络及mq
kafka
rocketmq
http
文件系统
hdfs
ftp
oss
csv
excel
大数据相关
hive
impala
kudu
离线数据交换
针对
时效性低
吞吐量达
大规模数据批量迁移
模块
读取
写入
数据交互
亮点
前置稽核
数据质量效验
规则匹配
数据转换
转换成标准数据格式
跨集群数据同步
支持跨集群迁移
全量同步
增量同步
新增
覆盖
更新
实时数据交换
数据库、日志、爬虫数据实时接入kafka hive中
核心服务
订阅服务client
数据订阅读取
任务实例启停控制
插件式设计思路
数据消费服务consumer
任务状态控制
数据解析
数据过滤
数据转换
数据写入
插件式设计思路,支持扩展不同类型的数据源写入
数据存储选择
问题
存储选择关系型数据库还是大数据相关技术?
现有存储和新存储直接的关系是什么?
业务维度
数据规模?
当前数据规模 未来发展规模
成本可控容易扩展
数据生成方式?
生产端没有存储
实时推送
数据采集时的存储满足实施落地时的需求
目标存储不具备高性能
直接加个写性能高的存储
数据应用方式?
数据使用场景?
业务使用场景
在线存储
时刻在线
磁盘
磁盘阵列
云存储
离线存储
数据备份
远离系统应用
硬盘
数据不同步
复制在线存储
oltp联机事务处理
面向事务任务的数据处理
涉及数据库的插入更新删除操作
面向用户
简单事务
olap联机分析处理
数据仓库
事务性、实时性比较低
通过多维度对数据分析生成报表
响应时间长
面向决策者
复杂查询
数据存储技术
分布式系统
分布式文件系统
分布式键值系统
nosql数据库
关系型数据库无法满足web2.0需求
海量数据管理需求
数据高并发需求
数据高扩展性需求
数据高可用需求
hbase、mongodb
云数据库
基于云计算计算的共享基础架构
数据开发
0 条评论
下一页