数据中台
2023-06-16 23:42:07 3 举报
AI智能生成
数据中台体系构建
作者其他创作
大纲/内容
数据中台-信息化
数据中台探索
数据中台整合数据应用
数据的多样性,多态性,汇聚交换能力
数据资产化
清洗
加工
治理
安全
质量等
数据服务化
使用数据的方法
数据中台重构的业务空间和数据空间
业务空间
数据空间
自主生产
消费
内外部交换
外部数据
数据体系
数据类目体系
标签类目体系
数据算法体系
数据中台4大核心能力
提存加工
标签体系
智能的数据映射
质量保障体系
完善的安全防控
服务可视
数据的可视服务
数据开发平台
AI服务平台
数据分析能力
汇整聚合
管理简便
集成与运营
确保访问权限
数据可用
价值变现
跨部门实现业务价值
数据应用管理
洞察驱动业务的通路
面向场景的数据应用
数据汇聚方式
线上行为采集
全埋点
使用服务SDK或者客户端SDK
可视化埋点
将终端设备的上的用户的一些操作,通过服务端配置的方式优选择性的记录并保存
代码埋点
按照需求定制每次的搜集内容,需要对应的终端模块进行升级
线下行为采集
wifi
考勤
安防等
互联网数据采集
爬虫
内部数据采集
数据存储
结构化数据
excel
半结构化数据
json,xml
非结构化数据
公共文档
图片
图像
数据汇聚
实时
cannal
maxwell
streamSets
NiFi
离线
数据交换产品
数据源和管理
关系型数据库
NoSQL数据库
网络及MQ
文件系统
大数据相关
离线数据交换
插件方式
读取插件
写入插件
数据交换核心
实时交换
数据订阅
数据消费
存储
OLTP
OLAP
MPP数据库
分布式文件系统
HDFS
分布式键值系统
Amazon Dynamo 的OBject Storeage
数据开发
离线开发
作业调度
依赖调度
DAG有向无环图
时间调度
基线控制
管理作业的指标
完成时间
优先级
告警策略
资源利用
智能预测
异构数据存储
通过组件的方式完成作业
规则校验
语法校验
多级环境级联
单一环境
生产环境
经典环境
开发环境存入脱敏数据
复杂环境
存在内外部环境,需要针队不同的用户进行脱敏等操作
数据权限
RBAC
基于角色
PBAC
基于策略
实时开发
数据特点
实时且无界的数据流
持续且高效的计算
流式切实时的数据继承
数据开发考虑的面
元数据管理
根据topic自动映射DataStrem
管理方式
JSON
AVRO
Protobuf
SQL驱动
生成临时视图
最终保存持久化
组件化开发
时间维度计算窗口
eventTime
算法开发
场景
金融风控和反欺诈
关联分析
标签传播
PageRank
社团发现等图算法组件
文本挖掘分析
命名实体识别
图挖掘
广告精准营销
特征分箱
PMI等算法组件
个性化推荐
XGBoost
协同过滤
分析用户行为构建多维用户画像
可视化建模
拖拽实验流
丰富算法组价
调度周期
告警通知
多角色协同
notebook建模
数据计算的四种类型
批量计算
海量数据,批量计算
框架
MapReduce
Spark
流计算
实时数据,毫秒RT
子主题
流式ETL
流式报表
监控预警
框架
Strom
FLink
SparkStream
在线计算
毫秒RT,高QPS
画像服务
搜索的应用场景
圈人场景
框架
Redis
Elasticsearch
即席计算
秒RT, 内存运算
框架
Impla
Kylin
ClinkHouse
数据采集交换的工具
业务系统的数据库数据同步
Informatica
Sqoop
DataX
系统间日志同步工具
logstash
Flume
Fluentd
非机构化数据同步
互联网数据爬取
数据体系建设
分层
贴源数据层ODS(只做简单的整合,不做加工)
表设计
一般命名ODS_系统简称_业务表前缀
字段保持和业务一致
保留增量和全量两种表
对于半结构化的数据不要存储原来的数据,需要做结构化处理
统一数仓层
明细数据层
汇总数据层
标签体系层(面向对象的建模,对跨业务板块,跨数据与的特定的对象的数据进行整合)
应用数据层(主要是通过抽取下面的数据形成业务需求的特定数据)
建模方式
推荐维度建模
数据类型
事实
维度
维度表设计
数据域划分
指标定义
维度表的设计
事实表的设计
标签
类型
属性标签
统计标签
算法标签
根目录
人
物
关系
标签设计的注意事项:标签只有一条记录,一个取值
标签融合表设计
纵表
K_V结构,每行表示表示一个数据
横表
普通二维表,每行表示一个对象
数据治理
DCMM
数据战略
数据架构
数据标准
数据质量
数据应用
数据生命周期
服务的创建部署
服务授权赋能
服务的运行监控
服务的更新升级
服务的到期停服下架
数据标准分类
业务数据标准
参考数据和主数据标准
参考数据
将其他数据进行分类或目录整编的数据,可以理解为数据字典 ,如性别,国家等
主数据
组织中需要跨系统,跨部门共享的核心业务数据,如共享的客户,商品等
数据元标准
是用一组属性描述其定义和标识,表示和允许值的数据单元
构成
对象类
表示值域
数据类型
指标数据标准
指标名称
指标解释
时间限定
指标数值
数据中台技术
批量离线计算能力
Hadoop,oracle RAC
实时计算能力
strom
spark streaming
flink
即席计算能力:针对决策类的
海量人群,ad-hoc
Greenplum
Elasticsearch
Impala
高并发业务场景:用户画像
MySQL
Redis
Oracle
目标准则
数据可视化
指标管理可视
元数据管理可视
数据源
数据集成
数据ETL
数据消费
数据建模
数据算法建模
数据可用
数据内容的额可用
数据任务的可用
数据服务的可用
数据指标
数据标签
数据可运营
质量量化管理
价值量化管理
数据运营角色
不同行业对于数据的需求
大金融(银行,保险,证券,互金)
业务强依赖于数据,对数据中台有真实的强需求
基本都有自己的数仓和垂直数据应用,有完善的技术团队
自主可控,对于中台的服务商要求较高
公共安全
业务的专业性要求比较高,对于数据服务商的资质要求较高
对于数据要强需求,数据中台和数据治理可以提上日程
零售
处于统计分析向决策支撑阶段
一般都是多端多渠道,包含门店,APP,小程序,服务号,电商等渠道
对多渠道的数据整合具有较强的需求,需要数据中台的能力做支撑
大多看中短期收益,不注重建设完整的数据中台的能力
地产
业务迫切,市场从黄金期进入到白银期,增量市场有限
数据整合需求:多业态的发展,需要数据整合能力
信息化基础
业务配合:业务部门具有较强的话语权,数据中体需要加强技术部门话语权
工业制造:
具有较好的数据基础:5G,物联网等
场景清晰
采集困难:工控软件不开放数据
政府
数据丰富
类目繁杂
项目规模大
央企
业务多元化
信息化基础好
有样板案例
数据模型的建设
数据概念模型
面向用户的,面向客观世界的模型,主要用来描述客观世界的概念化结构
逻辑数据模型
已概念模型为基础,根据业务线,业务事项,业务流程,业务场景的需要,设计的面向业务的模型
物理数据模型
面向计算机底层的,描述数据在储存介质上的结构
元数据
元数据理念
描述元数据的数据叫做元模型
元数据管理是数据治理的核心和基础
元数据是描述数据的数据
元数据的应用
元数据浏览和检索
数据血缘和影响性分析
数据冷热度分析
标签
标签管理
标签体系管理
标签与数据映射关系
标签的应用管理
标签池
标签场景
数据资产门户
数据资产地图
数据总量
每日增量
资产质量
冷热排名
分布
业务域流动关系
数据资产目录
数据资产检索
圈人服务
人群圈选
人群计量
多渠道对接
数据资产管理
数据资产目录
元数据
数据质量
数据血缘
数据生命周期
0 条评论
下一页