数据中台
2023-06-16 23:42:07 3 举报
AI智能生成
数据中台体系构建
作者其他创作
大纲/内容
数据中台探索
数据的多样性,多态性,汇聚交换能力
清洗
加工
治理
安全
质量等
数据资产化
使用数据的方法
数据服务化
数据中台整合数据应用
业务空间
自主生产
消费
内外部交换
外部数据
数据空间
数据中台重构的业务空间和数据空间
数据类目体系
标签类目体系
数据算法体系
数据体系
数据中台-信息化
标签体系
智能的数据映射
质量保障体系
完善的安全防控
提存加工
数据的可视服务
数据开发平台
AI服务平台
数据分析能力
服务可视
管理简便
集成与运营
确保访问权限
数据可用
汇整聚合
跨部门实现业务价值
数据应用管理
洞察驱动业务的通路
面向场景的数据应用
价值变现
数据中台4大核心能力
使用服务SDK或者客户端SDK
全埋点
将终端设备的上的用户的一些操作,通过服务端配置的方式优选择性的记录并保存
可视化埋点
按照需求定制每次的搜集内容,需要对应的终端模块进行升级
代码埋点
线上行为采集
wifi
考勤
安防等
线下行为采集
爬虫
互联网数据采集
excel
结构化数据
半结构化数据
公共文档
图片
图像
非结构化数据
数据存储
内部数据采集
cannal
maxwell
streamSets
NiFi
实时
离线
数据汇聚
关系型数据库
NoSQL数据库
网络及MQ
文件系统
大数据相关
数据源和管理
插件方式
读取插件
写入插件
数据交换核心
离线数据交换
数据订阅
数据消费
实时交换
数据交换产品
OLTP
MPP数据库
OLAP
HDFS
分布式文件系统
Amazon Dynamo 的OBject Storeage
分布式键值系统
存储
数据汇聚方式
DAG有向无环图
依赖调度
时间调度
作业调度
完成时间
优先级
告警策略
资源利用
智能预测
管理作业的指标
基线控制
通过组件的方式完成作业
规则校验
语法校验
异构数据存储
生产环境
单一环境
开发环境存入脱敏数据
经典环境
存在内外部环境,需要针队不同的用户进行脱敏等操作
复杂环境
多级环境级联
基于角色
RBAC
基于策略
PBAC
数据权限
离线开发
实时且无界的数据流
持续且高效的计算
流式切实时的数据继承
数据特点
根据topic自动映射DataStrem
JSON
AVRO
Protobuf
管理方式
元数据管理
生成临时视图
最终保存持久化
SQL驱动
数据开发考虑的面
eventTime
时间维度计算窗口
组件化开发
实时开发
关联分析
标签传播
PageRank
社团发现等图算法组件
金融风控和反欺诈
命名实体识别
图挖掘
文本挖掘分析
特征分箱
PMI等算法组件
广告精准营销
XGBoost
协同过滤
分析用户行为构建多维用户画像
个性化推荐
场景
拖拽实验流
丰富算法组价
调度周期
告警通知
多角色协同
可视化建模
notebook建模
算法开发
海量数据,批量计算
MapReduce
Spark
框架
批量计算
子主题
实时数据,毫秒RT
流式ETL
流式报表
监控预警
Strom
FLink
SparkStream
流计算
画像服务
搜索的应用场景
圈人场景
Redis
Elasticsearch
在线计算
Impla
Kylin
ClinkHouse
即席计算
数据计算的四种类型
Informatica
Sqoop
DataX
业务系统的数据库数据同步
logstash
Flume
Fluentd
系统间日志同步工具
非机构化数据同步
互联网数据爬取
数据采集交换的工具
数据开发
一般命名ODS_系统简称_业务表前缀
字段保持和业务一致
保留增量和全量两种表
对于半结构化的数据不要存储原来的数据,需要做结构化处理
表设计
贴源数据层ODS(只做简单的整合,不做加工)
明细数据层
汇总数据层
统一数仓层
标签体系层(面向对象的建模,对跨业务板块,跨数据与的特定的对象的数据进行整合)
应用数据层(主要是通过抽取下面的数据形成业务需求的特定数据)
分层
事实
维度
数据类型
维度表设计
推荐维度建模
数据域划分
指标定义
维度表的设计
事实表的设计
建模方式
属性标签
统计标签
算法标签
类型
人
物
关系
根目录
标签设计的注意事项:标签只有一条记录,一个取值
K_V结构,每行表示表示一个数据
纵表
普通二维表,每行表示一个对象
横表
标签融合表设计
标签
数据治理
数据体系建设
数据战略
数据架构
数据标准
数据质量
数据应用
服务的创建部署
服务授权赋能
服务的运行监控
服务的更新升级
服务的到期停服下架
数据生命周期
DCMM
业务数据标准
将其他数据进行分类或目录整编的数据,可以理解为数据字典 ,如性别,国家等
参考数据
组织中需要跨系统,跨部门共享的核心业务数据,如共享的客户,商品等
主数据
参考数据和主数据标准
是用一组属性描述其定义和标识,表示和允许值的数据单元
对象类
表示值域
构成
数据元标准
指标名称
指标解释
时间限定
指标数值
指标数据标准
数据标准分类
批量离线计算能力
strom
spark streaming
flink
实时计算能力
Greenplum
Impala
即席计算能力:针对决策类的
MySQL
Oracle
高并发业务场景:用户画像
数据中台技术
指标管理可视
元数据管理可视
数据源
数据集成
数据ETL
数据建模
数据算法建模
数据可视化
数据内容的额可用
数据任务的可用
数据服务的可用
数据指标
数据标签
质量量化管理
价值量化管理
数据运营角色
数据可运营
目标准则
基本都有自己的数仓和垂直数据应用,有完善的技术团队
自主可控,对于中台的服务商要求较高
大金融(银行,保险,证券,互金)
业务的专业性要求比较高,对于数据服务商的资质要求较高
对于数据要强需求,数据中台和数据治理可以提上日程
公共安全
处于统计分析向决策支撑阶段
一般都是多端多渠道,包含门店,APP,小程序,服务号,电商等渠道
对多渠道的数据整合具有较强的需求,需要数据中台的能力做支撑
大多看中短期收益,不注重建设完整的数据中台的能力
零售
业务迫切,市场从黄金期进入到白银期,增量市场有限
数据整合需求:多业态的发展,需要数据整合能力
信息化基础
业务配合:业务部门具有较强的话语权,数据中体需要加强技术部门话语权
地产
具有较好的数据基础:5G,物联网等
场景清晰
采集困难:工控软件不开放数据
工业制造:
数据丰富
类目繁杂
项目规模大
政府
业务多元化
信息化基础好
有样板案例
央企
不同行业对于数据的需求
面向用户的,面向客观世界的模型,主要用来描述客观世界的概念化结构
数据概念模型
已概念模型为基础,根据业务线,业务事项,业务流程,业务场景的需要,设计的面向业务的模型
逻辑数据模型
面向计算机底层的,描述数据在储存介质上的结构
物理数据模型
数据模型的建设
描述元数据的数据叫做元模型
元数据管理是数据治理的核心和基础
元数据是描述数据的数据
元数据理念
元数据浏览和检索
数据血缘和影响性分析
数据冷热度分析
元数据的应用
元数据
标签体系管理
标签与数据映射关系
标签的应用管理
标签池
标签场景
标签管理
数据总量
每日增量
资产质量
冷热排名
分布
业务域流动关系
数据资产地图
数据资产目录
数据资产检索
数据资产门户
人群圈选
人群计量
多渠道对接
圈人服务
数据血缘
数据资产管理
数据中台
0 条评论
回复 删除
下一页