数据中台相关基础常识
2022-07-13 12:15:19 3 举报
数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制。数据中台建设是以数据为核心,重新定义并设计IT系统,利用大数据、人工智能等新技术,构建数据采集、计算、存储、加工和应用的闭环平台,提高数据的可靠性和可用性,降低数据的获取成本和处理成本。
作者其他创作
大纲/内容
移动中台
区别
内存数据库
业务数据提供接口
数据访问 JDBC / DB Connection / Data API / Restful API
这两个中台比较像,因为搜索和推荐的技术比较相似。这两个中台一般是为推荐和搜索系统提供一套相对标准的工作流程,同时支持流程各环节的可定制能力,从而支持多个前端推荐搜索业务的快速开发。
数据采集
RDBMS
代表
数据中台必须直接支撑前端业务
OLAP
DWD(Data Warehouse Detail),明细数据层
数据管理
CDC
数据传输
数据平台,就是把那些有共性的资源,有共性的能力合并在一起,然后把那些面向客户的价值独立出来,这样的话,专业的人做专业的事情,并且对于企业的绩效也非常的有利,不揉在一块了,更加的清晰,这就是平台化的思路,可以看到,平台也是具有沉淀共享的性质的,因此很多人把平台当成中台来讲,这个是不对的。
结论
面向主题
数据工具链
基本没有建设投入
数据开放接口
原始格式
Kettle/Datax
数据中台
数据血缘
Program
大容量
数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统,它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。(来自维基百科)
内容中台往往也可以认为是一种特殊的数据中台,一般以内容的采买、内容爬取、内容的加工处理、内容安全保障等为典型特征。
线下数据
规则引擎
基础底层建设
数据集市
……
数据质量
数据同步
调度系统
统一接入,统一消费
爬虫
典型的中台
(狭义的)一般指在线业务为典型特征的中台。在OLDI(Online Data-Intensive)时代,越来越多的企业的核心业务都是在线业务,因此把在线业务中台简称为业务中台。但对那些不是以在线业务为主的企业,它需要的业务中台可能就不是在线业务中台了,而是数据中台或别的什么中台。
治理报告
剥离无关业务的技术
管理接口
数据应用
随时间变化
数据权限管理
可快速实现
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。(来自百度百科)
无需技术规范
特征
数据平台
不可更新删除
机器学习 TensorFlow
Flume/Sqoop
管理系统
这些中台只是捏造概念,实际上没有的
制定技术标准和规范
数据集市(Data Mart)
不处理数据
API
技术中台
数据中台使得我基于业务的需要去打造数据仓库,而不是建立的数据仓库在想业务场景,数据中台与数据仓库的区别也不在于技术本身,而在于有没有业务思维。
其他
理论上,数据仓库跟数据中台很难说有本质区别,这是数据中台被数据仓库从业者诟病的原因,但两者对业务的支撑广度和深度不在一个级别上,数据仓库仅仅赋能决策支持,而数据中台对业务的支持是全方位的,其不仅通过API等形式直接嵌入到业务流程中发挥作用,而且还能通过数据产品直接创造价值。
搜索推荐中台
批处理 Spark
存储模型
数据总线
内容中台
数据检索
DWB(Data Warehouse Base),基础数据层
NOSQL
数据中台是个体系,包括组织、平台、工具、数据等等
数据中台的数据模型构建以业务为核心
针对性强
原始数据
数据模型
由业务部门管理
数据仓库
流处理 Flink
数据工具链,没有官方定义。但是根据一些资料进行总结概括--通过借助集群能力,通过或使用开源或自研,来扩展数据转换与输出的能力,提供更多种的数据流形式,以满足上层数据服务需求的技术工具组成的处理链路,实际上就是多个数据处理工具
功能由业务决定
第三方系统
一般指以数据采集、数据集成、数据治理,指标体系和数据仓库统一建设等数据管理活动为典型特征的中台。同样,在OLDI时代,数据中台越来越重要。狭义的业务中台也就是在线业务中台负责OLDI中的OL(Online),数据中台负责OLDI中的DI(Data-Intensive)。
数据平台
数据集市(Data Mart),也叫数据市场,数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。 (来自百度百科)
非规范(数据冗余)
伪中台
生产
BI
分层
事件处理 Phoneix
快速的探索数据从而创造价值
业务系统
数据仓库(Data Warehouse)
用户中台
不做共性沉淀
数据湖(Data Lake)
计算引擎
数据队列
数据治理
DataConnetion
用户中台可以认为是一种特殊的数据中台,一般以用户ID统一、全域用户画像建设、全域会员体系建设等为典型特征。用户中台很通用,比更广义的数据中台往往更常见。很多企业没能力建设更全面的数据中台,但建设了会员中心等用户中台。
中台只是个概念,百度百科给的定义也是含糊不清,没有太多解释,在此我引用其他文章中的一个定义,言简意赅更好理解——数据中台是支持多个前台业务且具备业务属性的共性数据能力体系https://mp.weixin.qq.com/s/h_0QAetc-s99lDFVohI65g
数据湖
研发中台
DataFile
ODS(Operation Data Store),操作数据层
线上数据
报告展示
数据任务管理
一般来说,没有技术中台,这是因为以技术为典型特征,又具备业务属性的中台太难找了,没有一个很好的案例。可以看看业界所谓的阿里的技术中台,包含了从IaaS到中间件等一系列在线业务技术,但能称这些为中台吗?可以把里面每个模块都拿出来分析,保证你找不到一个跟业务相关的字眼。所以这些并不是中台。
DWS(Data Warehouse Service),服务数据层
数据运维管理
数据抽取
数据转换
不进行数据预先建模
Kafka
体量小,规模小
数据安全管理
数据服务
数据可视化
AdHoc
数据仓库不直接提供数据服务支持
数据源
数据中台是限于行业或企业的,而数据平台则有更大的普适性,这是由数据中台的业务特性所决定的,所以中台不可售卖,而平台是可售卖的。(实际销售上会蹭热度)
直接暴露原始数据
Input
数据仓库不通过数据产品创造价值
面向业务单位
元数据
集成数据
数据中台
数据监控管理
数据中台提供的数据能力可以复用共享
文件数据库
对外提供
业务中台
算法中台
0 条评论
下一页