大数据系统流程简述
2023-12-08 11:20:15 1 举报
数据采集、数据同步、数据加工、数据处理、数据应用、离线数仓
作者其他创作
大纲/内容
多维分析报表
数据源
logServer
Kafka
Nginx
/origin_data/gmall/log/topic_start
/origin_data/gmall/log/topic_event
数据存储
数据仓库
类型拦截器
业务系统
logFile
Hbase
数据入库到HDFS后,在HDFS上创建数据仓库,数据仓库的分层可以根据具体场景建设,行业通用标准是5层;ODS层:源数据,不做处理;各种来源的数据归集在这一层;DWD层:数据标准化(词根、码表等),数据治理,数据清洗,定义好事实表,确认每张表的主键、分区DIM层:维度层,存放维度表;根据不同场景涉及不同的维度方式,有缓慢变化维(Slowly Changing Dimension)快速变化维(Rapidly Changing Dimension)大维(Huge Dimension)杂项维(Junk Dimension)退化维(Degenearate Dimension)多值维(Multivalue Dimension)等等DWS层:建立轻度汇总表,也就是模型;这里有周期性事实表、累计型事实表、事务性事实表,不同场景选择不同的表ADS层:应用层,根据需求方、业务方建表;也可以是多维分析表等;
数据应用
Flume(P)
mysql/oracle
web/app埋点数据
ES
clickhouse
ETL拦截器
/origin_data/gmall/db/$tb_name/$date
mysql
trino
web/app业务数据
sqoop
系统架构
HDFS
数据入库
数据分析
业务Server
数据采集
topic_start topic_event
数据来源有两部分:一是app/web用户行为埋点数据;二是业务系统的业务数据
文本检索
Flume(C)
.......更多应用
Spark
接口输出
hive
0 条评论
下一页