新版BI系统架构图
2019-07-26 10:04:25 2 举报
BI系统数据流架构,包括实时和离线计算流程
作者其他创作
大纲/内容
java定时计算
Hdfs
日志接收server
http
日志汇总
关系数据库
BI报表系统
flume 双机轮询
日志汇总server
公网
客户端sdkios/安卓
日志接口集群
flume 日志采集
离线计算
实时计算集群
rsync
Kafka
消息队列
架构说明:1. 要求合作方必须按照约定的日志格式打点。2. 与合作方约定一种实时日志采集方式:rsync定时文件同步或者flume文件采集。3. 离线日志同步,需要确定合作方是否提供日志汇总服务器。有,则从日志汇总服同步文件到BI的日志接收服。无,则从每台server服上同步文件。4. 存当天数据的hive事实表为json格式。全量数据的hive事实表为parquet格式,节约存储空间。维度表保存在Kudu里。所有表都用Impala查询。5. CDH采用6.0+版本,开启纠删码,以节约数据备份所需存储空间。6. Kafka默认保留7天数据,partitions为3。7. redis中除用户、角色、设备存档永久保留,其他key只保留8天,也就是留存最多算到+7日留。8. 报表结果数据表按天分区。
接口server
负载均衡
Hadoop集群
Redis
Kudu
Hive
flume 日志合并
Game Server
用户
Impala
Flink on Yarn
0 条评论
下一页