数据处理流程
2018-11-27 15:19:18 33 举报
zyuc数据处理
作者其他创作
大纲/内容
数据加载
实时监测
HDFS
partition n
Hbase
数据一致性处理
授权模块
请求服务
Spark Streaming
结构化存储
数据质量管理模块
质量管理规则库
服务代理模块
Elasticsearch
Redis
NoSql
服务分发
提交Spark任务
Hive
Spark Server
根据唯一标识, 保证数据处理一致性
...
正式分区
大数据平台
流式自适应数据定制管理平台
统一数据接口
offset数据存储
消息队列
Filebeat
定制工具
内部认证模块
主应用
Streaming
Land Data
Flume
Direct Stream初始化
Log
partition 1
外部认证模块
大数据管理平台
集群客户端
提交offsets
请求
异常恢复
Json
输入流
HDFS数据源
数据落地
任务接入
CSV
配置规则库
文件
清洗
关系型数据库
空点补传
Thrift Server
清洗数据, 生成ORC格式文件
加载数据
断点续传
ZK
accesslog/temp/201811071429/d=181107/h=14/m5=20/201811071429-0.orcaccesslog/temp/201811071429/d=181107/h=14/m5=15/201811071429-1.orcaccesslog/temp/201811071429/d=181107/h=14/m5=25/201811071429-2.orc
数据处理、审查、校验
Kafka
MySQL
Oracle
异构数据扇出接口
DWH
Spark处理
异构数据接入接口
Kafka Cluster
Hadoop集群3
数据保护模块
审计模块
分布式服务
监控告警
Hadoop集群1
数据处理引擎
响应
src/201811071429
Hadoop集群2
Phoenix
流处理
获取offset
数据库
Topic A
Livy
Sqoop
数据存储
临时目录
accesslog/data/d=181107/h=14/m5=20/201811071429-0.orcaccesslog/data/d=181107/h=14/m5=15/201811071429-1.orcaccesslog/data/d=181107/h=14/m5=25/201811071429-2.orc
0 条评论
下一页