项目规划
2019-01-21 11:23:11 0 举报
hadoop项目规划
作者其他创作
大纲/内容
Spark Streaming
外部引用
APS
API
Web
缺点:组件繁多,对技术要求较高,对于非实时分析kafka步骤可省略,直接采集数据写入hdfs即可
数据采集
业务流程图
前端展现
处理分析
逻辑加工分区存储
数据存储
Mysql配置
Hive/Impala格式转换
维度关联分区存储
优点:采用分布式系统配合传统数据仓库模型,层次清晰,处理分析逻辑严谨。采用hbase及impala技术,实现初始数据与中间层数据的即席查询,明确每一层级数据变化情况。
DWD
Hive on Spark数据分析
Sqoop
架构图
HDFS
JAVA
HBase供实时查询
过滤DWD取7天数据
Kafka
EDW
DWS
外部表hdfs引用
RDBMS关系型数据库
Oozie任务调度
Flume采集
0 条评论
下一页