数据存储架构设计
2018-05-15 20:43:10 0 举报
数据存储架构方案
作者其他创作
大纲/内容
数据ETL
Streamcomputer
实时监控
数据网关
消息总线
获取结果
MQ/HBASE
模型训练
sdk数据采集
DATAX同步工具定期将RDS数据同步到odps
模型部署
共用整合层(维度建模数据、基础指标数据)
逻辑分离、自有加工
数据仓库datamodel设计
授权数据
脏数据清洗/结构化解析微服务实现(开源框架SparkStream/Flink做数据的ETL)
实时
流计算平台数据实时处理场景:
api接口调用
SparkStreaming
数据清洗整合
RDS
离线
数据报表
数据集市层
非授权数据(第三方征信数据)
决策引擎
实时场景
DATAX工具将odps数据转存关系型数据库
消息队列(RoketMQ)
主动拉取
数据存储与分析
实时流计算平台
将MQ中的数据Sink到RDS中
DB业务库
维度建模
1.datahub的topic中永远都有数据,实时场景
将MQ中的清洗后的数据Sink到HDFS中
ODS主题模型层(近贴源)
数据采集
数据传输
数据存储
DATAHUB
离线场景
Authdata微服务鉴权商户,挡掉非法请求
DTS
实时处理的中间数据及标签类数据通过DATAX定期转存到odps中
将MQ中的清洗后的数据Sink到实时数据库HBASE
实时指标库
消息队列(KAFKA)
数据同步数据仓库
2.datahub中topic的数据因源头数据超过datahub生命周期仍没有新的数据插入(因datahub的数据超过生命过期,会导致datahub的offset和blink state中的offset是不一致的,会报错),且统计类的需求,如:count/sum/avg/min/max等指标类统计的需求,只需要修改#rocksdb的数据生命周期参数配置,单位毫秒(#state.backend.rocksdb.ttl.ms=129600000)
用户画像
数据共享
数据应用
MYSQL/HBASE
DW主题模型层(三范式)
阿里云流计算平台
孚临流计算平台
0 条评论
下一页