dw
2016-03-03 19:06:10 94 举报
数据仓库
作者其他创作
大纲/内容
MySQL
BI数据库
增量离线/实时
进HDFS
MapReduce/Hive
存储层HDFS/Kafka
报告数据输出
Spark
外部数据系统
HUE
PSR等个性化……
数据源Data Source
应用层Application
计算层MapReduceSparkHive
BI需求的中间表 贴近业务的大数据聚合
中间层Middle
行为数据Behavior(学生答题行为,老师布置行为)
实时
Log
模型数据Model(学生知识点掌握队列,E-S升级,IRT等,商业价值模型)
YARN
基础层Storage
离线/实时
database_sync
Spark Streaming流计算
进Kafka
统计Profile学生,家长等在不同维度(1、时间,2、空间,3、产品/终端/第三方)的多维度画像
数据仓库层Enterprise Data Warehouse
实时数据队列
个性化
报表层Report
MongoDB
多种数据类型离线及实时数据采集
多种BI统计报告 数据仓库各种大数据报告
Sqoop数据导出到BI数据库
第三方数据
基础Profile(学生,家长,教材等属性库)
Hadoop Streaming/Hive同粒度清洗
线上数据库的镜像及增量历史记录,业务埋点日志,用户行为日志,第三方情报数据
大数据报告等数据分析产品……
flume/爬虫
BIBI是数据仓库
收藏
0 条评论
下一页