数据架构
2019-09-20 15:26:35 90 举报
AI智能生成
数据架构
作者其他创作
大纲/内容
1. 数据采集
网站日志
业务数据库
来自于Ftp/Http的数据源
2. 数据存储与分析
数据存储
Oracle
HDFS
分布式文件系统
NameNode
主节点 :只有一个
接受用户操作请求
维护文件系统的目录结构
管理文件与block之间关系,block与datanode之间关系
DataNode
从节点
有很多个
存储文件
文件被分成block存储在磁盘上
文件有多个副本
数据仓库
Oracle
STAGE
DWD
MID
DM
用户
行为
商家
商品
DIM
Hive
ODS
DWD
DWA
DIM
数据分析和计算
ETL
国信自研产品
主流开源产品
Kettle
Airflow
MapReduce
分布式计算框架
JobTracker
主节点:只有一个
接受用户提交的技术任务
把计算任务分配给TaskTracker执行
监控TaskTracker的执行情况
TaskTracker
从节点:有很多个
执行JobTracker分配的计算任务
MR任务调度
FIFO批处理队列调度器
Capacity Scheduler 多用户容量调度器
FairScheduler 多用户公平调度器
Spark
概述
基于内存计算的大数据并行计算框架,构建大型、低延迟的数据分析应用程序
使用DAG执行引擎以支持循环数据流与内存计算
支持Scala、Java、Python和R语言进行编程
完整的技术栈:SQL查询、流式计算、机器学习和图算
独立集群、云上环境可读取Cassandra、HBase、Hive等数据源
3. 数据应用
统计报表
分类
维度
指标
数据可视化
数据报告
抓重点业务或关键路径
体系化叙述
重点数据解释
编写参考 玩转keynote
商业智能
关键指标转化
影响业务决策
影响运营决策
影响老板决策
业务附能
数据预警
数据预测
数据查询
对运营支持的数据工具
对业务销售支持的数据工具
数据产品
To B产品
行业标准和数据共享
垂直行业指数项目
B端客户数据价值展示
To C产品
结合产品规划
推荐
搜索
风控
舆情
用户画像
反作弊
场景探索
IOT场景
AI场景探索
数据交换场景
规则漏洞-业务场景漏洞-效率优化
0 条评论
下一页