大数据平台
2019-09-17 10:11:03 11 举报
AI智能生成
大数据技术栈,设计梳理
作者其他创作
大纲/内容
数据存储
上层存储
HBase
Parquet
ElasticSearch
MPP架构
Greenplum
RDBMS
MySQL
Oracle
图形数据库
OrientDB
Titan
Neo4j
内存DB
Alluxio
Redis
Ignite
Tachyon
TiDB
底层存储
HDFS
Ceph
Kudu
TiDB
数据传输
Sqoop
Flume
Kafka
RocketMQ
数据采集
ETL工具
informatica商业产品
Kettle
DataX
MapReduce
规则引擎
数据清洗
MapReduce程序编写
数据格式化
结构化数据
半结构化数据
非结构化数据
二进制数据
数据标准化
数据脱敏
标准
k-anonymity
l-diversity
t-closeness
方法
替换
重排
加密
截断
掩码
日期偏移取整
...
Sqoop
Flume
Logstash
Canal
爬虫
数据渠道
本地文件系统
TCP、HTTP、TFP
日志文件
数据库DB
数据埋点
数据流架构示例
技术栈
展示层
WEBGL(可视化大屏)
Oasis 3D
Canvas
HTML5+CSS+JS
服务层
智能缓存
事件分析
数据服务
数据挖掘
智能算法
决策引擎
人工
智能
工具层
快速报表
定制报表
Zeppelin
Kylin
Jupyter
Hue
集群监视
Ambair
Clouder Manager
Ganglia
数据计算
Job任务调度框架
Oozie
Azkaban
Zeus
数据分析
Presto
kylin
Phoenix
Tableau
数据分析模型
用户模型
事件模型
漏斗模型
热图分析模型
留存分析模型
粘性分析模型
全行为路径分析模型
用户分群模型
OLTP
OLAP
机器学习
Spark MLlib
Singa
Mahout
Caffe
TensorFlow
Microsoft Cognitive Toolkit (CNTK)
计算引擎
离线计算
Spark(内存计算)
MapReduce
实时计算
Storm
Spark Streaming
Flink
对比
查询分析
实时查询Add-hoc
SparkSQL
Impala
Druid
Hive on Spark
批处理查询Sql on MapReduce
Hive
Pig
分布式资源调度
YARN
Mesos
Kubernetes
Presto
其它(区块链框架)
Etherenum
HyperLedger
服务器三大体系
SMP:对称多处理器结构(Symmetric Multi-Processor)
NUMA:非一致存储访问结构(Non-Uniform Memory Access)
OLTP事务处理
MPP:海量并行处理结构(Massive Parallel Processing)
OLAP事务处理
标准数据仓库层级
APP,应用层
MID,数据集市层
PDW,数据仓库层
ODS,临时存储层
数据缓存层
核心数据层
分析应用层
案例
电信通讯
analysis层
bdl层
stage层
传统金融/保险
ods层
pdm层
dm层
互联网金融/电商
adl层
idl层
bdl层
odl层
辅助
DIM层
TMP层
示例
警务公安
应用数据层-APP
汇总数据层-ADL(集市)
宽表数据经过多维度数据分析
通用数据层-GDL(宽表)
基础数据经过数据计算后
操作数据层-ODL
维表数据层-DIM
基础数据层-FDL
业务数据备份层-BAK
缓冲数据层-BDL
FTPS资源文件
示例
设计经验
星型模型
雪花模型
表命名规范
ODL层:表名前缀 odl_
BDL层:表名前缀 bdl_
IDL层:表名前缀 idl_
ADL层:表名前缀 adl_
TMP表:表名前缀 tmp_
DIM表:表名前缀 dim_
外部表和内部表
外部表
内部表
建表规范
每个表增加个ds时间分区,表示数据是哪一天的,也方便重跑数据
boolean类型统一使用0或1
钱相关的金额建议使用decimal,而非double ,避免一些计算导致精度不准确
日期格式使用 YYYY-MM-DD HH:MM:SS 、YYYY-MM-DD或 YYYYMMDD格式
...
概念区分
数据湖
商业数据湖产品
数据仓库
离线大数据架构
Lambda 架构
Kappa 架构
大多采用混合架构
对比
商业数据仓库产品
Oushu
Lava Cloud
OushuDB
LittleBoy
两者区别
物理设施
SAAS(Software as a Service),软件即服务
PAAS(Platform as a Service),平台即服务
LAAS(Infrastructure as a Service),即基础设施即服务
架构示例
子主题
子主题
子主题
大数据发展史
收藏
收藏
0 条评论
下一页