大数据技术体系
2023-12-18 14:29:07 1 举报
AI智能生成
大数据理论概览
作者其他创作
大纲/内容
理论基础
数据已经从GP到PB演变,数据量大
数据分片路由
Hash Partion(哈希分片)
Round Rabin
Virtual Buckets(虚拟桶)
Consistent Hashing(一致性哈希)
Range Partion(范围分片)
数据复制&数据一致性
场景
多副本数据复制和一致性保证
理论支持
CAP
ACID
BASE
副本更新策略
主从更新
同步更新
任意结点更新
一致性模型
强一致性
最终一致性
因果一致性
会话一致性
单调读一致性
单调写一致性
一致性协议
两阶段提交协议
向量时钟
RWN协议
Paxos协议
Raft协议
Gossip协议
大数据常用算法和数据结构
SkipList
Bitmap
LSM树
Snappy
LZSS
Cuckoo哈希
Mekle哈希
Bloomfilter
Trie树
数据采集
系统日志/用户行为日志
埋点
浏览器打点
app/小程序打点
服务器端打点
框架
Chukwa
Splunk Forawarder
Flume
Fluentd
Logstash
Scibe
外部网络数据
内容
文本/视频/图片等数据
用户/商户非敏感数据
方式
爬虫
对方open Api
爬虫技术
Nutch
Heritrix
Scrapy
WebCollector
网络数据
网络设备数据
传感器/探针等
数据传输
消息队列
Kafka
RocketMQ
ActiveMQ
RabbitMQ
Apollo
数据同步
Sqoop
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具。
可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,
也可以将HDFS的数据导进到关系型数据库中。
可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,
也可以将HDFS的数据导进到关系型数据库中。
DataX
DataX 是一个异构数据源离线同步工具。
致力于实现包括关系型数据库、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
致力于实现包括关系型数据库、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
Dbsync
数据库同步备份工具
支持异构数据库之间同步
支持异构数据库之间同步
Kettle
允许管理来自不同数据库的数据,
可以将各种类型数据作为数据流,
经过处理后再生成各种类型的数据
可以将各种类型数据作为数据流,
经过处理后再生成各种类型的数据
数据订阅
阿里云DTS
Otter
淘宝Time Tunnel
Databus
WormHole
Canal
基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费
序列化
JSON
Hessian
Protobuf
Avro
MessagePack
Kyro
FST
数据归一化处理
数据清洗
DMP
CDP
数据组织集成
数据存储
物理存储
网络架构
DAS
NAS
SAN
底层存储类型
文件
FTP、NFS服务器等
NAS(Network Addapter Storage)
块
磁盘阵列-RAID
DAS(Direct Attach Storage)
SAN(Storage Area Network)
对象
逻辑存储
分布式关系型数据库
DRDS
TiDB
GreenPlum
Cobar
Aurora
Mycat
分布式文件/对象存储
HDFS
OpenStack
SwiftCeph
GlusterFS
Lustre
AFS
OSS
分析型数据库
Kylin
AnalyticDB
Druid
Clickhouse
Vertica
MonetDB
InfiniDB
子主题
KV数据库
Redis
Memcached
Tair
图数据库
Titan
Neo4J
ArangoDB
OrientDB
MapGraph
ALLEGROGRAPH
列存储数据库
Phoenix
Cassandra
Hbase
Kudu
Hypertable
文档型数据库
MongoDb
CouchDB
OrientDB
MarkLogic
搜索引擎
Elasticsearch
Solr
OpenSearch
数据计算
计算模型
流式计算(Streaming compute)
Storm
Flink
Yahoo S4
Kafka Stream
Twitter Heron
Apache Samza
Spark Streaming
大规模批量计算(batch compute)
Tez
MapReduce
Hive
Spark
Pig
大数据的编程模型Apache Beam
即席查询分析(ad-hoc query)
Impala
Hawq
Dremel
Drill
Phoenix
Tajo
Presto
Hortonworks Stinger
全量计算&增量计算
系统架构
Lambda架构
Kappa架构
IOTA架构
Microsoft Kineograph
Galaxy
Google Percolator
Druid
图计算
基础知识
GAS编程模型
BSP模型
节点为中心编程模型
计算范型
框架工具
Pregel
GraphChi
Spark GraphX
PowerGrah
Apache Giraph
Apache Hama
工具框架
分布式协调系统
Chubby
阿里Diamond
阿里ConfigServer
zookeeper
Eureka
Consul
集群资源管理和调度
管理调度框架
Omega
Brog
Mesos
Corona
Yarn
Torca
管理和监控工具
Ambari
Chukwa
Hue
工作流管理引擎
Oozie
Azkaban
Luigi
Airflow
数据仓库
基本概念和原理
体系结构
数据仓库设计
数据建模
数据分析挖掘
基本概念
方法分类
通用的数据挖掘方法
分类聚类
预测&回归
时间序列分析
关联规则&偏差检测
…………
统计分析
主成分分析
因子分析
机器学习
决策树
贝叶斯
遗传算法
…………
深度学习
卷积神经网络
RBN
DBN
…………
工具框架
Mohout
Spark Mlib
Tensorflow
…………
平台
DAS
PAI
…………
数据测试
大数据基准测试
Bigtop
数据湖
一切数据皆资产
一切数据皆保留
数据资产
平台工具
数据应用
基本概念
大数据商业价值
数据产品分类
BI
应用领域
数据服务
数据链接
OLAP
语法解析
数据处理
SqlLite
Groovy
Aviator
Guava
规则流编排
Drools
Activiti
Tiny
Blockly
服务化
dubbo
hsf
Spring Boot
Spring Cloud
限流降级
Sentinel
Hystrix
数据可视化
数据可视化基础
可视化流程
可视化通道
可视化设计
科学可视化
信息可视化
可视化分析
交互技术
交互模式
常用图标分类
可视化框架
G2
Raphael图例库
D3.js
Bonsaijs
arborjs
Springy
Raw
Echart
常用调色板
Fusion
FairyUI
模板引擎
数据共享
系统集成
页面集成
区块集成
API集成
方式
文件
打印
截图
分享渠道
钉钉
邮件
…………
数据预警
调度
Quartz
opencron
LTS
xx-job
Elastic-job
规则引擎脚本
Groovy
Aviator
drools
预测
应用部署
容器化
docker
k8s
PouchContainer
国际化
打包集成
maven
gradle
sonar
jekins
web 容器&服务器
Tomcat
Jetty
ngix
数据治理
数据治理相关概念
国际数据治理理论
ISO38500IT治理框架
DAMA理论
DGI理论
IBM数据治理理论
ISACA COBIT5
数据治理框架
原则
范围
战略&组织
数据质量
数据生命周期
数据架构
数据安全
大数据服务创新
实施评估
成熟度评估
审计
??
数据规范标准
元数据管理
基本概念
元数据采集和存储
元数据查询分析
专题管理
血缘分析
生命周期管理
业务属性管理
一致性检测监控
工具框架
Cloudrea Navigator
公共仓库元模型(CWM)
HCatalog
Apache Atlas
WhereHows
亿信华辰FsPowerMeta
数据质量
基本概念
质量管理参考框架
策略
控制目标
职责角色
流程方法
支撑保障
实施方法
常用工具方法
主数据管理
大数据架构管理
数据应用治理
数据安全
数据采集传输安全
VPN
SSL&https
数字签名
数据加密
数据存储安全
数据脱敏
数据匿名保护
备份恢复
数据加密
数据管理安全
身份验证
Kerberos
访问控制(IAM)
自主访问控制(DAC)
强制访问控制(MAC)
角色访问控制(RBAC)
Sentry
Ranger
数据安全治理
DCAP(Data Centric Audit and Protection
DLP(Data Leakage Prevention)
DSG & DSMM(数据安全成熟度模型)
UEBA(用户与实体行为分析)
数据应用安全
数据防爬
数据水印
数据审计
可信计算技术
数据溯源
业界框架产品
APache Faclon
亿信睿治数据治理平台
华为数据治理
普元大数据治理解决方案
0 条评论
下一页