大数据技术体系
2021-04-23 10:22:57 8 举报
AI智能生成
大数据技术体系(持续更新),后续会对单个知识点持续做分享
作者其他创作
大纲/内容
基础技术
数据分片路由
哈希分片(Hash Partition)
Round Robin
虚拟桶(Virtural Buckets)
范围分片(Range Partition)
数据复制&一致性
CAP/ACID/BASE原则
副本更新策略
主从式更新
同时更新
任一节点更新
一致性模型
强一致模型
最终一致模型
因果一致性
会话一致性
单调读一致性
单调写一致性
一致性协议
两阶段提交协议
向量时钟
RWN协议
Paxos协议
Raft协议
Gossip协议
大数据常用算法与数据结构
SkipList
Bitmap
LSM树
Snappy与LZSS算法
Cuckoo哈希
Mekle哈希树
布隆过滤器(Bloom Filter)
Trie树
数据采集
系统日志采集
埋点
浏览器(PC)打点
无线客户端
服务端打点
数据采集框架
Chukwa
Splunk Forwarder
Flume
Fluentd
Logstash
Scribe
网络数据采集
手段:爬虫或者公开API等
内容:文本、视频、图片数据
爬虫技术
Nutch
Heritrix
Scrapy
WebCollector
设备数据采集
数据传输
消息队列
ActiveMQ
ZeroMQ
RabbitMQ
Kafka
Apollo
RocketMQ
数据同步
DataX
Sqoop
DbSync
Kettle
数据订阅
阿里云DTS
Otter
淘宝TimeTunnel
Databus
Wormhole
序列化
Avro
MessagePack
Kryo
Hessian
Protobuf
JSON
FST
数据组织集成
数据存储
物理存储
主流存储系统网络架构
DAS
NAS
SAN
存储类型
文件存储
FTP、NFS服务器
NAS(Network Attached Storage)
块存储
磁盘阵列(Rdundant Arrays of Independent Disks,RAID)
RAID0
RAID1
RAID5
RAID10
DAS (Direct Attach Storage)
SAN (Storage Area Network)
对象存储
分布式文件/对象存储系统
OSS
HDFS
OpenStack Swift
Ceph
GlusterFS
Facebook Hasystack
Lustre
AFS
分布式关系型数据库
DRDS
TiDB
GreenPlum
Mycat
Cobar
Aurora
分析型数据库
Kylin
Aanalytic DB
Druid
Clickhouse
Vertica
MonetDB
InfiniDB
LucidDB
搜索引擎
Elasticsearch
Solr
OpenSearch
键值存储数据库
Redis
Memcached
Tair
图数据库
Titan
Neo4J
ArangoDB
OrientDB
MapGraph
ALLEGROGRAPH
列存储数据库
Cassandra
Kudu
Hbase
Hypertable
Apache Accumulo
文档数据库
MongoDB
CouchDB
MarkLogic
OrientDB
数据计算
流式计算(stream computing)
Storm
Flink
Yahoo S4
Kafka Stream
Twitter Heron
Apache Samza
Spark Streaming
大规模批量计算(batch computing)
Tez
MapReduce
Hive
Spark
Pig
大数据的编程模式:Apache Beam
即席查询分析(ad-hoccomputing)
Impala
Hawq
Dremel
Drill
Phoenix
Tajo
Presto
Hortonworks Stinger
全量计算&增量计算
基础知识
Lambda架构
Kappa架构
IOTA架构
Microsoft Kineograph
Galaxy
Google Percolator
Druid
图计算
基础知识
GAS编程模型
节点为中心编程模型
计算范型
BSP模型
Pregel
GraphChi
Spark GraphX
PowerGrah
Apache Giraph
Apache Hama
分布式协调系统
Chubby
阿里Diamond
阿里ConfigServer
zookeeper
Eureka
Consul
集群资源管理和调度
管理调度框架
Omega
Brog
Mesos
Corona
Yarn
Torca
管理和监控工具
Ambari
Chukwa
Hue
工作流管理引擎
Oozie
Azkaban
Luigi
Airflow
数据仓库
基本概念&原理
体系结构
数据仓库设计
数据建模
数据湖
数据分析挖掘
基本概念
功能分类
通用的数据挖掘方法
分类&聚类
预测&回归
时间序列分析
关联规则&偏差检测
...
统计分析
主成分分析
因子分析
机器学习
决策树
贝叶斯
遗传算法
...
深度学习
卷积神经网络
RBN
DBN
...
相关技术
Mahout
Spark Mlib
Tensorflow
平台
DAS
PAI
数据测试
大数据产品测试基准
Bigtop
数据资产
平台工具
数据应用
基本概念
大数据商业价值
数据产品分类
商业智能
应用领域
数据服务
数据链接
OLAP
语法解析
数据处理
SqlLite
Groovy
Aviator
Guava
规则流程编排
drools
Activiti
Tiny
Blockly
服务化
dubbo
hsf
Sprint Boot
Spring Cloud
限流降级
Sentinel
Hystrix
数据可视化
数据可视化基础
可视化流程
可视化通道
可视化设计
科学可视化
信息可视化
可视化分析
交互技术
交互模式
常用图表分类
可视化框架
G2
Raphael图例库
D3.js
Bonsaijs
arborjs
Springy
Raw
Echart
常用配色(调色板)
Fusion
FairyGUI
模板引擎
数据共享
系统集成
页面集成
区块集成
方式
文件
打印
截图
分享渠道
钉钉
邮件
数据预警
调度
Quartz
opencorn
LTS
XXL-JOB
Elastic-job
规则脚本引擎
Groovy
Aviator
drools
数据预测
应用部署
容器技术
docker
Kubernetes
PouchContainer
国际化
打包集成
maven
gradle
jenkins
Web容器&服务器
tomcat
jetty
nigix
数据治理
数据治理相关概念
国际数据治理理论
ISO38500IT治理框架
DAMA理论
DGI理论
IBM数据治理理论
ISACA COBIT5
数据治理框架
原则
范围
战略&组织
数据质量
数据生命周期
数据架构
数据安全
大数据服务创新
实施和评估
成熟度评估
审计
子主题
数据规范标准
元数据管理
基本概念
元数据采集存储
元数据查询分析
专题管理
血缘分析
生命周期管理
业务属性管理
一致性检测监控
业界工具方法
Cloudera Navigator
公共仓库元模型(CWM)
HCatalog
Apache Atlas
WhereHows
亿信华辰EsPowerMeta
数据质量
数据质量基本概念
质量管理参考框架
策略
控制目标
职责角色
流程方法
支撑保障
实施方法
常用工具和方法
主数据管理
大数据架构管理
数据安全
数据采集传输安全
VPN
SSL&HTTPS
数据签名
数据加密
数据存储安全
数据脱敏
数据匿名保护
备份恢复
数据加密
数据管理安全
身份验证
Kerberos
访问控制(IAM)
自主访问控制(DAC)
强制访问控制(MAC)
角色访问控制(RBAC)
Sentry
Ranger
数据安全治理
DCAP(Data Centric Audit and Protection)
DLP(Data Leakage Prevention)
DSG & 数据安全成熟度模型(DSMM)
UEBA(用户与实体行为分析)
数据应用安全
数据防爬
数据水印
数据审计
可信计算技术
数据溯源
业界框架产品
Apache Falcon
亿信睿治数据治理平台
华为数据治理
普元大数据治理解决方案
0 条评论
下一页
为你推荐
查看更多