阿里大数据总图
2020-06-15 11:39:19 0 举报
AI智能生成
大数据,秘籍
作者其他创作
大纲/内容
基础技术
数据分片路由
Hash分片 Hash Partiton
Round Robin
Virtual Buckets
Consistent Hashing
范围分片 Range Partiton
数据复制 & 一致性
CAP/ACID/BASE原则
副本更新策略
主从式更新
同时更新
任意节点更新
一致性模型
强一致性
最终一致性
因果一致性
回话一致性
单调读一致性
单调写一致性
一致性协议
两阶段提交
向量时钟
RWN协议
Paxos协议
Raft协议
Gossip协议
大数据常用算法与数据结构
SkipList
LSM tree
Bitmap
Snappy、LZSS
Cuckoo hash
Mekle hash tree
Bloom Filter
Trie Tree
数据采集
系统日志采集
埋点:浏览器(PC)打点、无线客户端、服务端打点。
无痕埋点-可视化
数据采集框架
Chukwa
Splunk Forwarder
Flume
Fluentd
Logstash
Scribe
网络数据采集
爬虫技术
Nutch
Heritrix
Scrapy
WebCollector
设备数据采集
数据传输
消息队列
ActiveMQ
ZeroMQ
RabbitMQ
Kafka
Apollo
RocketMQ
数据同步
DataX
Sqoop
DbSync
Kettle
数据订阅
Otter
Time Tunnel
Databus
Wormhole
序列化
Avro
MessagePack
Kryo
Hessian
Protobuf
JSON
FST
数据存储
物理存储
封闭系统的存储(封闭系统主要指大型机)
开放系统的存储(开放系统指基于 Windows、UNIX、Linux 等操作系统的服务器)
内置存储
外挂存储
直连式存储(Direct-Attached Storage,简称 DAS)
网络化存储(Fabric-Attached Storage,简称 FAS)
网络接入存储(Network-Attached Storage,简称 NAS)
存储区域网络(Storage Area Network,简称 SAN)
分布式文件/对象存储系统
OSS
HDFS
OpenStack Swift
Ceph
GlusterFS
Facebook Haystack
Lustre
AFS
分布式关系型数据库
DRDS
TiDB
GreenPlum
Mycat
Cobar
Aurora
分析型数据库
Kylin
Aanalytic DB
Druid
Clickhouse
Vertica
MonetDB
InfiniDB
LucidDB
搜索引擎
Elasticsearch
Solr
OpenSearch
图数据库
Titan
Neo4J
ArangoDB
OrientDB
MapGraph
Allegrograph
列存储数据库
Phoenix
Cassandra
Kudu
HBase
Hypertable
Apache Accumulo
文档数据库
MongoDB
CouchDB
MarkLogic
OrientDB
键值存储数据库
Redis
Memcached
Tair
Amazon DynamoDB
时序数据库
influxDB
Graphite
Kdb+
OpenTSDB
Druid
TimescaleDB
面向对象数据库
Versant Object Database
RDF 数据库
多媒体数据库
事件存储数据库
数据处理
数据计算
流式计算(Streaming compute)
Storm
Flink
Yahoo S4
Kafka Stream
Twitter Heron
Apache Samza
Spark Streaming
大规模批量计算(batch compute)
Tez
MapReduce
Hive
Spark
Pig
Apache Beam
即席查询分析 (ad-hoc query)
Impala
Hawq
Dremel
Drll
Phoenix
Tajo
Presto
Hortonworks Stinger
SparkSQL
QuickSQL
全量计算 & 增量计算
基础知识
Lambda 架构
Kappa 架构
IOTA 架构
Microsoft Kineograph
Galaxy
Google Percolator
Druid
图计算
基础知识
GAS 编程模型
BSP 模型、SSP 模型
节点为中心编程模型
计算范型
Pregel
GraphChi
Spark GraphX
PowerGrah
Apache Giraph
Apache Hama
分布式协调系统
Chubby
Diamond
ConfigServer
Zookeeper
Eureka
Consul
集群资源管理和调度
管理调度框架
Omega
Brog
Mesos
Corona
Yarn
Torca
管理监控工具
Ambari
Chukwa
Hue
Apache Zeppelin
工作流管理引擎
Oozie
Azkaban
Luigi
Airflow
Kubeflow
数据仓库
数据湖
Delta
Apache Iceberg
Apache Hudi
数据分析挖掘
功能分类
通用的数据挖掘方法
分类&聚类
预测&回归
时间序列分析
关联规则&偏差检测
分类&聚类
预测&回归
时间序列分析
关联规则&偏差检测
统计分析
主成分分析
因子分析
机器学习
决策树
贝叶斯
遗传算法
深度学习
卷积神经网络
RBN
DBN
相关技术
Mahout
Spark Mlib
Tensoflow
平台
DAS
PAI
数据测试
大数据产品测试基准
Bigtop
平台工具
数据应用
数据服务
OLAP
数据处理
SqlLite
Groovy
Aviator
Guava
规则流程编排
Drools
Activiti
Tiny
Blockly
服务化
dubbo
hsf
Spring Boot
Spring Cloud
限流降级
Sentinel
Hystrix
数据可视化
可视化框架
G2
Raphael
D3.js
Bonsaijs
arborjs
Springy
Raw
Echart
配色调色板
Fusion
FairyGUI
数据共享
数据预警
调度
Quartz
OpenCron
LTS
XXL-Job
Elastic-Job
规则脚本引擎
Groovy
Aviator
Drools
应用部署
容器技术
Docker
Kubernetes
Rancher
PouchContainer
国际化
打包集成
Maven
Gradle
Jenkins
Web容器&服务器
Tomcat
Jetty
Nginx
Apache2/httpd
数据治理
数据治理相关概念
国际数据治理理论
ISO38500 IT治理框架
DAMA理论
DGI理论
IBM数据治理理论
ISACA COBIT5
数据治理框架
范围
战略&组织
数据质量
数据生命周期
数据框架
数据安全
大数据服务创新
实施与评估
成熟度评估
审计
促成因素
元数据管理
工具方法
Cloudera Navigator
公共仓库元模型CWM
HCatalog
Apache Atlas
WhereHows
数据质量
数据安全
数据传输采集安全
数据存储安全
数据管理安全
数据应用安全
框架
Apache Falcon
0 条评论
下一页