大数据技术知识体系
2021-01-14 10:36:05 116 举报
AI智能生成
大数据技术知识体系
作者其他创作
大纲/内容
数据处理
数据计算
流式计算(stream computing)
Storm
Flink
Yahoo S4
Kafka stream
Twitter Heron
Apache Samza
Spark streaming
大规模批量计算(stbatch computing)
Tez
MapReduce
Hive
Spark
Pig
大数据的编程模型:Apache Beam
即席查询分析(ad-hoc computing)
Impala
Hawq
Dremel
Drill
Phoenix
Tajo
Presto
Hortonworks Stinger
全量计算&增量计算
基础知识
Lambda架构
Kappa架构
IOTA架构
Microsoft Kineograph
Galaxy
Google Percolator
Druid
图计算
GAS编程模型
节点为中心编程模型
计算范型
BSP模型&SSP模型
Pregel
GraphChi
Spark GraphX
PowerGrah
Apache Giraph
Apache Hama
分布式协调系统
Chubby
阿里Diamond
阿里ConfigServer
zookeeper
Eureka
Consul
集群资源管理和调度
管理调度框架
Omega
Brog
Mesos
Corona
Yarn
Torca
管理和监控工具
Ambari
Chukwa
Hue
Apache Zeppelin
工作流管理引擎
Oozie
Azkaban
Luigi
Airflow
Kubeflow
数据仓库
基本概念&原理
体系结构
数据仓库设计
数据建模
数据湖
数据分析挖掘
基本概念
功能分类
通用的数据挖掘方法
分类&聚类
预测&回归
时间序列分析
关联规则&偏差检测
......
统计分析
主成分分析
因子分析
机器学习
决策树
贝叶斯
遗传算法
深度学习
卷积神经网络
RBN
DBN
相关技术
Mahout
Spark Mlib
Tensorflow
平台
DAS
PAI
数据测试
大数据产品测试基准
Bigtop
平台工具
数据应用
数据治理
数据治理相关概念
国际数据治理理论
ISO 38500 IT治理框架
DAMA理论
DGI理论
IBM数据治理理论
ISACA COBIT5
数据治理框架
原则
范围
战略&组织
数据质量
数据生命周期
数据架构
数据安全
大数据服务创新
实施和评估
成熟度评估
审计
促成因素
数据规范标准
元数据管理
数据质量基本概念
质量管理参考框架
策略
控制目标
职责角色
流程方法
支撑保障
实施方法
常用工具和方法
主数据管理
计算管理
存储管理
数据模型
大数据架构管理
业界框架产品
Apache FaIcon
亿信睿治数据治理平台
华为数据治理
普元大数据治理解决方案
大数据技术知识体系
基础技术
数据分片路由
哈希分片(Hash Partition)
Round Robin
虚拟桶(Virtual Buckets)
一致性哈希(Consistent Hashing)
范围分片(Range Partition)
数据复制&一致性
大数据常用算法与数据结构
SkipList
LSM树
Bitmap
Snappy与LZSS算法
Cuckoo哈希
Mekle哈希树
布隆过滤器(Bloom Filter)
Trie树
数据采集
系统日志采集
埋点
浏览器(PC)打点
无线客户端
Android端SDK
IOS端SDK
Wp端SDK
服务端打点
无痕埋点-可视化埋点
数据采集框架
Splunk Forwarder
Flume
Fluentd
Logstash
Scribe
外部数据采集
IOT设备数据采集
数据传输
消息队列
ActiveMQ
ZeroMQ
RabbitMQ
Kafka
Apollo
RocketMQ
数据同步
DataX
Sqoop
DbSync
Kettle
数据订阅
阿里云DTS
Otter
淘宝 Time Tunnel
Databus
Wormhole
序列化
Avro
MessagePack
Kryo
Hessian
Protobuf
JSON
FST
数据存储
物理存储
分布式文件/对象存储系统
OSS
HDFS
OpenStack Swift
Ceph
GlusterFS
Facebook Hahystack
Lustre
AFS
分布式关系型数据库
DRDS
TiDB
GreenPlum
Mycat
Cobar
Aurora
分析型数据库
Kylin
Aanalytic DB
Clickhouse
Vertica
MonetDB
InfiniDB
LucidDB
搜索引擎
Elasticsearch
Solr
OpenSearch
Splunk
键值存储数据库
Redis
Memcached
Tair
Amazon DynamoDB
图数据库
Titan
Neo4J
ArangoDB
OrientDB
MapGraph
ALLEGROGRAPH
列存储数据库
Cassandra
Kudu
Hbase
Hypertable
Apache Accumulo
文档数据库
MongoDB
CouchDB
MarkLogic
时序数据库
influxDB
Graphite
Kdb+
OpenTSDB
TimescaleDB
阿里云 HiTSDB
面向对象数据库
Versant Object Database
RDF数据库
多媒体数据库
事件存储数据库
0 条评论
回复 删除
下一页