大数据技术汇总
2021-04-04 08:39:55 7 举报
AI智能生成
大数据技术是指从各种类型的数据中获取、存储、处理和分析信息的一系列技术和工具。这些技术包括分布式计算、数据挖掘、机器学习、自然语言处理、图像识别等,旨在帮助企业和组织更好地理解和利用其拥有的数据资源。大数据技术的核心是数据存储和管理,其中最常见的技术包括Hadoop、Spark和NoSQL数据库。此外,大数据分析也是大数据技术的重要组成部分,它可以帮助人们从海量数据中发现隐藏的模式和趋势,从而做出更明智的决策。总之,大数据技术为企业提供了强大的工具来处理和分析复杂的数据集,帮助他们更好地了解客户需求、优化业务流程并提高竞争力。
作者其他创作
大纲/内容
基础技术
数据分片路由
哈希分片(Hash Partition)
round robin
虚拟桶(virtual buckets)
一致性哈希(consistent hashing)
范围分片(range partition)
数据复制&一致性
CAP/ACID/BASE原则
副本更新策略
主从式更新
同时更新
任一节点更新
一致性模型
强一致模型
最终一致性
因果一致性
会话一致性
单调读一致性
单调写一致性
一致性协议
两阶段提交协议
向量时钟
RWN协议
Paxos协议
Raft协议
Gossip协议
大数据常用算法与数据结构
SkipList
LSM数
Bitmap
Snappy与LZSS算法
Cuckoo哈希
Mekle哈系树
布隆过滤器(Bloom Filter)
Tire树
数据采集
系统日志采集
埋点
浏览器(PC)打点
无线客户端
Android端SDK
IOS端SDK
WP端SDK
服务器端打点
无痕埋点--可视化埋点
数据采集框架
Chukwa
Splunk Forwarder
Flume
Fluentd
Logstash
Scribe
外部数据采集
IOT设备数据采集
数据传输
消息队列
ActiveMQ
ZeroMQ
RabbitMQ
Kafka
Apollo
RocketMQ
数据同步
DataX
Sqoop
DbSync
Kettle
数据订阅
阿里云DTS
Otter
淘宝 Time Tunnel
Databus
Wormhole
序列化
Avro
MessagePack
Kryo
Hessian
Protobuf
JSON
FST
数据存储
物理存储
主流的存储系统网络架构有DAS、NAS、SAN三种网络架构
存储类型
文件存储
FTP、NFS服务器
NAS(Network Attached Storage)
块存储
磁盘阵列(Rdundant Arrays of Indenpendent Disks,RAID)
RAID0、RAID1、RAID5、RAID10
对象存储
分布式文件/对象存储系统
OSS
HDFS
Openstack Swift
Ceph
GlusterFS
Facebook Hasystack
Lustre
AFS
分布式关系型数据库
DRDS
TiDB
GreenPlum
Mycat
Cobar
Aurora
分析型数据库
Kylin
Analytic DB
Druid
ClickHouse
Vertica
MonetDB
infiniDB
LucidDB
搜索引擎
Elasticsearch
Solr
OpenSearch
Splunk
键值存储数据库
Redis
Memcached
Tair
Amazon DYnamoDB
图数据库
Titan
Neo4J
ArangoDB
OrientDB
MapGraph
AllegroGraph
列存储数据库
Cassandra
Kudu
Hbase
Hypertable
Apache Accumulo
文档数据库
MongoDb
CouchDB
MarkLogic
OrientDB
时序数据库
influxDB
Graphite
Kdb+
OpenTSDB
Druid
TimescaleDB
阿里云HiTSDB
面向对象数据库
Versant Object Database
RDF数据库
多媒体数据库
事件存储数据库
数据处理
数据计算
流式计算(stream computing)
Storm
Flink
Yahoo S4
Kafka Stream
Twitter Stream
Apache Samza
Spark Streaming
大规模批量计算(batch computing)
Tez
MapReduce
Hive
Spark
Pig
大数据的编程模型:Apache Beam
即席查询分析(ad-hoc computing)
Impala
Hawq
Dremel
Drill
Phoenix
Tajo
Presto
Hortonworks Stinger
全量计算&增量计算
基础知识
Lambda架构
Kappa架构
IOTA架构
Microsoft Kineograph
Galaxy
Google percolator
Druid
图计算
基础知识
GAS编程模型
节点为中心编程模型
计算范式
BSP模型&SSP模型
Pregel
GraphChi
Spark Graphx
PowerGrah
Apache Griaph
Apache Hama
分布式协调系统
Chubby
阿里Diamond
阿里ConfigServer
zookeeper
Eureka
Consul
集群资源管理和调度
管理调度架构
Omega
Brog
Mesos
Corona
Yarn
Torca
管理和监控工具
Ambari
Chukwa
Hue
Apache Zeppelin
工作流管理引擎
Oozie
Azekaban
Luigi
Airflow
kubeflow
数据仓库
基本概念&原理
体系结构
数据仓库设计
数据建模
数据湖
数据分析挖掘
基本概念
功能分类
通用的数据挖掘方法
分类&聚类
预测&回归
时间序列分析
关联规则&偏差分析
统计分析
主成分分析
因子分析
机器学习
决策树
贝叶斯
遗传算法
深度学习
卷积神经网络
RBN
DBN
相关技术
Mahout
Spark Mlib
TensorFlow
平台
DAS
PAI
数据测试
大数据产品测试基准
Bigtop
平台工具
数据应用
基本概念
大数据商业价值
数据产品分类
商业智能
应用领域
数据服务
数据连接
OLAP
语法解析
数据处理
SqlLite
Groovy
Aviator
Guava
规则流程编排
drools
Activiti
Tiny
Blockly
服务化
dubbo
hsf
Spring boot
spring cloud
限流降级
sentinel
Hystrix
数据可视化
数据可视化基础
可视化流程
可视化通道
可视化设计
科学可视化
信息可视化
可视化分析
交互设计
交互模式
常用图表分类
可视化框架
G2
Raphael图例库
D3.js
Bonsaijs
arborjs
Springy
Raw
Echart
常用配色(调色板)
Fusion
FairyGUI
模板引擎
数据共享
系统集成
页面集成
区块集成
方法
文件
打印
截图
分享渠道
钉钉
邮件
数据预警
调度
Quartz
opencron
LTS
XXL-JOB
Elastic-Job
规则脚本引擎
Groovy
Aviator
drools
数据预测
应用部署
容器技术
docker
kubernetes
pouchContainer
国际化
打包集成
maven
gradle
jenkins
web服务器&服务器
Tomcat
jetty
nigix
数据治理
数据治理相关概念
国际数据治理理论
ISO38500 IT治理框架
DAMA理论
DGI理论
IBM数据治理理论
ISACA COBIT5
数据治理框架
原则
范围
战略&组织
数据质量
数据生命周期
数据架构
数据安全
大数据服务创新
实施和评估
成熟度评估
审计
促成因素
数据规范标准
元数据管理
基本概念
元数据采集存储
元数据查询分析
专题管理
血缘分析
生命周期管理
业务属性管理
一致性检测监控
业界工具方法
Cloudera navigator
公共仓库元模型(CWM)
HCatalog
apache atlas
WhereHows
亿信华辰EsPowerMeta
数据质量
数据质量基本概念
质量管理参考框架
策略
控制目标
职责角色
流程方法
支撑保障
实施方法
常用工具和方法
主数据管理
计算管理
存储管理
数据模型
大数据架构管理
数据安全
数据采集传输安全
数据存储安全
数据管理安全
数据应用安全
业界框架产品
Apache Falcon
亿信睿治数据治理平台
华为数据治理
普元大数据治理解决方案
0 条评论
下一页