大数据生态技术组件
2023-10-31 10:46:43 31 举报
AI智能生成
大数据生态技术组件 文件系统 HDFS 调度系统 Oozie Azkaban Airflow 管理系统 Zookeeper YARN Ambari Cloudera Manager Hue 数据存储 HDFS HBase CarbonData Accumulo 消息系统 Kafka RabbitMQ ActiveMQ 数据收集 Logstash Flume NIFI Fluentd 数据处理 Spark Spark Streaming Storm Flink 数据同步 Sqoop NIFI DataX Distcp 数据血缘 Atlas Falcon 查询引擎 Phoenix Hive Pig SparkSQL Solr Elasticsearch Impala (以下为实时查询引擎) Shark Druid Drill Presto Stinger 分析报告 Kylin Zeppelin Superset Cboard Druid 机器学习 Tensorflow Mahout Keras Theano DSSTNE 大数据集群安全 Kerberos Ranger Sentry Knox 账号统一(多租户) FreeIPA OpenLdap ApacheAD 数据科学与机器学习 SQL分析与商业智能
作者其他创作
大纲/内容
数据血缘
Atlas
Falcon
管理系统
ZooKeeper
YARN
Ambari
Cloudera Manager
Hue
空间数据计算
GIS4Hadoop
GeoSpark
GeoMesa
DAG计算
Tez
数据处理
Spark
Spark Streaming
Storm
Flink
批处理
MapReduce
Apex
Apex
实时计算
flink-streaming-platform-web
基于flink的实时流计算web平台
基于flink的实时流计算web平台
【宜信】Wormhole
is a SPaaS (Stream Processing as a Service) Platform
流式处理平台
is a SPaaS (Stream Processing as a Service) Platform
流式处理平台
SQL分析与商业智能
SQL analytics and BI
SQL analytics and BI
分析报告
Kylin
Zeppelin
Superset
Cboard
Druid
Quick BI
阿里云
阿里云
大数据集群安全
Kerberos
Ranger
Sentry
Knox
账号统一(多租户)
FreeIPA
OpenLdap
ApacheAD
图计算
Spark Graphx
存储与基础设施
Storage and Infrastructure
Storage and Infrastructure
查询引擎
Pig
Hive
Spark SQL
Phoenix
Lucene/Solr
实时查询引擎
Impala
Shark
Druid
Drill
Presto
presto SQL(Trino)
Stinger
数据开发
【袋鼠云】DatasourceX
关系数据库/非关系数据库/文件系统管理和开发框架
关系数据库/非关系数据库/文件系统管理和开发框架
【袋鼠云】flinkStreamSQL
基于开源的flink,对其实时sql进行扩展;主要实现了流与维表的join,支持原生flink SQL所有的语法
基于开源的flink,对其实时sql进行扩展;主要实现了流与维表的join,支持原生flink SQL所有的语法
NoSQL
文档数据库
MongoDB
键值数据库
Redis
DynanoDB
Dynamo
宽列存储数据库
Cassandra
Apache Cassandra 是一个开源 NoSQL 分布式数据库,在不影响性能的情况下受到数千家公司的信赖,可扩展性和高可用性。
在商用硬件或云基础设施上的线性可扩展性和经过验证的容错性使其成为关键任务数据的完美平台。
在商用硬件或云基础设施上的线性可扩展性和经过验证的容错性使其成为关键任务数据的完美平台。
Apache Cassandra 是一套开源分布式 Key-Value 存储系统。它最初由 Facebook 开发,用于储存特别大的数据。
主要特性:
分布式
基于 column 的结构化
高伸展性
Cassandra 的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对 Cassandra 的一个写操作,会被复制到其他节点上去,对 Cassandra 的读操作,也会被路由到某个节点上面去读取。对于一个 Cassandra 群集来说,扩展性能 是比较简单的事情,只管在群集里面添加节点就可以了。
Cassandra 是一个混合型的非关系的数据库,类似于 Google 的 BigTable。
其主要功能比 Dynomite(分布式的 Key-Value 存 储系统)更丰富,
但支持度却不如文档存储 MongoDB(介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富,最像关系数据库 的。支持的数据结构非常松散,是类似 json 的 bjson 格式,因此可以存储比较复杂的数据类型。)
Cassandra 最初由 Facebook 开发,后转变成了开源项目。
它是一个网络社交云计算方面理想的数据库。以 Amazon 专有的完全分布式的 Dynamo 为基础,结合了 Google BigTable 基于列族(Column Family)的数据模型。
P2P 去中心化的存储。
很多方面都可以称之为 Dynamo 2.0。
其主要功能比 Dynomite(分布式的 Key-Value 存 储系统)更丰富,
但支持度却不如文档存储 MongoDB(介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富,最像关系数据库 的。支持的数据结构非常松散,是类似 json 的 bjson 格式,因此可以存储比较复杂的数据类型。)
Cassandra 最初由 Facebook 开发,后转变成了开源项目。
它是一个网络社交云计算方面理想的数据库。以 Amazon 专有的完全分布式的 Dynamo 为基础,结合了 Google BigTable 基于列族(Column Family)的数据模型。
P2P 去中心化的存储。
很多方面都可以称之为 Dynamo 2.0。
和其他数据库比较,有几个突出特点:
模式灵活 :使用 Cassandra,像文档存储,你不必提前解决记录中的字段。你可以在系统运行时随意的添加或移除字段。这是一个惊人的效率提升,特别是在大型部 署上。
真正的可扩展性 :Cassandra 是纯粹意义上的水平扩展。为给集群添加更多容量,可以指向另一台电脑。你不必重启任何进程,改变应用查询,或手动迁移任何数据。
多数据中心识别 :你可以调整你的节点布局来避免某一个数据中心起火,一个备用的数据中心将至少有每条记录的完全复制。
一些使 Cassandra 提高竞争力的其他功能:
范围查询 :如果你不喜欢全部的键值查询,则可以设置键的范围来查询。
列表数据结构 :在混合模式可以将超级列添加到 5 维。对于每个用户的索引,这是非常方便的。
分布式写操作 :有可以在任何地方任何时间集中读或写任何数据。并且不会有任何单点失败。
HBase
(不是真正的列式存储,而是列簇存储)
(不是真正的列式存储,而是列簇存储)
Phoenix On HBase
GreenPlum
Vertica
子主题
clickhouse
图形数据库
Neo4j
JanusGraph
CrateDB
【基于ElasticSearch的支持sql的nosql分布式数据库】
【基于ElasticSearch的支持sql的nosql分布式数据库】
核心特性
从外部访问从下到上依次到达最终的存储,
其最外一层提供了PostgresSQL兼容的访问协议和REST API的访问协议,
接下来对语句进行解析,
然后执行,
获取存储在各个节点上的数据。
从外部访问从下到上依次到达最终的存储,
其最外一层提供了PostgresSQL兼容的访问协议和REST API的访问协议,
接下来对语句进行解析,
然后执行,
获取存储在各个节点上的数据。
适用于海量时序数据存储
CrateDB适用于海量时序数据存储,需要频繁更改的数据使用CrateDB存储效果较差。因为CrateDB基于ElasticSearch,频繁的删改操作会使它的性能大大受损。
CrateDB适用于海量时序数据存储,需要频繁更改的数据使用CrateDB存储效果较差。因为CrateDB基于ElasticSearch,频繁的删改操作会使它的性能大大受损。
高可靠水平可扩
CrateDB继承了ElasticSearch设计中高可靠的优点,集群较方便实现扩容,对于一些点查询或复杂度中等的查询均能够较为实时地返回结果。
CrateDB继承了ElasticSearch设计中高可靠的优点,集群较方便实现扩容,对于一些点查询或复杂度中等的查询均能够较为实时地返回结果。
支持Dynamic Schema
CrateDB支持Dynamic Schema,其最新版本能够支持json数据格式,写入数据更加方便。
3、海量数据存储对比
【CrateDB & ES& MongoDB海量数据存储比对】
【CrateDB & ES& MongoDB海量数据存储比对】
1)Schema支持类型
这三个数据库均支持Dynamic Schema。
但在现实的生产环境下,我们推荐采用Struct Schema,因为Dynamic Schema可能会带来种种问题。
仅代表个人观点,并非适用于所有场景。
但在现实的生产环境下,我们推荐采用Struct Schema,因为Dynamic Schema可能会带来种种问题。
仅代表个人观点,并非适用于所有场景。
2)是否支持SQL访问
SQL诞生四十多年,已成为非常成熟的语言,具有极强的表达能力。同时SQL具有通用性,被大家普遍接受。
CrateDB基于SQL的通用性不断发展,其支持ANSI SQL,并且采用了PostgreSQL协议。
ElasticSearch起初只支持类json格式的查询语法,之后开始提供针对单索引的一些SQL语句支持函数,并不断丰富。
MongoDB据我所知并未直接支持SQL,如果写入SQL语句,需要通过第三方插件才能够被MongoDB识别,这在一定程度上会影响查询性能。
3)可扩展性
从可扩展性角度出发,CrateDB和ElasticSearch采用gossip协议组建集群,简单来说节点之间相应对等。
在一个ElasticSearch集群中,节点可分Master、Coordinator,以及承载数据的Data,一个节点可以同时扮演三个不同的角色,因此它们是对等的。
在一个ElasticSearch集群中,节点可分Master、Coordinator,以及承载数据的Data,一个节点可以同时扮演三个不同的角色,因此它们是对等的。
MongoDB则不同,如果用它来构建一个分布式集群,最起码有三个不同的Host,分别是Config Server、Mongos以及Data,
为了实现高可靠,一个分片还需要分成相应的Master或Slave。
为了实现高可靠,一个分片还需要分成相应的Master或Slave。
综上所述,从可扩展角度来看,ElasticSearch和CrateDB更好。
4)对于关联分析的支持程度
CrateDB支持跨索引之间的关联分析,而ElasticSearch则使用一些变通的方式支持此类关联查询,这意味着在写入数据时需要做相应变更。
MongoDB在4.X版本时不支持关联查询,之后的版本未及时关注,如描述有误,欢迎大家指正。
5)聚合准确度
CrateDB和MongoDB返回精确值,
ElasticSearch则是返回近似值,虽然返回近似值执行速度快,但其计算的准确度会受到一定影响。
6)性能
在查询性能方面, CrateDB和ElasticSearch都能够较好地返回查询结果,上图中列出的耗时为100毫秒。
对于较为简单的查询,100毫秒算是较高的消耗,事实上可以在更短的时间内返回结果。
后文中会提到我们自己质量环境下的实际耗时。
后文中会提到我们自己质量环境下的实际耗时。
7)运维
引入一项新技术后,其带来的运维复杂度十分关键。
CrateDB和ElasticSearch相较于MongoDB运维复杂度更低。
ElasticSearch
官网
https://www.elastic.co/cn/what-is/elasticsearch-sql
云数据库
阿里
PolarDB
AnalyticDB
Lindorm
传统数据库到云原生数据库,最大的技术变革是
资源池化
资源解
弹性
、高可用、
容器化部署、
智能化运维等核心能力
HTAP数据库
pingcap
TIDB
https://github.com/pingcap/tidb
TiDB(/'taɪdiːbi:/,“Ti”代表 Titanium)是一个支持混合事务和分析处理 (HTAP) 工作负载的开源分布式 SQL 数据库。
它兼容MySQL,具有水平扩展、强一致性和高可用性的特点。
它兼容MySQL,具有水平扩展、强一致性和高可用性的特点。
阿里
oceanbase
OceanBase 始创于 2010 年,是完全自主研发的原生分布式数据库,连续 10 年稳定支撑双 11,凭借高性能和高可用真正实现应用无限扩展和服务永远在线 ,致力于为企业核心系统提供稳定可靠的数据底座。
为什么选择 OceanBase
OceanBase 已连续 10 年稳定支撑双 11,创新推出“三地五中心”城市级容灾新标准,
在被誉为“数据库世界杯”的 TPC-C 和 TPC-H 测试上都刷新了世界纪录。
自研一体化架构,兼顾分布式架构的扩展性与集中式架构的性能优势,用一套引擎同时支持 OLTP 和 OLAP 的混合负载,
具备数据强一致、高扩展、高可用、高性价比、高度兼容 Oracle/MySQL、稳定可靠等特征,
不断用技术降低企业使用数据库的门槛。
现已助力金融、政府、运营商、零售、互联网等多个行业的客户实现核心系统升级。
在被誉为“数据库世界杯”的 TPC-C 和 TPC-H 测试上都刷新了世界纪录。
自研一体化架构,兼顾分布式架构的扩展性与集中式架构的性能优势,用一套引擎同时支持 OLTP 和 OLAP 的混合负载,
具备数据强一致、高扩展、高可用、高性价比、高度兼容 Oracle/MySQL、稳定可靠等特征,
不断用技术降低企业使用数据库的门槛。
现已助力金融、政府、运营商、零售、互联网等多个行业的客户实现核心系统升级。
调度系统
Oozie
【xml配置任务】
【xml配置任务】
Azkaban
Airflow
【依赖python】
【依赖python】
【袋鼠云】Taier
Apache DolphinScheduler
数据收集
Flume
Logstash
NiFi
Fluentd
Chukwa
filebeat
大数据应用统一集平台
CDAP
集群管理/容器管理
Apache Mesos
Kubernetes
Docker
Hadoop的应用程序开发平台
Cascading
数据存储/文件系统
HDFS
HBase
CarbonData
Accumulo
数据存储格式
orc
parquet
Avro
Apache Iceberg
是一种新的表格格式,用于存储大型、移动缓慢的表格数据。它旨在改进 Hive、Trino 和 Spark 中内置的事实上的标准表布局。
是一种新的表格格式,用于存储大型、移动缓慢的表格数据。它旨在改进 Hive、Trino 和 Spark 中内置的事实上的标准表布局。
MinIO
高性能对象存储
高性能对象存储
消息系统
Kafka
RabbitMQ
RocketMQ
ActiveMQ
数据同步/数据集成
Sqoop
NiFi
DataX
【阿里】DataX是阿里云DataWorks数据集成的开源版本。
【阿里】DataX是阿里云DataWorks数据集成的开源版本。
Distcp
【腾讯】Apache InLong
海量数据的一站式集成框架
海量数据的一站式集成框架
【宜信】DBus
实时数据流计算采集框架
实时数据流计算采集框架
Apache Seatunnel
SeaTunnel 是一个分布式、高性能的数据集成平台,用于海量数据(离线和实时)的同步和转换。
SeaTunnel 是一个分布式、高性能的数据集成平台,用于海量数据(离线和实时)的同步和转换。
【袋鼠云】Chunjun
基于Apache Flink的批流一体的数据同步工具,支持全量/增量同步。
基于Apache Flink的批流一体的数据同步工具,支持全量/增量同步。
【ververica】Flink-cdc
【linkedin】databus
数据科学与机器学习
Data science and Machine learning
Data science and Machine learning
机器学习
Tensorflow
开源机器学习平台C++
开源机器学习平台C++
Mahout
Hadoop机器学习算法库
Hadoop机器学习算法库
Theano
数学表达式Python库(已废弃,由aesara代替)
数学表达式Python库(已废弃,由aesara代替)
aesara
数学表达式Python库
数学表达式Python库
DSSTNE
Deep Scalable Sparse Tensor Network Engine (DSSTNE)
是 Amazon 开发的用于构建深度学习 (DL) 机器学习 (ML) 模型的库
Deep Scalable Sparse Tensor Network Engine (DSSTNE)
是 Amazon 开发的用于构建深度学习 (DL) 机器学习 (ML) 模型的库
Spark Mlib
spark机器学习算法库
spark机器学习算法库
Hivemall
面向Hive的多种机器学习算法。
面向Hive的多种机器学习算法。
H2O
用于机器学习的分布式的内存处理引擎
用于机器学习的分布式的内存处理引擎
【阿里】Alink
阿里巴巴计算平台 PAI 团队基于 Flink 开发的机器学习算法平台。
阿里巴巴计算平台 PAI 团队基于 Flink 开发的机器学习算法平台。
Alink开始文档
深度学习
keras
人类深度学习python
人类深度学习python
数据湖
数据湖三剑客
Delta
核心解读
Iceberg
【通用的数据组织格式】【数据存储格式】
【通用的数据组织格式】【数据存储格式】
核心解读
Hudi
【数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力】
【数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力】
核心解读
最强指南!数据湖Apache Hudi、Iceberg、Delta环境搭建 原创
大数据诊断平台
OPPO罗盘compass
介绍文档
https://mp.weixin.qq.com/s/5dpXP6a9W-NyI2VYJjBGyA
github
https://github.com/cubefs/compass
收藏
0 条评论
下一页