大数据框架
2024-02-22 09:00:57 35 举报
AI智能生成
大数据框架是一种用于处理和分析大规模数据集的软件工具集。它提供了一种可扩展、高吞吐量和容错的方式来处理海量数据,并支持多种数据处理任务,如数据清洗、转换、存储和分析。常见的大数据框架包括Hadoop、Spark、Flink等。这些框架通常基于分布式计算模型,利用多台计算机的并行处理能力来加速数据处理过程。此外,它们还提供了丰富的API和工具,使开发人员能够轻松地构建和管理大数据应用程序。总之,大数据框架为处理和分析大规模数据集提供了强大的支持,是现代数据驱动型企业不可或缺的基础设施之一。
作者其他创作
大纲/内容
集群资源管理器
Hadoop
YARN
分布式协调服务
Zookeeper
数据迁移工具
Sqoop
任务调度框架
Azkaban
Oozie
集群部署和监控
Ambari
Cloudera Manager
日志收集框架
Flume
Logstash
Kibana
分布式文件存储系统
Hadoop
HDFS
特点
高容错
数据的多副本
高吞吐量
大文件支持
HDFS 适合于大文件的存储,文档的大小应该是是 GB 到 TB 级别
简单一致性模型
HDFS 更适合于一次写入多次读取 (write-once-read-many) 的访问模型
跨平台移植性
核心构成
NameNode
负责执行有关 文件系统命名空间 的操作
负责集群元数据的存储,记录着文件中各个数据块的位置信息
DataNode
负责提供来自文件系统客户端的读写请求,执行块的创建,删除等操作
数据库系统
Mongodb
HBase
特性
不支持复杂的事务,只支持行级事务,即单行数据的读写都是原子性的
由于是采用 HDFS 作为底层存储,所以和 HDFS 一样,支持结构化、半结构化和非结构化的存
储
储
支持通过增加机器进行横向扩展
支持数据分片
支持 RegionServers 之间的自动故障转移
易于使用的 Java 客户端 API
支持 BlockCache 和布隆过滤器
过滤器支持谓词下推
特点
容量大:一个表可以有数十亿行,上百万列
面向列:数据是按照列存储,每一列都单独存放,数据即索引,在查询时可以只访问指定列的数
据,有效地降低了系统的 I/O 负担
据,有效地降低了系统的 I/O 负担
稀疏性:空 (null) 列并不占用存储空间,表可以设计的非常稀疏
数据多版本:每个单元中的数据可以有多个版本,按照时间戳排序,新的数据在最上面
存储类型:所有数据的底层存储格式都是字节数组 (byte[])
分布式计算框架
批处理框架
Hadoop
MapReduce
流处理框架
Storm
混合处理框架
Spark
Flink
优点
Flink 是基于事件驱动 (Event-driven) 的应用,能够同时支持流处理和批处理
基于内存的计算,能够保证高吞吐和低延迟,具有优越的性能表现
支持精确一次 (Exactly-once) 语意,能够完美地保证一致性和正确性
分层 API ,能够满足各个层次的开发需求
支持高可用配置,支持保存点机制,能够提供安全性和稳定性上的保证
多样化的部署方式,支持本地,远端,云端等多种部署方案
具有横向扩展架构,能够按照用户的需求进行动态扩容
活跃度极高的社区和完善的生态圈的支持
查询分析框架
Hive
Spark SQL
Flink SQL
Pig
Phoenix
0 条评论
下一页