大数据框架
2020-04-01 10:41:11 2 举报
大数据整合
作者其他创作
大纲/内容
计算
MapReduce:分布式计算框架InputMapShufferReduceoutput
MySql
Hive:Hadoop的数据仓库它将SQL转换为MapReduce任务在Hadoop上执行(可通过该方式进行数据的清洗~但是步骤繁琐-通过表完成)(可通过分区--(相当于在HDFS上创建了多级目录存储数据)对表进行存储与处理,优化了查询)
Spark分布式计算框架
批处理数据---离线数据、离散的数据流数据---实时数据,不断产出的数据>流数据的存储与计算相当于将流数据转化为批处理数据后,可以与批处理数据一样的方式进行存储与计算
Sqoop数据传输工具:传统数据库与大数据的数据传输
Kafka集群(broker)消息队列:分布式消息系统发布订阅消息系统架构:生产者(发布)-->Topic-->消费者(订阅)高吞吐量数据的传递
Spark SQL:通过SQL进行数据的统计计算通过SQL对RDD分布式数据集进行数据计算(与Hadoop中的Hive类似~提供SQL支持)
Spark Standalone:基于Standalone资源调度的spark分布式计算框架
Spark Core:别的组件都要构建在spark core上
存储
Spark -RDD分布式数据集合通过操作RDD进行数据计算
流数据
基于分布式的存储与计算
Yarn分布式资源管理器:为上层应用提供统一的资源管理和调度ResourceManagerNodeManager
Python Web
Strome流处理工具
爬虫--数据获取
基于内存,速度更快
核心思想分而治之
Spark Streaming:流处理对象DStream,表示一种连续的数据流,实际可以理解成DStream是一个有序的RDD序列
批处理
二者集成进行实时数据的抓取和处理
Yarn管理
提供管理服务
HDFS分布式文件系统:NameNodeDataNodeDataNodeSecondaryNode
ZooKeeper分布式协作服务:1. 通过监控NameNode,切换主备NameNode,保证HDFS高可用2. 通过监控HBase,保证HBase高可用3. 通过监控kafka,保证消息队列
ZK保证集群的高可用
Flume 日志收集工具
echarts/pyecharts数据可视化
大数据
Standalone管理
HBase:分布式列类型的数据库(NoSql)使HDFS的存储具有结构化采用了BigTable的数据模型:key:value key的组成时间同步-由时间戳来管理相同的RowKey
0 条评论
下一页