大数据生态圈
2020-03-13 18:01:48 0 举报
AI智能生成
大数据生态圈
作者其他创作
大纲/内容
Spark Streaming
是什么?
是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理
能做什么?
接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结构保存在HDFS、DataBase等各种地方
Redis
是什么?
Remote Dictionary Server,是一个key-value存储系统
能做什么?
数据缓存,快速存取服务
Hbase
是什么?
面向列的分布式数据库
不是关系型数据库,不支持SQL
能做什么?
实时的、随机的访问超大规模数据集(上亿行数据,上百个列)
Kylin
是什么?
Hadoop 大数据平台上的一个开源 OLAP 引擎
能做什么?
通过定义多个Cube(数据立方体)来构建大数据查询SQL
Sqoop
是什么?
一个工具,用于在Hadoop与传统数据库之间传递数据
能做什么?
数据抽取、转储
Flume
是什么?
一个批量的数据传输工具,适合高并发、分布式的数据传输
能做什么?
日志采集、聚合、传输
Oozie
是什么?
数据协作框架,够提供对MapReduce和Pig Jobs的任务调度与协调
Oozie需要部署到Java Servlet容器中运行
能做什么?
定义job、定时触发workflow、绑定多个coordinator
Hive
是什么?
构建在Hadoop上的数据仓库
一般在工作站上运行,把SQL转换为在Hadoop上运行的一系列作业
能做什么?
通过HiveQL对HDFS上的数据对象进行管理和操作
数据存储、查询、内部表和外部表的加载和管理
Hadoop
是什么?
Hadoop是Apache旗下的一套开源分布式计算软件
能做什么?
用户可以通过hadoop集群,编写自己的逻辑代码,就可以对海量数据进行分布式处理
HDFS
是什么?
来源于谷歌发表的一篇论文GFS,是一个可扩展的分布式系统
提供容错机制,允许使用廉价的计算机集群来提供性能不错的文件存取服务
它是一个文件系统,用来存取文件,通过目录树来定位文件
能做什么?
为分布式计算框架提供文件存取服务
MapReduce
是什么?
MapReduce是Apache旗下开源软件Hadoop的三大核心之一,是一款分布式计算编程框架
能做什么?
整合用户编写的自定义业务逻辑代码和MapReduce框架中的分布式代码,构成一个完成的分布式应用程序,以便完成分布式计算任务
Yarn
是什么?
是作业调度和集群资源管理的一套框架
能做什么?
管理内存和CPU资源
Zookeeper
是什么?
Hadoop的一个子项目,为分布式应用提供协调服务
提供一种可靠的、可扩展的、分布式的、可配置的协调机制,确保分布式服务的一致性
能做什么?
分布式共享锁:通过锁机制来确保一致性
统一命名服务:通过路径来探索资源
统一配置管理:分布式程序中的共享资源配置
集群管理:master节点选举、服务节点动态上下线
队列管理:同步队列、FIFO队列控制
数据发布订阅
负载均衡:通过Zookeeper来实现服务动态注册、机器上线与下线的动态感知,扩容方便,容错性好,且无中心化结构能够解决之前使用负载均衡设备所带来的单点故障问题
kafka
是什么?
是一种高吞吐量的分布式发布订阅消息系统,基于zookeeper协调的分布式消息系统
Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息
能做什么?
可以实时的处理各种大数据场景,比如,基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等
Spark
是什么?
是用于大数据处理的集群计算框架,最大的特点是数据都在内存中完成计算和处理
core:RDD,弹性分布式数据集,在集群中夸多个机器分区存储的对象集合
能做什么?
最适合于迭代计算和交互式分析
0 条评论
下一页