大数据生态
2020-02-22 23:30:37 197 举报
AI智能生成
大数据生态
作者其他创作
大纲/内容
Spark 混合处理框架
Spark Core
Spark SQL
DataFrame
DataSet
Spark Streaming 流处理框架
DStream
MLib 机器学习库
Graphx 图形处理库
架构
Master
Cluster Manager
Worker Node
Executor
Task
Task
......
Cache
Flink 混合处理框架
Batch (DataSet API)
Streaming(DataStream API)
Table API & SQL
扩展库
Event Processing(CEP)
Graphs (Gelly)
Machine Learning
工具
Azkaban 分布式任务调度系统
核心概念
Job
Flow
架构
Web Server
Executor Server
Flume 数据收集工具
Event 数据传输基本单元
Source 数据源
Channel 临时数据管道
Sink 数据处理单元
Agent
Event 数据传输基本单元
Sqoop 数据迁移工具
在不同的数据存储系统中进行数据的导入导出
Elasticsearch 分布式弹性搜索引擎
Cluster(集群)
Node(节点)
Index(索引)
Type(类型)
Document(文档)
Field(字段)
mapping(映射)
Docker
应用环境容器
Git
版本控制系统
Hadoop
HDFS 分布式文件系统
NameNode
DataNode
Secondary Namenode
YARN 集群资源管理器
ResourceManager
NodeManager
MapReduce 批处理框架
Zookeeper 分布式协调服务
Znode
永久节点
临时节点
有序节点
Watcher
ACL
Permissions
Id
Schemes
ZAB
崩溃恢复
消息广播
Hive 数据仓库
内部表
外部表
分区表
分桶表
视图
索引
元数据与Driver
HBase 面向列的非结构化数据库
要素
Row Key(行键)
Column Family(列簇)
Column Qualifier (列限定符)
Column (列)
Cell
架构
HMaster
Region Servers
收藏
收藏
0 条评论
下一页