hadoop
2017-04-04 15:54:09 0 举报
AI智能生成
登录查看完整内容
Hadoop是一个开源的分布式计算框架,它允许在集群中处理大量数据。它的设计目标是可靠、可扩展和容错,能够在成千上万的节点上运行。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS提供了一个高度容错的文件系统,能够将数据分布在多个节点上,而MapReduce则是一种编程模型,用于在集群上并行处理大量数据。Hadoop广泛应用于大数据存储和分析,如日志处理、数据挖掘、机器学习等领域。
作者其他创作
大纲/内容
优化
spark
storm
流程
数据put到hdfs
编写java程序
hadoop jar运行java程序
jobtracker进行任务分配
相应的tasktracker运行
tasktracker加载java程序,执行map部分,将结果写入hdfs
如果有reduce,tasktracker创建进程,通过RPC将map输出的hdfs文件拉到本地,开始reduce
Redecue结果写入hdfs
Join和group by
hadoop
map-reduce
jobtracker
资源分配
作业调度
重复执行
tasktracker
map
map端的过程
reduce
reduce端的过程
shuffle
combiner
partion
hadoop2.x
yarn
资源管理框架
ResourceManager
ApplicationMaster
NodeManager
hdfs
namenode
secondarynamenode
冗余
机架感知
事务日志和映射文件
datanode
写操作
管道复制
hbase
数据模型
行键
设计原则
长度
散列
唯一
时间戳
列族
物理存储
region
memstore
storefile
内部机制(WAL和Memstore)
hive
内部表与外部表
pig
自由主题
0 条评论
回复 删除
下一页