Hadoop1.0.4
2015-02-01 17:20:32 4 举报
AI智能生成
hadoop1.0.4
作者其他创作
大纲/内容
不同进程间的远程方法调用
实现接口VersionedProtocol
RPC.getServer()启动RPC服务
同时启动jetty server
Server
利用代理请求server
Client
RPC
存储
HDSF
分析处理
由Google开发,用于构建搜索引擎的索引
WordCount中combine的作用跟reduce一样
遍历所有的input输入文件,针对每个文件:用map遍历每一行,然后对单个文件做combine最终,把每个文件的reduce结果合在一起做reduce
WordCount
MapReduce
Core
是Lucene的一部分,起源于Apache Nutch(搜索引擎)
Hadoop各版本下载
发展历程
文件分块
64M
Block
保存文件系统的目录信息、文件信息,以及文件对应的分块信息
NameNode实现了ClientProtocol接口
但是client编程不直接使用ClientProtocol代理,而是使用FileSystem类
FileSystem在client端实际使用DFSClient,它是NameNode的代理对象
hadoop2.x以前NameNode存在单点问题
NameNode
存储Block
DateNote
NameNode一旦宕机,整个文件系统无法工作
Hadoop2.x开始,HDFS支持NameNode的active-standy模式
HA策略
接收作业提交,监控作业运行
将任务分发到TaskTracker节点
JobTracker
控制Map/Reduce任务中当前节点的运行
TaskTracker
core_site.xml (单机/集群)fs.default.name使用hostname
core_site.xmlhadoop.tmp.dir
Web管理页面:50070
mapred-site.xml(单机/集群)mapred.job.tracker要使用hostname
Web管理页面:50030
master
文件系统浏览: 50075
DateNode
core_site.xml (集群时)fs.default.name使用master的hostname
mapred-site.xml(集群时)mapred.job.tracker使用master的hostname
Slave
master、slave必须用相同的用户名运行hadoop
在master节点上:
scp ~/.ssh/id_rsa.pub hadoop.slave ~/.ssh/authorized_keys
验证: ssh hadoop.slave
将master的~/.ssh/id_rsa.pub拷贝追加到slave的~/.ssh/authorized_keys
修改master的配置文件masters
ssh
集群
hostname hadoop.master
/etc/hostname
192.168.44.128 hadoop.master
如果hadoop运行在Linux上,而你是从其它机器上访问它,则在其它机器上也需要这样配置。windows: C:\\Windows\\System32\\Drivers\\etc\\hosts
/etc/hosts
HOSTNAME=hadoop.master
/etc/sysconfig/network
hostname
HDFS
以类似SQL的方式管理hadoop
Pig
hadoop database
NoSQL典型代表
使用shell/web/api访问
分布式、面向列的开源数据库
HBase
SQL到Map-Reduce映射器
把你输入的SQL转换成Map-Reduce
SQL-92标准,不支持SQL-99
Hive
管理员
ZooKeeper
关系型数据库--hadoop之间数据交换
Sqoop
数据序列化工具
Avro
数据采集、分析,然后写入hadoop
Chukwa
NoSQL
与HBase相似
Facebook贡献
没落了,被HBase抢尽风头
Cassandra
Hadoop生态
hadoop jar hadoop-examples.jar wordcount -files cachefile.txt -libjars mylib.jar -archives myarchive.zip input output
分布式拷贝
从一个节点拷贝到另外的节点
bin\\hadoop distcp hdfs://nn1:8020/foo/bar hdfs://nn2:8020/bar/foo
command
Mapper/Reducer接口继承了Closeable接口,提供了close()方法,用于资源回收
JobConf.setOutputKeyComparatorClass(Class)可以让输入排序
input路径/类型/format
output路径/类型/format
mapper/reducer
对job的描述
JobConf
提交、监控job
与JobTracker通信
bin/hadoop job -history all output目录
job执行后,会在output目录下生成_logs目录用于保存job执行日志
提交job并等待job执行完毕
JobClient.runJob(job)
提交job并马上返回,不等待
可以通过RunningJob获取job状态
JobClient.submitJob(job)
执行job
JobClient
Api
MapReduce Tutorial
使用其它语言编写mapreduce
Hadoop Stream
使用C API
Hadoop Pipe
data replication
master/slave
webhdfs://:/
hdfs://:/
http://:/webhdfs/v1/?op=...
url
WebHDFS REST API
Command
Hadoop1.0.4
0 条评论
回复 删除
下一页