hadoop-pig
2015-04-13 11:05:58 1 举报
AI智能生成
hadoop之pig篇
作者其他创作
大纲/内容
运行模式
本地模式
运行在单个JVM中
访问本地文件
适用于
pig调试
小规模数据集
pig -x local
MapRedues模式
pig的默认运行模式,pig就能运行
该模式下pig将查询翻译成MapReduces作业在hadoop集群上执行,集群可以是伪分布式也可全分布式
需下载与hadoop兼容的pig
若pig兼容多个hadoop版本
第一步:export PIG_HADOOP_VERSION=18export PIG_HADOOP_VERSION=18
第二步:将pig指向集群的namenode和jobtracker,或在pig配置中指定hadoop的配置文件目录
三种方式运行pig程序
脚本
pig script.pig
Grunt
pig的shell
嵌入式
java中运行pig
简介
Pig 是一种探索大规模数据集的 脚本语言。
MapReducer 的一个主要的 缺点 就是开发的 周期太长 了。我们要编写mapper和reducer,然后对代码进行编译打出 jar 包,提交到本地的 JVM 或者是 hadoop的集群 上,最后获取结果
Pig的强大之处:几行Pig Latin代码就能处理TB级别的数据 。Pig提供了多个命令用于 检查和处理程序中的数据结构 ,因此它能很好的支持我们写查询 。Pig的一个很有用的特性就是它支持在输入数据中有代表性的一个 小的数据集上试运行。 所以。我们在处理大的数据集前可以用那一个小的数据集 检查 我们的程序是不是有错误的。
使用示例
计算天气数据中每年的最高气温
收藏
0 条评论
下一页