hadoop-pig
2015-04-13 11:05:58 1 举报
AI智能生成
hadoop之pig篇
作者其他创作
大纲/内容
Pig 是一种探索大规模数据集的 脚本语言。
MapReducer 的一个主要的 缺点 就是开发的 周期太长 了。我们要编写mapper和reducer,然后对代码进行编译打出 jar 包,提交到本地的 JVM 或者是 hadoop的集群 上,最后获取结果
Pig的强大之处:几行Pig Latin代码就能处理TB级别的数据 。Pig提供了多个命令用于 检查和处理程序中的数据结构 ,因此它能很好的支持我们写查询 。Pig的一个很有用的特性就是它支持在输入数据中有代表性的一个 小的数据集上试运行。 所以。我们在处理大的数据集前可以用那一个小的数据集 检查 我们的程序是不是有错误的。
简介
计算天气数据中每年的最高气温
使用示例
hadoop-pig
运行在单个JVM中
访问本地文件
pig调试
小规模数据集
适用于
pig -x local
本地模式
第一步:export PIG_HADOOP_VERSION=18export PIG_HADOOP_VERSION=18
若pig兼容多个hadoop版本
需下载与hadoop兼容的pig
MapRedues模式
运行模式
pig script.pig
脚本
pig的shell
Grunt
java中运行pig
嵌入式
三种方式运行pig程序
收藏
0 条评论
下一页