登录免费注册

首页  思维导图  详情

hadoop-pig

2015-04-13 11:05:58   1  举报





AI智能生成

hadoop之pig篇

hadoop pig

作者其他创作

大纲/内容

运行模式

本地模式

运行在单个JVM中

访问本地文件

适用于

pig调试

小规模数据集

pig -x local

MapRedues模式

pig的默认运行模式,pig就能运行

该模式下pig将查询翻译成MapReduces作业在hadoop集群上执行,集群可以是伪分布式也可全分布式

需下载与hadoop兼容的pig

若pig兼容多个hadoop版本

第一步:export PIG_HADOOP_VERSION=18export PIG_HADOOP_VERSION=18

第二步:将pig指向集群的namenode和jobtracker,或在pig配置中指定hadoop的配置文件目录

三种方式运行pig程序

脚本

pig script.pig

Grunt

pig的shell

嵌入式

java中运行pig

简介

Pig 是一种探索大规模数据集的脚本语言。

MapReducer 的一个主要的缺点就是开发的周期太长了。我们要编写mapper和reducer，然后对代码进行编译打出 jar 包，提交到本地的 JVM 或者是 hadoop的集群上，最后获取结果

Pig的强大之处:几行Pig Latin代码就能处理TB级别的数据。Pig提供了多个命令用于检查和处理程序中的数据结构，因此它能很好的支持我们写查询。Pig的一个很有用的特性就是它支持在输入数据中有代表性的一个小的数据集上试运行。所以。我们在处理大的数据集前可以用那一个小的数据集检查我们的程序是不是有错误的。

使用示例

计算天气数据中每年的最高气温

 收藏

立即使用

职业：暂无













评论

0 条评论

下一页

为你推荐

查看更多



WordPress主题文件

蓝色风主题

电影主题管理



图形选择

思维导图

主题

补充说明

AI生成





修改AI描述

去编辑

重新生成

提示 

关闭后当前内容将不会保存，是否继续？

取消

确定