MapReduce App
2014-03-24 11:30:19 1 举报
我厄缶
作者其他创作
大纲/内容
用户访问状态排序任务
Map阶段
读取Lzo文件,获取url和refer url
Reduce阶段
统计各url对应的访问次数并写入HDFS
从HDFS中读取url对应各地区访问计数做全排序
数据流
以状态为Key
以浏览器哈希值计数,并存储在HDFS中
CDN cache命中情况查询
外链访问比例及分布任务
读取url及状态字段
MapReduce子任务一:负责统计各URL访问数量
统计key出现的次数并按客户存储
MapReduce子任务二:排序取TopN并保存
将各Values按域名分类并将TopN结果写文件
用户访问URL的IP分布情况查询任务
以URL为key
以地区计数为Key
将domain对应的浏览器数据累计并存储
将结果按客户域名存储写HBASE
各客户URL访问TopN排序任务
统计地区访问计数并存储hdfs
将命中状态对应的url数量做全排序取结果存储
从HDFS中读取url对应命中情况计数
统计各状态计数并存储
以命中状态为Key
状态全排序按客户存储
以Domain url为Key
原始lzo日志压缩文件
读取url和IP信息,将IP转换为地区信息
以url为Key
以url为KEY
获取url对应的浏览器信息
浏览器使用情况排序任务
读取HDFS并按访问次数为Key做全排序
reduce阶段
从HDFS中读取url对应各浏览器计数
MapReduce 任务流
读取url及命中情况
读取Lzo文件,获取url地址
数据库HBASE存储分析结果
统计url对应的状态次数并写入HDFS
以url+refer url为key
从HDFS中读取url对应各状态计数
收藏
收藏
0 条评论
下一页
为你推荐
查看更多