MapReduce App
2014-03-21 11:11:57 1 举报
MapReduce App是一种基于分布式计算模型的数据处理框架,它通过将大规模数据集分解为多个小任务,并在多台计算机上并行执行这些任务来提高处理速度和效率。MapReduce App的核心思想是将复杂的计算问题分解为两个简单的步骤:Map(映射)和Reduce(归约)。在Map阶段,输入数据被分解成多个键值对,然后由不同的计算节点进行处理;在Reduce阶段,具有相同键的值被合并在一起,以生成最终结果。这种设计使得MapReduce App能够轻松地处理海量数据,并实现高并发、高容错性和可扩展性。
作者其他创作
大纲/内容
用户访问状态排序任务
Map阶段
将domain对应的浏览器数据累计并存储
将结果按客户域名存储写HBASE
Reduce阶段
各客户URL访问TopN排序任务
统计地区访问计数并存储hdfs
读取Lzo文件,获取url和refer url
统计各url对应的访问次数并写入HDFS
将命中状态对应的url数量做全排序取结果存储
从HDFS中读取url对应访问时间计数
统计各状态计数并存储
以命中状态为Key
从HDFS中读取url对应各地区访问计数做全排序
状态全排序按客户存储
以Domain url为Key
原始lzo日志压缩文件
读取url和IP信息,将IP转换为地区信息
数据流
以状态为Key
以url为Key
以url为KEY
获取url对应的浏览器信息
浏览器使用情况排序任务
以浏览器哈希值计数,并存储在HDFS中
访问质量查询任务
外链访问比例及分布任务
读取url及状态字段
读取HDFS并按访问次数为Key做全排序
reduce阶段
从HDFS中读取url对应各浏览器计数
MapReduce子任务一:负责统计各URL访问数量
统计key出现的次数并按客户存储
MapReduce 任务流
读取url及访问时间信息
MapReduce子任务二:排序取TopN并保存
将各Values按域名分类并将TopN结果写文件
用户访问URL的IP分布情况查询任务
读取Lzo文件,获取url地址
数据库HBASE存储分析结果
统计url对应的状态次数并写入HDFS
以url+refer url为key
以URL为key
从HDFS中读取url对应各状态计数
以地区计数为Key
0 条评论
下一页