Parallel Split
2016-08-29 13:54:42 0 举报
Parallel Split是一种数据分割策略,主要用于并行计算和分布式系统。它的核心思想是将数据集均匀地分割成多个子集,每个子集独立处理,最后将结果合并。这种策略可以显著提高处理速度,特别是在处理大量数据时。Parallel Split的优点是能够充分利用多核处理器和多台计算机的计算能力,实现高效的并行计算。然而,它的缺点是需要额外的时间来合并各个子集的结果,这可能会抵消部分并行计算带来的性能提升。此外,如果数据分布不均,可能会导致某些处理器或计算机过载,而其他处理器或计算机处于空闲状态。因此,如何有效地进行数据分割和任务分配是实施Parallel Split的关键。
作者其他创作
大纲/内容
3、筛选结果生成新表
2、删除不合格数据
2、对其他数据进行坐标校正
2、各省份数据按季节划分
2、从上述数据中提取深圳POI数据
1、关联所有POI、深圳签到数据得深圳微博数据
Step1:得到深圳的POI数据
1、统计各注册地省份出现次数
Step5:数据的二次划分
2、按省份划分表
Step2:校正POI坐标,添加POI所属类
1、得到部分坐标准确的POI
1、按四季划表
Step4:将数据进行初步划分
Step3:POI数据与深圳签到数据关联
4、对POI数据进行分类
1、关联表获得新表
0 条评论
回复 删除
下一页