数据处理流程(构建)
2016-08-13 21:29:47 0 举报
数据处理流程通常包括数据收集、数据清洗、数据转换、数据分析和数据可视化等步骤。在数据收集阶段,我们需要确定需要收集哪些数据,并从不同的来源获取这些数据。接下来,在数据清洗阶段,我们需要对收集到的数据进行筛选、去重和填充缺失值等操作,以确保数据的质量和准确性。然后,在数据转换阶段,我们需要将清洗后的数据转换为适合分析的格式。接下来,在数据分析阶段,我们可以使用各种统计方法和算法来分析数据,以发现其中的规律和趋势。最后,在数据可视化阶段,我们可以使用图表和图形来展示分析结果,以便更好地理解和传达信息。
作者其他创作
大纲/内容
当index数量达到一个阈值时,执行shell排序,并存入到partion中
extent[n+1]
b+ 树的跟节点
Hash
getBytesFromOfsAndSize
index 的底层存储(分为不同的文件,每个文件2G)
Memory
.......
LinkedList
有序的index 数据
partion n
indexLeafNode
DataFileHandler,将原始数据文件做内存映射(MappedByteBuffer)
OriginExtent n
原始文件的内存映射(MappedByteBuffer)
有序的index 数据
IndexNameSpace(索引命名空间)(每一类key根据hash结果分成不同的partion,如下为一类key 的存储结构)
批量shell
原始文件命名空间(OriginalNamespace)
Consume
getStringFromDiskLoc
数据查询阶段创建的b+ 树
ComparableKeys
index
diskLoc(内存映射的位置,根据位置可以获得对应数据)
OriginExtent0(每m条数据一个extent,m可配置)
namespace.index.0
为了提高并发,每个原始文件会被分为多bytebuffer,并以extent 为单位管理
namespace.index.n(分为不同的extent,为增加并发每个extent 128M)
extent[n+i]
partion0
方法
index的缓存队列解耦文件处理与索引处理
PartionBuildThread
Producer
good,buyer,order 原始数据
向上创建b+ 树
namespace.index.n
extent[n+0]
partion 为逻辑单位,extent 为磁盘物理单位一个partion分布在多个物理extent
namespace.index.1
多路归并排序(败者树)(使用diskIterator)
Disk
index 的缓存队列
数据插入阶段的状态
partion1
数据量100G左右,单个文件不超过2G
OriginExtent1
0 条评论
下一页