登录免费注册

首页  流程图  详情

数据处理流程（构建）

2016-08-13 21:29:47   0  举报





仅支持查看

数据处理流程通常包括数据收集、数据清洗、数据转换、数据分析和数据可视化等步骤。在数据收集阶段，我们需要确定需要收集哪些数据，并从不同的来源获取这些数据。接下来，在数据清洗阶段，我们需要对收集到的数据进行筛选、去重和填充缺失值等操作，以确保数据的质量和准确性。然后，在数据转换阶段，我们需要将清洗后的数据转换为适合分析的格式。接下来，在数据分析阶段，我们可以使用各种统计方法和算法来分析数据，以发现其中的规律和趋势。最后，在数据可视化阶段，我们可以使用图表和图形来展示分析结果，以便更好地理解和传达信息。

作者其他创作

大纲/内容

当index数量达到一个阈值时，执行shell排序，并存入到partion中

extent[n+1]

b+ 树的跟节点

Hash

getBytesFromOfsAndSize

index 的底层存储（分为不同的文件，每个文件2G）

Memory

.......

LinkedList

有序的index 数据

partion n

indexLeafNode

DataFileHandler，将原始数据文件做内存映射（MappedByteBuffer）

OriginExtent n

原始文件的内存映射（MappedByteBuffer）

有序的index 数据

IndexNameSpace（索引命名空间）（每一类key根据hash结果分成不同的partion，如下为一类key 的存储结构）

批量shell

原始文件命名空间（OriginalNamespace）

Consume

getStringFromDiskLoc

数据查询阶段创建的b+ 树

ComparableKeys

index

diskLoc（内存映射的位置，根据位置可以获得对应数据）

OriginExtent0（每m条数据一个extent，m可配置）

namespace.index.0

为了提高并发，每个原始文件会被分为多bytebuffer，并以extent 为单位管理

namespace.index.n(分为不同的extent，为增加并发每个extent 128M)

extent[n+i]

partion0

方法

index的缓存队列解耦文件处理与索引处理

PartionBuildThread

Producer

good，buyer，order 原始数据

向上创建b+ 树

namespace.index.n

extent[n+0]

partion 为逻辑单位，extent 为磁盘物理单位一个partion分布在多个物理extent

namespace.index.1

多路归并排序（败者树）（使用diskIterator）

Disk

index 的缓存队列

数据插入阶段的状态

partion1

数据量100G左右，单个文件不超过2G

OriginExtent1

 收藏

立即使用

爬虫最终实现

 收藏

立即使用

通用采集软件

 收藏

立即使用

数据处理流程（构建）

 收藏

立即使用

爬虫内部黑盒设计1

职业：暂无













评论

0 条评论

下一页

为你推荐

查看更多



高中物理实验数据处理方法

数据处理，数据抽取，ETL数据抽取

数据处理，数据抽取，ETL数据抽取

数据处理流程图

页面数据处理

数据处理流程

数据标签体系构建流程

Excel数据处理：靠技能月入3000

Excel数据处理：靠技能月入3000

app埋点数据处理

后台数据处理流程