Orc
2019-07-15 22:13:15 6 举报
orc存储格式
作者其他创作
大纲/内容
column8
Row Data
column3
column2
Stripe Footer
Index Data一个轻量级的index,默认是每隔1W行做一个索引。这里做的索引应该只是记录某行的各字段在Row Data中的offset(偏移量)。Row Data存的是具体的数据,先取部分行,然后对这些行按列进行存储。对每个列进行了编码,分成多个Stream来存储。Stripe Footer存的是各个Stream的类型,长度等信息。File Footer每个文件有一个File Footer,这里面存的是每个Stripe的行数,每个Column的数据类型信息等;PostScript每个文件的尾部是一个PostScript,这里面记录了整个文件的压缩类型以及FileFooter的长度信息等。在读取文件时,会seek到文件尾部读PostScript,从里面解析到File Footer长度,再读FileFooter,从里面解析到各个Stripe信息,再读各个Stripe,即从后往前读。
column7
Index Data
column4
File Footer
column6
stripe 250 MB
column5
PostScript
column1
0 条评论
下一页