segment_N格式
2015-11-28 15:49:02 0 举报
登录查看完整内容
Segment_N格式是一种数据结构,通常用于处理大量的数据。它由多个段组成,每个段包含一组相关的数据元素。这种格式的主要优点是可以有效地管理和访问数据,因为数据被分成小块,每个块都可以单独处理。此外,Segment_N格式还提供了一种灵活的方式来组织和存储数据,使得数据可以根据需要进行添加、删除或修改。这种格式在许多领域都有广泛的应用,包括数据库管理、网络通信和数据分析等。总的来说,Segment_N格式是一种高效、灵活且强大的数据管理工具。
作者其他创作
大纲/内容
Field File(tvf)
Field N
FieldData
Document Index File(tvx)
Num of Fields in the Segment
8bits
FieldNum
HasSingleNormalFile
DelGen
FieldNumDelta
FieldValue
TermInformation
......
TermInfo
FieldCount
IsCompoundFile
NumTerms
TermFreq
1为保存词向量(Term Vector),0为不保存
DocStoreIsCompoundFile
TermCount
TermIndex
1为在词向量中保存位置信息,0为不保存
一个Term
(NumFields-1) 个域的偏移量in the Document
SegX
Term
FieldInformation
TVXVersion
FieldName
IndexTermCount
DocFieldPosition
DocFreq
Version
NumField
TIVersion
SegSize
1为在向量中保存位置信息(Position),0为不保存
1为在向量中保存偏移量(Offset),0为不保存
一个Field
NameCount
TermFreqs
FieldPosition + 第 j 个域的FieldDelta = 第 j 个域的起始位置
FieldsCount
Num of Documents
1为在词向量中保存偏移量,0为不保存
DocStoreOffset
...Delta
FieldValuesPosition
Term infos index files(tii)
NormGen01
TVFVersion
ProxDelta
Diargnostics
DeletionCount
IndexInterval
词典及词典索引信息:
SegmentSize
SkipInterval
DocumentPosition
Field Index File( fdx )
NormGenX
CheckSum
属于第 i 篇文档的所有域
SegName
TVDVersion
1为索引此域,0为不索引
FieldPositionDelta
PrefixLength
在一个段(segment)中总共有segment size篇文档,所以fdt文件中共有segment size个项,每一项保存一篇文档的域的信息
DocFieldData
Field 0
SegCount
Format
SufFix
Seg01
MaxSkipLevels
FNMVersion
NumFields
Positions
SkipDelta
DocStoreSegment
Field 1
Field Data File( fdt )
Offsets
FreqDelta
HasProx
Document File(tvd)
NumFields in the Document
Term infos files(tis)
1为不保存标准化因子,0为保存
1为保存payload,0为不保存
TermText
FieldPosition
0 条评论
回复 删除
下一页