Lucene倒排索引原理
2022-07-26 21:42:42 5 举报
原理图解
作者其他创作
大纲/内容
※ Lucerne是一个开放源代码的高性能的Java全文检索引擎工具包,不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。
※ 为了减小索引文件的大小,Lucene对索引还使用了压缩技术
进入索引
1[1]
频率文件(记录每个关键词所在的文档编号和文档中的词频)
文档1:You are a dog
z
关键字是按字符顺序排列的(lucene没有使用B树结构),因此lucene可以用二元搜索算法快速定位关键词。
词典文件(记录文档中所有的关键词,field,指向频率文件和位置文件的指针)
关键词:在lucene中由Analyzer类过滤掉空格,标点符号;去掉没有意义的单词;将单词统一成小写;进行时态还原等措施后形成
aaredogyou
输入关键词(dog)
④
位置文件(记录每个关键词在文档中出现的位置)
a
①
field:每个关键词都有一个field信息,记录了关键词的位置(如标题中,文档中,url中)
0 条评论
回复 删除
下一页