ES知识图谱
2021-01-14 17:03:47 4 举报
AI智能生成
ES知识图谱
作者其他创作
大纲/内容
ES 知识图谱
分页优化
from+size: 不适合深度分页
scroll: 不适合实时搜索
search_after: 不能调页查询
API
Restful API
reindex: 讲一个数据重新索引到另一个index
update
更新部分字段: POST /website/blog/1/_update即 /index/type/doc_id/_update
更新整个文档 PUT /website/blog/1即 /index/type/doc_id
Restful API
URL Search
GET /twitter/_search?q=user:kimchy
Rquest Body Search
GET /_search
属性
query
source
子主题
version: 返回文档版本号
explain: 返回文档的评分解释
min_score:限制最低得分
高亮: highlight
Query DSL
full text query
match_all: 查询全部
match_none
match
\"operator\": \"and\"
{\"query\":{\"match\":{\"address\":{\"query\":\"湖南\
\"fuzziness\": 2
minimum_should_match
{\"query\":{\"match\":{\"address\":{\"query\":\"湖北市\
slop
match_phrase_prefix: match_phrase的前缀匹配
multi_match: 在多个字段上进行匹配
term level query
terms
range query
exists: 是否包含该字段
prefix
wildcard query: 通配符匹配
regexp query: 正则匹配
bool query
should
must
must not
filter
suggest api
类似于百度搜索是的关联性搜索
Aggs API
指标聚合
Percentiles:百分比统计
桶聚合bucket aggs
range aggs: 根据字段值的范围进行聚合
term aggs: 根据字段值进行聚合
嵌套聚合
filter: 过滤后聚合
Date Histogram Aggregation
Missing Aggregation
java api
Java Low Level REST Client:通过http与集群交互,用户需自己编组请求JSON串,及解析响应JSON串
Java High Level REST Client
聚合问题
导出导入数据
安装工具
导出导入
#入场ES数据导出elasticdump --input=http://10.10.203.105:9200/dumpidxparkin --output=tianan-parkin.json --searchBody '{\"query\":{\"bool\":{\"must\":{\"term\":{\"subsystemCode\":\"p202001031\
集群搭建
脑裂: discovery.zen.minimum_master_nodes 至少需要多少个master节点才能形成集群. 建议设置为master节点数/2+1
副本数据同步数据一致性保证
读流程
客户端请求任一节点
写流程
shard = hash(routing) % number_of_primary_shardsrouting默认为文档_id
translog实时刷新到磁盘
索引管理
新增索引
分片设置: index.number_of_shards默认5个
副本设置: index.number_of_replicas默认1个
索引映射
常用数据类型
字段属性
fielddata: 废弃
boost: 查询是的得分权重
null_value: 将null值设置一个默认值
文档属性(type级别)
\"_source\":{\"enable:\"false\"\
分片管理
收缩分片
增加分片:只有在创建时指定了index.number_of_routing_shards 的索引才可以进行拆分,ES7开始将不再有这个限制。
节点类型
node.master=true;
可以作为master节点:
1: 创建删除索引2: 分配分片到节点
最好将master和数据几点分开
node.data=true
可以作为数据节点
node.master=false;node.data=false
客户端节点: 转发请求到其他节点
持久化
分词
自定义分词器
内置分词器
IK_smart分词器安装
正排/倒排索引
倒排索引
正排索引doc_values
即 储存每个文档 的每个字段的原始值
选举
master选举
clusterStateVersion
nodeId
节点数
节点状态
Green: 正常
Yellow: 副本不可用
Red: primary不可用
分片选举
内存分配
lucense内存: Segment内存 最好占比50%
ES内存: 缓存数据
Lucense
数据丢失问题
物理文件
原始json字符串:_source
doc_values
0 条评论
下一页