增量更新
2021-12-16 21:46:06 3 举报
AI智能生成
增量
作者其他创作
大纲/内容
vec_stand_metrics:基于词的句子向量(300维)
input_ids_stand:electra所需的句子输入ids,list
df_stand(所有句子的dataframe)
id:句子对应的id,int
type:表示句子的类型的字符串(question or similar_question)
title:句子内容字符串
sbert_vecter:sbert向量
simi2stand:相似问id对应标准问id的字典
category_id2idx:类目id对应句子index, dict
inv:分词后的单词对应句子index的字典
tax_authority_code2idx:税务机关代码对应句子index的字典
preid2idx:句子id对应index,标准问前缀B-,相似问前缀S-
更新内存中res_dict
已加载数据包含变更的标准问id
标准问id(使其index失效)
相似问id(使其index失效)
已加载数据不包含变更的标准问id
标准问id(新增其index)
相似问id(新增其index)
类目id
相似问以及标准问字符串
税务机关代码
变更原数据所需操作
创建原标准问id与相似问的id所对应的index元组,以记录更改前的一系列句子已失效,在recall的时候用于取差集
更新句子相关信息
更新simi2stand,inv,input_ids_stand
0 条评论
下一页