pycorrector纠错
2023-03-28 14:42:03 0 举报
pycorrector纠错流程图
作者其他创作
大纲/内容
涉及到的字典
少先队员因该为老人让坐
是
1400
规则纠错
专名词纠错
1自定义混淆集
'因'和各种字组合得到3500个词 + 字和'该'组合得到3500个词总共7000多个词筛选其中的常用词剩下39个confusion_word_set筛选出同音词最后存入到候选词中
原字不在预测的里面且在候选词里
[mask]先队员因该为老人让坐
拼音相似度
max>阈值(0.85)则纠正
对每一个词找到其同音字和同形字,得到组合存入候选词中
seq2seq
3 通过语言模型(字级别)
候选召回
bert思路
少先队员 咽该为老人让坐
生成该字的所有候选字
笔画相似度
[mask]先队员因该为老人让坐少[mask]队员因该为老人让坐少先[mask]员因该为老人让坐少先队[mask]因该为老人让坐少先队员[mask]该为老人让坐少先队员因[mask]为老人让坐少先队员因该[mask]老人让坐少先队员因该为[mask]人让坐少先队员因该为老[mask]让坐少先队员因该为老人[mask]坐少先队员因该为老人让[mask]
和每个专名词计算相似度
1-每个字的笔画编辑距离、求平均
1234gram
循环每个字
。。。
少
2分词后的词未在词典中(词级别)
否
该字需要替换保存
候选排序
错误检测
person_name.txt 人名13661place_name.txt 地名 44805proper_name.txt 专有名词113same_pinyin.txt 同音字 3513same_stroke.txt 同偏旁 831stopwords.txt 停用词 1397stroke.txt 笔画字典 12235word_freq.txt 词频,分词 584429
https://zhuanlan.zhihu.com/p/138981644
1-全部拼音的编辑距离
把每个候选词放到句子中,进行打分
通过fill_mask模型预测字
预测 中间的这个词
字粒度切分
0 条评论
下一页