正向最大匹配法
2019-06-11 14:33:23 7 举报
中文分词最大匹配算法
作者其他创作
大纲/内容
匹配成功
将c添加到结果集合C中,i = i+len(c)
Y
j<len(c)
N
分词结束
待切分汉字串S=C1C2⋯Cn,长度为n,i=1
i=i+m
取长度为m的子串sub=CiCi+1⋯Ci+m-1与词典进行匹配
去掉最后一个字
得到以wi开头的最长词表词c
len(c)>1
设起始位置为i=1,切分结果集合为C=∅,M(i)为词典中以wi开头的最长词长
i>n
m=Lm
c=c∪c*
L为空
i+M(i)-1>n
得到以wi+j开头的最长词c*
c*包含于c
n>i
与词典匹配成功
从i+1处截至W结尾
从i处截M(i)个汉字
Lm>(n-i+1)
给定字串W,长度为n
从L中取出最大值记为Lm并从L中删除
将词语sub放入结果字符串
从i处截至W结尾
j=1
从i+j截取M(i+j)个汉字
j++
i+j+M(i+j)-1>n
将单字Si放入结果字符串
i++
0 条评论
下一页