统计词频分词法
2015-06-06 20:03:02 9 举报
统计词频分词法是一种基于词频的中文分词方法,它根据一个词语在语料库中出现的频率来确定其重要性。常用的统计词频分词法有最大匹配法、最小匹配法和双向匹配法等。其中,最大匹配法是最常用的一种方法,它从左到右扫描文本,每次取最长的词作为匹配结果。如果匹配成功,则将该词作为一个单独的词语输出;否则,将该词作为一个子串继续进行匹配。这种方法简单易行,但存在一定的问题,如无法处理未登录词和歧义词等。