分词
2015-06-02 16:54:40 7 举报
分词是将一个汉字序列切分成一个个单独的词的过程。它是中文信息处理的基础,也是自然语言处理中的重要步骤之一。分词的目的是将连续的文本序列按照一定的规则和方法划分成一系列的词语,以便于后续的分析和处理。 分词的方法有很多种,常见的有基于规则的分词、基于统计的分词和基于深度学习的分词等。其中,基于规则的分词是最早使用的一种方法,它通过事先定义好的一些规则来进行分词,如正向最大匹配法、反向最大匹配法等;而基于统计的分词则是利用语料库中的统计信息来进行分词,如隐马尔可夫模型、条件随机场等;基于深度学习的分词则是利用神经网络模型来进行分词,如循环神经网络、长短时记忆网络等。
作者其他创作
大纲/内容
从分词列单元中找出与之对应的子项(例如 b a ar t rt等,是Bart的子项)
输出结果(例如 b ar t)
输入英文单词(以人名Bart为例)
根据长度优先原则筛选(例如留下长度为2的ar和rt)
根据分词结果节分(例如,b和t就自动成为一部分)
根据元音优先原则筛选(留下ar)
0 条评论
下一页