词典匹配判别式训练举例

2016-05-05 11:43:37   0  举报





词典匹配判别式训练是一种基于词典的文本分类方法。它首先为每个类别建立一个词典，然后计算待分类文本中每个词与词典中词的相似度，最后根据相似度对文本进行分类。例如，假设我们有两个类别：“体育”和“娱乐”，我们可以为每个类别建立一个词典，包含该类别中常见的词汇。当我们需要判断一篇新闻属于哪个类别时，我们可以计算该新闻中每个词与两个词典中词的相似度，然后选择相似度最高的类别作为该新闻的类别。这种方法简单易行，但受限于词典的质量，对于一些新出现的词汇可能无法准确分类。

作者其他创作

大纲/内容

地名词典

人名词典

生语料

德斯坦宋曙光安·阿尔拉蒂......法国北京日坛公园沈阳水产批发市场......法国政府国务院北京市残联......

德斯坦代表法国政府在开幕式上发表了讲话。......

机构名词典

标签转换后的语料

词典与生语料匹配后结果

[nr 德斯坦 ] 代表 [nt 法国政府 ]在开幕式上发表了讲话。......

抽取特征

德斯坦/nr_U 代表/O 法国/nt_B 政府/nt_L 在/O 开幕式/O 上/O 发表/O 了/O 讲话/O 。/O......

nr_U x0=德斯坦 x_3= x_2= x_1= x1=代表 x2=法国 x3=政府 x_3| x_2=| x_2| x_1=| x_1| x0=|德斯坦 x0|x1=德斯坦|代表 x1|x2=代表|法国 x2|x3=法国| 政府 p1=德 p2=斯 p1|p2=德|斯 s_1=坦 s_2=斯 s_2|s_1=斯|坦 Ptag=0 x0=代表 x_3= x_2= x_1=德斯坦 x1=法国 x2=政府 x3=在 x_3| x_2=| x_2| x_1=|德斯坦 x_1| x0=德斯坦|代表 x0|x1=代表|法国 x1|x2=法国|政府 x2|x3=政府|在 p1=代 p2=表 p1|p2=代|表 s_1=表 s_2=代 s_2|s_1=代|表 Ptag=nr_Unt_B x0=法国 x_3= x_2=德斯坦 x_1=代表 x1=政府 x2=在 x3=开幕式 x_3| x_2=|德斯坦 x_2| x_1=德斯坦|代表 x_1| x0=代表|法国 x0|x1=法国|政府 x1|x2=政府|在 x2|x3=在|开幕式 p1=法 p2=国 p1|p2=法|国 s_1=国 s_2=法 s_2|s_1=法|国 Ptag=O......