词典匹配判别式训练举例
2016-05-05 11:43:37 0 举报
词典匹配判别式训练是一种基于词典的文本分类方法。它首先为每个类别建立一个词典,然后计算待分类文本中每个词与词典中词的相似度,最后根据相似度对文本进行分类。例如,假设我们有两个类别:“体育”和“娱乐”,我们可以为每个类别建立一个词典,包含该类别中常见的词汇。当我们需要判断一篇新闻属于哪个类别时,我们可以计算该新闻中每个词与两个词典中词的相似度,然后选择相似度最高的类别作为该新闻的类别。这种方法简单易行,但受限于词典的质量,对于一些新出现的词汇可能无法准确分类。
作者其他创作
大纲/内容
地名词典
人名词典
生语料
德斯坦宋 曙光安·阿尔拉蒂......法国北京 日坛 公园沈阳 水产 批发 市场......法国 政府国务院北京市 残联......
德斯坦 代表 法国 政府 在 开幕式 上 发表 了 讲话 。......
机构名词典
标签转换后的语料
词典与生语料匹配后结果
[nr 德斯坦 ] 代表 [nt 法国 政府 ]在 开幕式 上 发表 了 讲话 。......
抽取特征
德斯坦/nr_U 代表/O 法国/nt_B 政府/nt_L 在/O 开幕式/O 上/O 发表/O 了/O 讲话/O 。/O......
nr_U x0=德斯坦 x_3= x_2= x_1= x1=代表 x2=法国 x3=政府 x_3| x_2=| x_2| x_1=| x_1| x0=|德斯坦 x0|x1=德斯坦|代表 x1|x2=代表|法国 x2|x3=法国| 政府 p1=德 p2=斯 p1|p2=德|斯 s_1=坦 s_2=斯 s_2|s_1=斯|坦 Ptag=0 x0=代表 x_3= x_2= x_1=德斯坦 x1=法国 x2=政府 x3=在 x_3| x_2=| x_2| x_1=|德斯坦 x_1| x0=德斯坦|代表 x0|x1=代表|法国 x1|x2=法国|政府 x2|x3=政府|在 p1=代 p2=表 p1|p2=代|表 s_1=表 s_2=代 s_2|s_1=代|表 Ptag=nr_Unt_B x0=法国 x_3= x_2=德斯坦 x_1=代表 x1=政府 x2=在 x3=开幕式 x_3| x_2=|德斯坦 x_2| x_1=德斯坦|代表 x_1| x0=代表|法国 x0|x1=法国|政府 x1|x2=政府|在 x2|x3=在|开幕式 p1=法 p2=国 p1|p2=法|国 s_1=国 s_2=法 s_2|s_1=法|国 Ptag=O......
0 条评论
下一页
为你推荐
查看更多