文本情感分析说明文档
2018-01-05 11:20:46 11 举报
算法说明
作者其他创作
大纲/内容
MultinomialNB 88% 88% 89% 89% 低
整合输出数据
商品tag词文本分类
4.标注标准:正向词从严中性的也标记为反向
LogisticRegression 90% 93% 89% 90% 低
1.对数据进行分析,发现sku与销量呈二八原则,即 20%的商品贡献了 80%的销量
SVM 74% 99% 50% 65% 超 高
实验结果
注:1. 从实验结果的5个指标中选择了逻辑回归,快而且结果也还ok 2.《实验结果》的数据为多次时实验结果的平均数据,单位为:左右
DecisionTreeClassifier 90% 94% 85% 89% 高
预测
2. 根据1的分析取每个三级类目的销量前20%的sku的tag词
accuracy precision recall f1 costtime
RandomForestClass 90% 94% 86% 89% 高
数据选取
2.逻辑回归LogisticRegression
注:1. 《整合输出数据》环节的去重,本来是打算采用gensim来做,但是感觉太重了,然后发现Levenshtein中的jaro方法计算得到的tag词相似度还不错,所以就采用了这个异常轻便的方法来去重2. 后续还将对商品的覆盖率做进一步分析
1.朴素贝叶斯MultinomialNB
词向量+tfidf(参照实验时数据预处理的流程)
结果分析
人工标注
词向量tfidf
load实验中得到的LogisticRegression模型进行预测,找到积极的评论tag
1.分词(jieba、去除标点符号、停用词库)2.取词(由于这些tag词为评论词,故分词之后取形容词、副形容词、名形词等)3.tfidf词向量化
数据分析——预处理——实验
1.正向分析(挑选一些分类结果为正向的数据人为去看是否为正向的评论)2.反向分析(挑选一些分类结果为反向的数据人为去看是否存在误判)3.整体分析(随机挑选一些结果,包括积极消极数据,人为去看是否存在误判)
3.决策树DecisionTreeClassifier4.支持向量机SVM5.随机森林RandomForestClassifier
3.人工标注类型(正向、反向)
1.时间段:近一个月
数据预处理
实验
预测
2.内容:订单数大于5的商品对应的tag词
0 条评论
下一页