细粒度情感分析
2021-11-15 17:05:12 0 举报
个人学习记录
作者其他创作
大纲/内容
爬虫代码模块
文本预处理
特征抽取层
输出层
数据分析
无监督学习方法,主要以双向传播算法为主。有监督学习方法,主要是基于序列标注为主。但是需要人工搭建要素抽取模型,工作量大。考虑到CNN易于自动提取局部特征,可以尝试结合BERT和双向传播算法
选用BERT的原因是,Word2Vec是基于语料数据训练词向量,词语与向量是一一对应的关系,无法解决多义词问题,同时难以实现动态优化。
BERT词向量转换
开始
领域词典构建
评价文本语料爬取
前端展示
数据采集
特征融合层
数据处理
上下文语意特征抽取
特征矩阵1
情感量化
外部知识(一是要素识别的方法、二是评价搭配的方法)
情感量化与统计
输入层
融合特征矩阵
分句DSP
分词POS
特征矩阵2
CNN易忽略长途相关性的的文本,比如否定、从属等可能影响情绪和主观性分类的关系。Simple RNN易忽略长期文本,记忆很短,有遗忘问题。LSTM有学习语言句法特征的能力,善于学习序列特征。ATT可以自动捕捉长时间上下文信息和非连续词之间的关联,为每个词创建一个上下文向量,与单词向量一起构成一个“新”向量,不需要其他句法信息。
情感极性特征抽取
ATT-BiLSTM神经网络
评论的清洗去重复
评价对象、情感词、关联词对
情感细粒度分析系统
0 条评论
回复 删除
下一页