个人知乎舆情分析系统 模块流程 总体一览
2021-04-01 23:02:37 13 举报
知乎舆情监控(毕设)程序 整体逻辑
作者其他创作
大纲/内容
判断尾页
保留该分词到临时变量中
加载wordcloud停用词
是
逐个定位到HTML标签上
数据清洗
K-Means
TF-IDF
情感分析
TF/IDF特征抽取和向量化
分析和填充API
数据预处理
TOPIC_ID表
文章
jieba分词
给每一簇分配一个随机色块
否:创建
在推荐词的情况下已完成的分词是否是停用词表中的词
聚类分析
正则表达式去除非中文
配置相关参数
否
链接数据库
获取数据并关闭数据库
加载推荐分词
存储并清空临时字典
可选
获取相关参数:时间/文本数/情感值等
报告
知乎话题爬虫
文本摘要
词云
通过话题关键字获取到话题ID
词云可视化
PieScatter
数据库/csv文件查询
控制措施
获取并判断文本类型
拼接成固像素的图片
统计
数据爬取
统计可视化
删除该分词
(jieba)分词
加载本地特征聚类数据
生成HTML报告
回答
存入临时字典
邮件发送
话题的表是否存在
自动化/实时
嵌入网页
结束
是:重建
遍历每个分词
每个簇生成一个词云
加载停用词表
合并JavaScript图表
数据库
0 条评论
回复 删除
下一页