生产实习
2021-03-25 18:19:02 1 举报
生产实习
作者其他创作
大纲/内容
requests
遍历list 获取paper的detail
multiprocessing/Pool
采用前向最大匹配+消除歧义规则+贪心(MMSEG)的策略算法基于词库生成字典树
爬取当前页面的paper list
lxml/etree
生成词云
数据分析部分
基于python库对获取的关键词进行可视化的词云展示。利用wordcloud和matplotlib.pyplot的强大能力处理之前计算产生的关键词,使之成为直观,准确的关键词词云。同时考虑实际的应用场景,提供基类&大类、关键词的分类搜索。
文章摘要生成
分词
爬虫部分
提取关键词
采用较TF-IDF算法改进TF-IWF算法进行关键字的提取。降低了语料库中同类型文本对词语权重的影响,更加精确地表达了这个词语在待 查文档中的重要程度
基于之前的关键字来生成文章摘要。通过计算关键词的数量和质量来粗略估计关键词的重要性(textrank算法)
收藏
0 条评论
下一页