TextRank代码框架梳理
2018-04-09 18:17:00 1 举报
textrank 代码分析(未完成)
作者其他创作
大纲/内容
Textrank 代码框架梳理
class Segmentation 类
__init__:
+ segment(对一段文本先进行分句然后进行分词,返回list类型的分句结果)
绿色边框和线条代表和句子相关的操作
class AttrDict类
__init__:用于key-v存储及查找(顶点/权重/分数等等)
util.py
Segmentation.py
class SentenceSegmentation 类
+ segment(对一段文本进行分句,返回list类型的分句结果)
sort_sentences 接口
将句子按照关键程度从大到小排序
sort_words 接口
将单词按关键程度从大到小排序
class WordSegmentation类
__init__:打开停用词文件,并保存停用词
+ segment(对一段文本进行分词,返回list类型的分词结果)- segment_sentences(将列表sequences中的每个元素/句子转换为由单词构成的列表)
API层
TextRank4Keyword.py
util.py:算法实现层,提供构建图结构、句子相似度计算、排序打分等功能
TextRank4Sentence.py:API接口层,对外提供摘要生成功能
stopwords.txt:外部文件,为分词过滤提供提供停词依据
Segmentation.py:中间层,提供分句和分词等中间功能
中间层
class TextRank4Sentence类
__init__:初始化关键句提取相关变量和函数
+ analyze(分析文本,指定相似度函数)- get_key_sentences(获取最重要的6(默认)个长度大于等于6(默认)的句子用来生成摘要。)
红色边框和线条代表和句子相关的操作
combine 接口
构造在window下的单词组合,用来构造单词之间的边
get_similarity 接口
用于计算两个句子相似度的函数
算法实现层
TextRank4Sentence.py
文件说明
TextRank4Keyword.py:API接口层,对外提供关键词提取功能
class TextRank4Keyword类
__init__:初始化关键词提取相关变量和函数
+ analyze(分析文本,window窗口默认为2)- get_keywords(获取最重要的num个长度大于等于6(默认)的关键词)- get_keyphrases(获取 12(默认) 个关键词构造的可能出现的短语,要求这个短语在原文本中至少出现的次数为2次(默认))
收藏
0 条评论
下一页