知识图谱
2015-12-27 23:39:47 0 举报
知识图谱结构图修改
作者其他创作
大纲/内容
文本二维码ad_type_deal.py
后置
段落删除
Yes
feed_contentphash二维码特征
feed_content打平
全网数据
No
抓取数据
片段删除
数据预处理
公共规则处理
全网特殊站点处理quanwang_deal.py
基于OCR特征去广告图
基于二维码特征去广告图
内容保护content_protect.py
返回句子和所在文章
phash相似去广告图
规则遍历
特殊账号处理special_deal.py
黑图
feed_content
不含约束词
前置
基于站点处理
句子删除
抽取触发规则的文段
基于作者处理
1、去除不完整数据;2、随机选取前500篇文章;3、截取文首文尾30%;4、分段成句;5、过滤过短或纯数字字母的句子
num_author(句子)/num_author(文章)2ornum_article(句子)/num_article(语料)0.6
基于规则的处理content_deal.py
头条&微信去超链广告hrep_deal_obj.py
记录相似句、频率、位置
微信推荐阅读ad_type_deal.py
位置adapte_wordlimit_word
计算句子相似度
按作者分割数据
0 条评论
下一页