可关注词产生流程
2017-03-08 17:28:05 0 举报
词产生流程是一个自然语言处理中的重要环节。首先,我们需要收集大量的语料库,这些语料库可以是文本、语音或者视频等多种形式。然后,我们使用分词工具对这些语料进行分词处理,将连续的文本序列切分成一个个独立的词语。接下来,我们使用词性标注工具对这些词语进行词性标注,确定它们在句子中的语法角色。最后,我们可以使用一些统计模型或者机器学习算法对这些词语进行分析和处理,生成我们需要的关键词。这个过程可以帮助我们更好地理解和分析文本内容,为后续的自然语言处理任务提供基础。
作者其他创作
大纲/内容
视频
1、话题圈
订阅库□推荐库□提取库□底层库□不入库□
1、人工生成词(可选词库)2、指定定爬源3、基本信息填写(头像、简介)
词库判断
图文
榜单对比
标准:实体词
订阅库
提取库
列表编辑
百度风云榜
判断信息
1、指定列表位置下发2、指定样式下发
新词产生过程
微博热搜榜百度风云榜搜狗热搜榜
标准:可做为推荐词的粒度使用:图文、图集、视频推荐策略
优质白名单(17W+)
聚合列表排序
推荐库
头部编辑
搜索词
帖子
词库存储
优化点:1、增加搜狗热搜榜2、将榜单直接接入人工审核中
视频图文微博贴吧
文章提tag、左右熵
1、名字、URL、位置编辑2、增删改
全量白名单
ID绑定
1、资讯图集库
可优化点:1、关键词-文章PV监控优化点:2、提升与搜索词对比3、增加与百度风云榜、搜狗热搜榜
一级主题:娱乐□、科技□二级主题:人名□、IP□
主题归类
备选白名单
1、资讯视频库
tab编辑
做交集
词列表聚合
榜单
运营平台-词处理
人工审核(3W+)
标准:有关注价值的内容,可被关注使用:QB内各订阅场景
运营平台-可订阅列表编辑
TAG库对比
内容提取
搜索词榜单每小时
1、资讯文章库(不排重)2、额外定爬
可被关注白名单
频度过滤
标准:可在内容中提取出该词使用:文本召回
底层库
QB内搜索词TBS搜索词
人工添加
1、圈名字、简介、头像、背景
图集
新词发现
TAGID→CIRCLEID1、支持单个绑定2、支持批量导入
优化点:1、关键词-文章PV监控
可用于搜索/feeds推荐
全量白名单(37W+)
周关注数总关注数文章数消费PV搜索PV
0 条评论
回复 删除
下一页