社区产品经理 如何搭建 内容审核体系
2023-04-15 16:26:15 2 举报
AI智能生成
内容审核 风控安全
作者其他创作
大纲/内容
介绍
内容审核,是基于图像、文本、音频、视频的检测技术和人工审核
将检测涉黄、涉暴、图文违规等内容,对用户上传的图片、
文字、音视频进行内容审核,以满足内容安全需求,降低业务违规风险。
将检测涉黄、涉暴、图文违规等内容,对用户上传的图片、
文字、音视频进行内容审核,以满足内容安全需求,降低业务违规风险。
审核
展示
展示
先发后审
用户先发表UGC内容,再经过审核
适用于对发表内容时效性要求较高的场景,如阅读、听歌等场景下的用户评论
先审后发
用户提交UGC内容后,先经过审核,审核通过后才能发表上线。
适用于在社区、论坛、新闻平台等场景下发表文章、观点、讨论等
审核技术
文本审核
NLP(自然语言处理)技术,
将语句通过语法分析、情感分析、
词向量分析等技术进行识别和归类,
再与平台本身的素材库进行比对,返回匹配的结果。
有效识别涉黄、广告、辱骂、违禁品和灌水文本内容
将语句通过语法分析、情感分析、
词向量分析等技术进行识别和归类,
再与平台本身的素材库进行比对,返回匹配的结果。
有效识别涉黄、广告、辱骂、违禁品和灌水文本内容
图片审核
利用深度神经网络模型对图片内容进行检测,
准确识别图像中的暴恐元素、涉黄内容等,
帮助业务规避违规风险。
准确识别图像中的暴恐元素、涉黄内容等,
帮助业务规避违规风险。
音频审核
先通过ASR(语音识别)将音频经过降噪、
断句处理成文字,
然后再通过文本审核对其进行处理
断句处理成文字,
然后再通过文本审核对其进行处理
视频审核
通过抽帧技术和算法,
检测视频画面、声音、字幕等,
精准高效识别各类涉黄、涉暴、
广告等违规内容,
提高平台内容治理质量和效率。
检测视频画面、声音、字幕等,
精准高效识别各类涉黄、涉暴、
广告等违规内容,
提高平台内容治理质量和效率。
审核
流程
流程
机器审核
按照制定好的规则
或机器学习算法对内容进行审核
或机器学习算法对内容进行审核
成熟的审核系统能将95%
甚至99%以上的内容都自动审核并做出处理
甚至99%以上的内容都自动审核并做出处理
有问题
自动删除
人工复审
不违规
给与流量
所有人可见
所有人可见
违规
不给与流量,
仅自己可见
仅自己可见
删除
人工审核
合规
内容
审核
内容
审核
机器无法判别的内容,
通常占平台内容数量的
比例不超过5%.
通常占平台内容数量的
比例不超过5%.
运营
质量
审核
质量
审核
筛选出优质内容,防止出现劣币驱除良币的不良现象
内容
质量
分级
质量
分级
优质
内容
内容
不同类型公司评判标准不一
举例:
24 小时内达到
「XXXX指标」为
为优质帖子,
给予更多的流量。
24 小时内达到
「XXXX指标」为
为优质帖子,
给予更多的流量。
置顶 -首屏展示
精选内容区展示
官方优质内容规范
低质
内容
内容
降低流量范围
警告 禁言 删除
用户投诉审核
很多违规内容以前没有出现过;所以不在规则可以过滤的范围内,
或者非常隐蔽,规则难以严格过滤。
或者非常隐蔽,规则难以严格过滤。
结果复审
采取
抽查方式
抽查方式
通过复审机器删除的内容,看规则或算法是否过于严格
查看人工删除和通过的内容,看员工的工作是否按要求执行
审核
维度
维度
关键词审核
禁止
关键词
关键词
只要匹配到这个词,内容就被自动删除或禁止提交
审核
关键词
关键词
最常见的关键词种类,只要匹配到就会自动进入后台进行审核
关键词会被高亮并罗列出来,有助于审核人员快速判断
替换
关键词
关键词
词被系统自动替换。平台不希望出现这个关键词,
但用别的代替读者通常也能读懂
但用别的代替读者通常也能读懂
一般后台都会支持限定符{x}
以限定相邻两字符间可忽略的文字
以限定相邻两字符间可忽略的文字
用户
发布
次数
限制
发布
次数
限制
主要限制一名用户无限制地发送评论等
举例:
一天最多发送三十条评论,
评论次数如果超出时则弹出toast“发言太多累了吧,请休息下”的提示
评论次数如果超出时则弹出toast“发言太多累了吧,请休息下”的提示
新用户需注册多长时间才可发布评论,
或需绑定手机号才可以发布评论这些严格的条件。
或需绑定手机号才可以发布评论这些严格的条件。
重复
内容
过滤
内容
过滤
一般都是对于发广告
举例
对比时去掉除汉字外的任何符号,
如“抖丶音”、“快aabb手”,对比时用“抖音”“快手
如“抖丶音”、“快aabb手”,对比时用“抖音”“快手
将评论与同一用户上条评论作对比,
10个汉字以上的若与其中一条重复率达70%,
则弹出toast“请不要发布重复内容”;
10个汉字以上的若与其中一条重复率达70%,
则弹出toast“请不要发布重复内容”;
将评论仅与评论库最近发布50条的评论作对比,
20个汉字以上的若与其中一条重复率达80%则机审失败
20个汉字以上的若与其中一条重复率达80%则机审失败
白名单
黑名单
黑名单
黑名单
若同一用户一天内机审失败的评论超过10,则自动列入黑名单。
黑名单的用户发布评论时,弹出toast“您暂时无法发布评论”
白名单
不受发布次数限制,但内容需要检查广告词、敏感词、屏蔽词,
如果一天内发布的评论超过10条机审失败,也自动列入黑名单。
如果一天内发布的评论超过10条机审失败,也自动列入黑名单。
用户
监控
维度
监控
维度
账号基础
信息
信息
年龄、性别、地理位置、
设备、ip地址、使用时长、
交易信息、用户发布各类信息
设备、ip地址、使用时长、
交易信息、用户发布各类信息
用户分值
系统
系统
通过用户基础数据进行分析,
并数值化,可以按权重累加、
按总分值加总均可
并数值化,可以按权重累加、
按总分值加总均可
用户风险
监控系统
监控系统
针对用户发送的方式、
次数等次数进行统计,
形成用户频次统计数据。
根据频次可对用户进行处理:
疑似送审、直接拦截、拦截加黑。
次数等次数进行统计,
形成用户频次统计数据。
根据频次可对用户进行处理:
疑似送审、直接拦截、拦截加黑。
审核系统
模块拆解
模块拆解
系统模块
业务配置
业务ID/
业务名称
/ 业务类型/
审核规则/
业务名称
/ 业务类型/
审核规则/
针对每种接入的业务,
需要进行对应的配置,
比如业务本身审核的平台规则,
请求第三方审核的策略配置。
还有审核员审核的
时候领取规则的配置等。
需要进行对应的配置,
比如业务本身审核的平台规则,
请求第三方审核的策略配置。
还有审核员审核的
时候领取规则的配置等。
账号角色配置
角色、
业务
业务
针对系统的操作人员,
配置不同的角色范围和业务范围
配置不同的角色范围和业务范围
参数配置
系统产品规则的一些灵活配置项。
内容模块
审核状态:
审核中、通过、驳回,
审核中、通过、驳回,
驳审核依据:
此处可以按照平台规则进行抽象出一套模版,
如涉政,涉黄,涉暴等。
也可以直接采用第三方结果进行展示
此处可以按照平台规则进行抽象出一套模版,
如涉政,涉黄,涉暴等。
也可以直接采用第三方结果进行展示
操作:
大致的操作包括领取,
审核,释放,可能
还会涉及到分配。
大致的操作包括领取,
审核,释放,可能
还会涉及到分配。
数据报表
对审核内容进行统计,
可以进行后续的
算法优化或者人员
审核效率的考量标准
可以进行后续的
算法优化或者人员
审核效率的考量标准
0 条评论
下一页