报纸原创判断逻辑
2017-04-05 16:43:20 0 举报
报纸原创判断逻辑主要基于以下几个方面:首先,通过对比数据库中的信息,检查文章的内容是否已经被其他媒体发布过;其次,分析文章的语言风格和结构,看是否与该报纸的常见写作风格相符;再次,检查文章中的数据和信息是否准确,是否有来源可查;最后,如果可能的话,还会查看作者的背景,看是否有能力撰写该篇文章。这种逻辑虽然有一定的准确性,但也存在一定的局限性,例如无法判断文章是否受到其他文章的影响,也无法完全排除抄袭的可能性。因此,报纸在采用这种逻辑时,也需要结合其他方法,如人工审查等,以确保文章的原创性。
作者其他创作
大纲/内容
N
Y
遍历结果list,转为Map(以版次为Key,对应paper内容为value)
从mlf_szb_product_origin_20160321库中Fetch1000条未处理数据
进行作者白名单原创判断
是否fetch到数据
获取相似度最高稿件据MLF_DOCID查发稿单
未被判断为原创
查询Temp_Paper_Final初始化今日已签稿到查重库
当不是新华社稿且不是人民日报转载数据
相似稿排重
START
将判断为原创的稿件存入排重库
未找到 发稿单
当前只对浙报、钱报数据做原创判断
END
CKM-50%细排重
正文1000字以上--70%正文200到1000字80%正文200字以内---90%
是否流程稿
获取白名单作者信息
非原创
找到 发稿单
判断为原创
创建单个排重库流程1. 根据 SourceName报纸名称 与 bc版次(key) 删除原有排重库2. 根据 SourceName报纸名称 与 bc版次(key) 创建新的排重库,名称规则 sourcename+\"_\"+SignedPaper+\"_\"+bc3. 逐条遍历数据将已签稿数据保存到排重库中
报纸渠道稿件原创判断
从Temp_Paper_Final库获取当天指定报纸数据SITENAME:\"\" AND FTPUBDATE:\"\"
初始化CKM查重库
当不为相似稿,且撤稿标识drop不为1
是否找到稿件发稿单
获取发稿单作者&原创字段0/1
0 条评论
回复 删除
下一页