首页  流程图  详情

报纸原创判断逻辑

2017-04-05 16:43:20   0  举报





仅支持查看

为你推荐

查看更多



报纸原创判断逻辑主要基于以下几个方面：首先，通过对比数据库中的信息，检查文章的内容是否已经被其他媒体发布过；其次，分析文章的语言风格和结构，看是否与该报纸的常见写作风格相符；再次，检查文章中的数据和信息是否准确，是否有来源可查；最后，如果可能的话，还会查看作者的背景，看是否有能力撰写该篇文章。这种逻辑虽然有一定的准确性，但也存在一定的局限性，例如无法判断文章是否受到其他文章的影响，也无法完全排除抄袭的可能性。因此，报纸在采用这种逻辑时，也需要结合其他方法，如人工审查等，以确保文章的原创性。

作者其他创作

大纲/内容

遍历结果list，转为Map(以版次为Key，对应paper内容为value)

从mlf_szb_product_origin_20160321库中Fetch1000条未处理数据

进行作者白名单原创判断

是否fetch到数据

获取相似度最高稿件据MLF_DOCID查发稿单

未被判断为原创

查询Temp_Paper_Final初始化今日已签稿到查重库

当不是新华社稿且不是人民日报转载数据

相似稿排重

START

将判断为原创的稿件存入排重库

未找到发稿单

当前只对浙报、钱报数据做原创判断

END

CKM-50%细排重

正文1000字以上--70%正文200到1000字80%正文200字以内---90%

是否流程稿

获取白名单作者信息

非原创

找到发稿单

判断为原创

创建单个排重库流程1. 根据 SourceName报纸名称与 bc版次(key) 删除原有排重库2. 根据 SourceName报纸名称与 bc版次(key) 创建新的排重库，名称规则 sourcename+\"_\"+SignedPaper+\"_\"+bc3. 逐条遍历数据将已签稿数据保存到排重库中

报纸渠道稿件原创判断

从Temp_Paper_Final库获取当天指定报纸数据SITENAME:\"\" AND FTPUBDATE:\"\"

初始化CKM查重库

当不为相似稿，且撤稿标识drop不为1

是否找到稿件发稿单

获取发稿单作者&原创字段0/1