反检索流程图
2023-11-03 14:14:24 2 举报
123
作者其他创作
大纲/内容
否
提供四元组
被反爬数据库
快照返回
是
predicate策略判断
替换-为空字符串
原字符串
获取数据库别名表
object舷号,全称,简称,别称扩展(扩展为n×1)
输出为真
扩展三元组(x*l*m*n的数据)
李嵩源爬取网站转为快照重复网站映射pdf名称
替换-为空格
根目录excel表
是如果重复四元组不需要入库数据备份:删除半年前的备份
增量数据每两个月
输出为假
替换中文“”为英文\"\"
解析反爬网址根目录
数据备份:删除半年前的备份
存量数据每隔一段时间重查一边
三者结果取交集
快照转换字符串是否包含任意一个条件
subject舷号,全称,简称,别称扩展(扩展为l×1)
李嵩源根据根目录excel表制定反爬策略
文件快照是否小于等于83kb
检查快照解压缩或者下载是否存在问题
通过移动磁盘物理传输
数据丢弃
反检索人员下载快照
predicate同义词扩展(扩展为m×1)
李嵩源爬取
真数据备份
反检索数据库
原文本小写替换-为空格
假
快照
快照存储
按照日期范围(暂定每两个月)取出增量三元组(x个数据)
subject字符串
截取“”内字符串
predicate字符串
subject策略判断
原文本小写替换-为空字符串
object策略判断
网盘压缩传输
展示系统数据库
去除中文“”
增量数据每隔两个月
判定四元组是否正确
标注系统库
三元组扩展
字符串长度是否超过30
google反检索爬取网站
截取\"\"内字符串
快照文件
object字符串
获取数据库内同义词
0 条评论
下一页