爬虫流程图
2024-02-04 10:34:35 0 举报
爬虫流程图是一种展示爬虫工作流程的图表。其中包含了爬虫启动、URL下载、内容提取、数据存储和爬虫管理五个核心环节。首先,爬虫通过URL下载获取网页内容,然后使用内容提取算法从网页中提取所需数据,接着将提取到的数据存储到数据库或文件中。在爬虫管理环节,需要对爬虫进行监控和维护,确保其高效运行。此外,爬虫流程图还包括一些关键的修饰语,如多线程爬虫、分布式爬虫、增量爬虫等,以描述不同的爬虫类型和功能。
作者其他创作
大纲/内容
更新该document
判断document中的item_id是否存在
获取平台店铺的url(以移动端天猫为例)
Y
N
在mongodb中判断是否存在拼音名称的集合
获取url中的shopname
向该拼音名称的集合中添加document
插入该商品信息数据,并更新此次爬虫的当前时间(start\\last)
插入该document
判断shopname中是否有相同的item_id
开始
获取shop表中的拼音名称获取shopname表中的item_id
爬虫周期:每天
向shopname表中添加店铺所有商品信息
结束
根据店铺url获取店铺信息进行持久化到mysql
判断数据库中是否存在shopname数据表
根据shopname创建相应的数据表,并插入该店铺所有商品信息数据
向该条记录更新商品信息数据,并更新此次爬虫的当前时间(last)
爬虫周期:15天
创建该拼音名称的集合,并插入所有商品的所有评论(document)
0 条评论
下一页