ebay数据生产线工作流程图
2016-03-15 12:19:05 6 举报
登录查看完整内容
eBay数据生产线工作流程图是一个详细的流程图,展示了从数据采集、处理、分析到最终应用的整个过程。首先,数据采集阶段包括从各种渠道获取用户行为数据、商品信息等。接下来,数据处理阶段对采集到的数据进行清洗、整合和存储,以便后续分析。在数据分析阶段,通过运用统计学、机器学习等方法对数据进行深入挖掘,发现潜在的规律和趋势。最后,将分析结果应用于业务决策,如优化推荐算法、提高广告投放效果等。整个流程旨在帮助eBay更好地理解用户需求,提升用户体验和商业价值。
作者其他创作
大纲/内容
47.88.85.186
按卖家帐号的优先级,抓取优质卖家帐号产品
产品销量数据跟踪
临时爬虫0号
爬虫3号
Ebay平台数据生产线工作流概要乔旻浩2016-03-15
本地云数据库(产品数据)
本地数据库(卖家帐号数据)
192.168.5.205
根据分类产品数据,过滤出卖家帐号,再通过监控卖家帐号表现,筛选出优质卖家
产品销售记录数据监控
优质卖家店铺产品监控
爬虫1号
本地数据库(产品销售记录)
分类产品抓取
获取Ebay平台美国,英国,德国等多个站点的所有底层分类类目链接
卖家帐号优先级排序
爬虫4号
电信专线服务器
阿里硅谷服务器
XX.XX.XX.XX
47.88.86.195
本地数据库(产品销量历史)
爬虫2号
监控产品的销售记录数据每天跟踪产品的销量数据
爬虫5号
注:一、为什么原来的产品销售记录是人工在处理?答:1.产品销售记录页面,ebay平台做了屏蔽措施,目前每天监控的销售记录的产品数量有限。2.抓取完成后过滤出的七天销量达标的产品数量不确定,需根据需求量来更新。二、既然产品销量数据和卖家店铺产品监控爬虫都会抓取产品详情页面,为什么不将两个流程合并?答:1.卖家店铺产品监控的数据量较多,且有相当部分为无销量,重复的产品,如果不进行过滤,产品每日销量数据监控效率低。2.卖家店铺产品所产出的数据字段较多,而产品每日销量只关注时间节点和销量数据,减轻数据存储压力。
192.168.5.203192.168.5.202
根据分类链接抓取分类的产品基础数据
获取分类种子链接
0 条评论
回复 删除
下一页