2-抓取买家评论详情并保存和统计-流程图
2014-06-23 16:35:59 19 举报
根据淘宝昵称库,抓取买家评价数据并存储到数据库中。
作者其他创作
大纲/内容
1)统计使用 6 条 SQL?还是 2 条 SQL?还是 1 条 SQL?2)除了好、中、差评数的统计,有没有必要再计算好好评率并记录在数据库中?
单次取 200 条是否合理?应该从哪些角度考虑?
将该买家评价详情保存到对应的买家评价详情分表 tbrate.tb_traderate_xxxx 中
hashed_id 是否为空
结束,再循环下 200 个
更新买家昵称表 tbrate.tb_user_nick 中的 hlg_modified 和 hashed_id
200 个买家是否遍历完成
否
插入 / 更新统计信息,使用INSERT ... ON DUPLICATE KEY UPDATE?
是
通过买家评价信息网址,获取买家 hashed_id
1)平均抓取速度:0.875 秒 / 条;2)200 条处理时间约 3 分钟;3)200 条买家昵称相关数据小于 8.5 KB;4)11 个 IP,每天约抓取 100 万买家数据;5)存在 hashed_id 的买家评价信息抓取会更快,可减少 2 个 HTTP 请求,共 3 个。
从买家昵称表 tbrate.tb_user_nick 中,以 hlg_modified 顺序获取 200 条记录,包括:nick、hashed_id、hlg_user_id
通过 hashed_id,获取买家最近发出的 40 条评价
对该买家的评价详情分表 tbrate.tb_traderate_xxxx 中的历史和半年的好、中、差评数进行统计,并记录在评价统计表 tbrate.tb_traderate_count 中
保存评价详情、统计并记录结果和更新昵称表是否需要在一个事务内?
遍历返回的买家nick、hashed_id、hlg_user_id 结果集
开始
通过 nick,抓取买家评价信息网址
0 条评论
下一页