爬虫内部黑盒设计1
2016-03-15 14:56:16 10 举报
爬虫内部黑盒设计是指将爬虫的内部实现细节对外部隐藏,只暴露必要的接口。这种设计可以保护爬虫的内部实现不被轻易篡改,提高爬虫的稳定性和安全性。此外,黑盒设计还可以简化爬虫的维护工作,因为开发人员只需要关注暴露的接口,而不需要了解复杂的内部实现。总之,爬虫内部黑盒设计是一种有效的软件设计方法,可以提高爬虫的性能、稳定性和安全性。
作者其他创作
大纲/内容
manageinput
重新爬取所有内容并更新
绿色更新部分提供两种机制,均使用http通信:1、提供restful 接口,直接以response 的形式返回2、提供restful接口,但是使用异步通信,之后将内容推送给红色-管理系统部分
conf_tables
黑盒功能
红色部分为输入接口
需要更新所有数据
输出给外部提供的接口
db_dirty_tables
某条数据失效,需要重新推送
Django-Admin
绿色部分为程序处理部分
confinput
黑盒系统
提供一套去脏逻辑机制
推给内容管理系统out
监控,统计db,此部分为前端与后端解耦部分
manage_input
webPageinput
爬虫部分(Scrapy)
manage_inpu
系统内部实现
file_storage存储音频内容
db中存储元数据
读数据,并推数据
黄色部分为数据存储部分
接收外部系统反馈
db_clean
php
取配置项
程序执行阶段各方输入
蓝色部分为输出接口
任务队列解耦,rabbitMQ
监控,统计outputweb
本黑盒与所有输入输出交互中,如果非内通信,需要考虑通信安全,需要认证授权
web_page
0 条评论
下一页