首页  流程图  详情

apider_man_uml修正版

2018-07-20 12:26:53   29  举报





爬虫类图

作者其他创作

大纲/内容

通过用户命令选择相应的配置，并实例化一个全局的config实例方便整个项目调用

DataBasePipeline

具体配置类

根据需要重写父类的属性

继承

spider_base

MonitorMiddleware

传输数据

RabbitMQMixin类

+ rabbitmq_key:dict = None+ rabbitmq_batch_size:integer = None+ server:String = None

+ start_requests+ setup_rabbitmq(crawler)+ next_requests+ make_request_from_data(data):Request+ make_requests_from_url:Request+ schedule_next_request+ spider_idle:DontCloseSpider

生成

RabbitMQCrawlSpider

scrapy engine将格式化后的数据（对象）传递到Item，item者负责校验，通过后生成item对象传递给Pipline

UserAgentMiddleware

ProxyMiddleware

具体的item有：answer，dianping，news，post，comment等，根据不同的业务要求，添加相应的属性，类似于数据库初始化字段

Request

+ encoding:String='utf-8'+ method:String='GET'+ url:String+ body:binary+ callback:function+ errback:function+ cookies:Dict+ headers:Dict+ dont_filter:blooean=False+ _meta:Dict+ flags

+ meta:Dict(meta)+ get_url:String(url)+ _set_url(url)+ _get_body:binary+ _set_body(body)+ encoding:String+ __str__:String+ copy+ replace:class

定向爬虫有：APP，论坛，知乎，自媒体等爬虫

具体的Item实现类

RabbitMQSpider爬虫类

中间件负责集中处理Rquest请求：如ip代理，加载cookie，日志监控和useragent

定向爬虫类

+ name:String = 唯一且不为空+ default_page_num:integer = 10+ default_page_size:integer = 25+ profile_api_url:String+ custom_settings:dict

+ make_request_from_data(task):Dict(requests)+ parse(response)

BaseCrawlSpider

这里主要负责记录产生任务数量和完成任务数量，需要连接redis服务保存这些数据

CounterMiddleware

increment（引入方法）

BaseSpider

经过

各爬虫格式化

下载器

下载器指scrapy下载器，负责请求网络数据，然后将数据交给scrapy engine，后者将数据格式化

BaseConfig

+ RPC连接数据+ DATABASE_HOST+ DATABASE_SEARCH_ENGINE_HOST+ RabbitMQ的连接数据+ RabbitMQ Search Engine连接数据+LOG_LEVEL:String=\"INFO\"+ ACCOUNTS:Dict = {}+ EDATA_SEARCH_API:String+ EDATA_SEARCH_SEARCH_ENGINE_API:String+ REDIS_SEARCH_ENGINE_EXEC:String+ SENTRY_URL:String+ 神箭手配置数据+ 阿布云配置数据

这里为数据的出口，数据在这里被交给业务端处理

scrapy_rabbitmq

BaseMixin

+ retry_times:integer = 10+ is_login_spider:boolean = False

BaseItem

+ 平台唯一ID uuid+ 类型 type+ 标题 title+ 访问 URL url + 内容 content + 发布时间 pubTime+ 抓取时间 fetchTime + 采集源信息 origin+ 情感(数据回填需要) emotion+ 内核类 kernelSentences

BasePipeline

CommonNewsScannerSpider

+ name:String+ custom_settings:Dict+ rules_arr:Array+ rules:Array

各爬虫将数据解析为对象，交给Item类校验

Spider（Scrapy）

+ name:string = None+ custom_settings:dict = None