企业大数据爬虫系统架构
2022-03-24 13:19:44 4 举报
企业大数据采集系统,自下而上分未数据源层、技术设施层、核心服务层、数据应用层,可采集全量工商数据、司法数据、舆情数据等,目前已经达到金融级服务的能力。
作者其他创作
大纲/内容
Download网页下载器
入仓数据
中间件支持Kafka+Flume
IP代理池服务
数据服务
ElasticSearch(长文本实体解析、俗语类验证码识别)
爬虫管理器
消息队列服务
验证码服务
MongoDB(JSON文件存储)
基础服务层
工商:全国公示系统、地方公示系统、企查查等负面:裁判文书网、执行信息公开网、各省税务局网站、信用中国等无形资产:网站备案、专利局、商标局、知识产权局等企业发展:上市公司年报、巨潮、应用市场、招聘网站、it桔子、36氪、投融资、招投标等
文件服务
URL调度器
可视化
用户模块
数据存储层
Parse网页解析器
缓存层/消息队列层
工商企业主体、司法、负面、舆情、税务、招投标、招聘、投融资
MinIO对象存储服务(文件、图片、pdf等存储)
搜索模块
Mysql(爬虫业务库、结构化数据)
可视化爬虫任务平台、数据展示平台、数据监控平台
数据同步服务
Redis集群:支持IP代理池服务、URL去重、一般缓存场景
爬虫核心层
基础设施
实体识别
服务支持
NLP
爬虫源管理
数据清洗
数据源
OCR
消息中间件
数据应用
Kafka、Flume
RabbitMQ 集群:用于实现分布式URL管理的消息队列、发送通知等,为爬虫系统的核心服务
爬虫调度器
爬虫节点:1...n
收藏
0 条评论
下一页