首页  流程图  详情

企业大数据爬虫系统架构

2022-03-24 13:19:44   4  举报





企业大数据采集系统，自下而上分未数据源层、技术设施层、核心服务层、数据应用层，可采集全量工商数据、司法数据、舆情数据等，目前已经达到金融级服务的能力。

爬虫

大数据

企业大数据

爬虫架构

采集数据

作者其他创作

大纲/内容

Download网页下载器

入仓数据

中间件支持Kafka+Flume

IP代理池服务

数据服务

ElasticSearch（长文本实体解析、俗语类验证码识别）

爬虫管理器

消息队列服务

验证码服务

MongoDB（JSON文件存储）

基础服务层

工商：全国公示系统、地方公示系统、企查查等负面：裁判文书网、执行信息公开网、各省税务局网站、信用中国等无形资产：网站备案、专利局、商标局、知识产权局等企业发展：上市公司年报、巨潮、应用市场、招聘网站、it桔子、36氪、投融资、招投标等

文件服务

URL调度器

可视化

用户模块

数据存储层

Parse网页解析器

缓存层/消息队列层

工商企业主体、司法、负面、舆情、税务、招投标、招聘、投融资

MinIO对象存储服务（文件、图片、pdf等存储）

搜索模块

Mysql（爬虫业务库、结构化数据）

可视化爬虫任务平台、数据展示平台、数据监控平台

数据同步服务

Redis集群：支持IP代理池服务、URL去重、一般缓存场景

爬虫核心层

基础设施

实体识别

服务支持

NLP

爬虫源管理

数据清洗

数据源

OCR

消息中间件

数据应用

Kafka、Flume

RabbitMQ 集群：用于实现分布式URL管理的消息队列、发送通知等，为爬虫系统的核心服务

爬虫调度器

爬虫节点：1...n

 收藏

立即使用

企业大数据爬虫系统架构

hanyangang

职业：技术专家

去主页





0 条评论

下一页

为你推荐

查看更多

