文本等非数据数据处理流程图
2019-02-28 16:26:15 2 举报
文本数据流程
作者其他创作
大纲/内容
WorkFlow A
Get FastDFS file
巨潮 MetaData MYSQL DB
UI Display
微信与网页爬虫数据源
Rest API
文件格式
Extract pdf text要求分隔方式固定
ES Cluster Save Model Result
analyse-report-etl
巨潮ETL
段落、句子ClassifierProcess
File Download Process
FastDFS
Extract html text要求分隔方式固定
爬虫 MetaData MYSQL DB
Kafka Doc流数据
文本等非数据数据处理流程图
添加NLP标签数据存储和索引
文本抽取完成的Document
招股说明书、企业年报等含PDF文档的需要下载原始文件到FastDFS
Connectors
Kafka
Crawler Server
New Documentinit fields
WorkFlow B
Report MetaData MYSQL DB
初始化Doc解析网页或PDF文件设置DOC相关属性
Relation ExtractionProcess
Kafka Meta流数据
巨潮Oracle数据源
启明星Oracle数据源
MongoDBSave Document
NLP Process(分词、NER等操作)NLP处理结果看示意图
0 条评论
下一页