知识抽取处理流程架构图
2021-02-23 15:14:16 18 举报
知识抽取处理流程架构图主要包括以下几个步骤:首先,数据源收集,这是知识抽取的基础,需要从各种类型的数据中获取信息;其次,数据清洗,对收集到的数据进行预处理,去除无效和冗余的信息;然后,实体识别,通过自然语言处理技术识别出文本中的实体;接着,关系抽取,识别实体之间的关系;最后,知识表示,将抽取出的知识以结构化的形式存储起来。这个流程架构图展示了知识抽取的全过程,每个步骤都是相互关联,缺一不可的。
作者其他创作
大纲/内容
多源异构结构化数据
Kafka Doc流数据
WorkFlow A
Get FastDFS file
知识抽取处理流程架构
PDF等文档数据
添加NLP标签数据存储和索引
文本抽取完成的Document
Rest API
文件格式
Extract pdf text要求分隔方式固定
Kafka
New Documentinit fields
WorkFlow B
文本类数据
初始化Doc解析网页或PDF文件设置DOC相关属性
Relation ExtractionProcess
ES Cluster Save Model Result
段落、句子ClassifierProcess
Kafka Meta流数据
Extract html text要求分隔方式固定
MongoDBSave Document
NLP Process(分词、NER等操作)NLP处理结果看示意图
0 条评论
下一页