xml、pdf解析

2023-06-13 16:05:48   3  举报





XML和PDF是两种常见的文件格式，它们分别用于存储和传输结构化数据和非结构化数据。XML是一种可扩展标记语言，它使用标签来描述数据的结构和含义。PDF是一种便携式文档格式，它可以在任何设备上以相同的形式显示文本、图像和其他元素。解析XML和PDF文件通常需要使用特定的工具或库。例如，可以使用Python的xml.etree.ElementTree模块来解析XML文件，或者使用PyPDF2库来解析PDF文件。这些工具和库提供了丰富的API，可以帮助开发人员轻松地读取、修改和操作文件中的数据。

工作流程

作者其他创作

大纲/内容

PNG命名说明书：租户id+专利code+100003+序号(001-xxx)摘要：租户id+专利code+100005+序号

上传杉岩：路径规则：说明书：space/100003/图片摘要：space/100005/图片

mysql

此处做了uuid和（租户id，专利code）的映射

获取权要、说明书、摘要的xml文件路径和说明书、摘要的pdf路径

存储本地

表名：权利要求：ods_patent_ipm_claims_inc说明书：ods_patent_ipm_describe_inc摘要：ods_patent_ipm_summary_inc

写HBaserowkey:散列处理(png文件名)bucket:shanyan_path:

XML处理