xml、pdf解析
2023-06-13 16:05:48 3 举报
XML和PDF是两种常见的文件格式,它们分别用于存储和传输结构化数据和非结构化数据。XML是一种可扩展标记语言,它使用标签来描述数据的结构和含义。PDF是一种便携式文档格式,它可以在任何设备上以相同的形式显示文本、图像和其他元素。 解析XML和PDF文件通常需要使用特定的工具或库。例如,可以使用Python的xml.etree.ElementTree模块来解析XML文件,或者使用PyPDF2库来解析PDF文件。这些工具和库提供了丰富的API,可以帮助开发人员轻松地读取、修改和操作文件中的数据。
作者其他创作
大纲/内容
PNG命名说明书:租户id+专利code+100003+序号(001-xxx)摘要:租户id+专利code+100005+序号
上传杉岩:路径规则:说明书:space/100003/图片摘要:space/100005/图片
mysql
此处做了uuid和(租户id,专利code)的映射
获取 权要、说明书、摘要的xml文件路径和说明书、摘要的pdf路径
存储本地
表名:权利要求:ods_patent_ipm_claims_inc说明书:ods_patent_ipm_describe_inc摘要:ods_patent_ipm_summary_inc
写HBaserowkey:散列处理(png文件名)bucket:shanyan_path:
XML处理
XML解析 权要:100001.xml 说明书:100002.xml摘要100004.xml
表名:ods_patent_ipm_picture_inc
rowKey生成逻辑对png文件名进行MD5加密,然后对密文反转,取前5位,最后拼接png文件名。计算公式如下:取前5位(反转(MD5(png文件名)))+png文件名
ods层表
封装json根据uuid映射出租户id和专利code
从oss下载zip包暂存储在本地
上传HDFS此处上传到hive stg层,以json文件存储
获取增量数据(租户id+专利code -> uuid)
解压zip(兼容多层嵌套解压)
混合云hive
分批请求研发侧接口传参:uuid集合 出参:uuid和oss url
PDF处理
png url处理逻辑\"https://wzdata-api.qizhidao.com/bigtools/big/rk/\"+Md5Utils.string2Md5(png文件名+\"--wz666888\")+\"/\"+png文件名
0 条评论
下一页