PDF表格抽取框架

2022-01-06 15:30:17   45  举报





PDF表格抽取框架是一种专门用于从PDF文档中提取表格数据的自动化工具。它能够识别和解析PDF文件中的表格结构，并将其转换为可编辑的格式，如Excel、CSV等。这种框架通常具有高度的灵活性和可定制性，可以根据用户的需求进行配置，以适应不同类型的PDF表格。此外，PDF表格抽取框架还具有强大的错误处理和容错能力，能够在遇到复杂的表格结构和格式时，准确地提取出所需的数据。总的来说，PDF表格抽取框架是一种高效、准确的数据提取工具，对于需要大量处理PDF表格数据的用户来说，具有很高的实用价值。

系统架构

作者其他创作

大纲/内容

取信息：构造表格结构

定界：camelot

输入：1.PDF2.锚文本3. 起始页码

定位:1.锚文本往下方索引，进行文本交叉2. 起始页码

方案思考：根据表格类型定义键值模板（参数），然后根据返回的结构构造

工具评测：(优点差不多)1. pdfplumber: 无边框表格读取会漏列，准确率最高。2. tabula: 可读取无边框表格，但格式准确率相对1低。3. camelot: 可读取无边框表格，格式准确率相对1低相对2高。4. OCR方法：一言难尽，准确度参差不齐（均比上述方法低），难处理跨页表格和一页里面多个表格的情况。

判定跨页:1. 递归找跨页数量2. 返回最终页码

跨页判定合并行：1. 跨页间需合并单元格2. 跨页间直接拼接

不跨页

跨页

识别结束：返回完整表格信息

定界：Table Recognition

映射：返回表格结构，进行键值映射

输出：表格结构化信息

搁置方案