虽然PDF格式在当今商业领域应用广泛,但其中包含的数据通常难以直接用于与其他系统进行数据对接。PDF文件通常设计用于呈现易于人类阅读的内容,并具有可变格式和布局,这使得结构化数据提取变得非常困难。它们可能包含文本、图像、表格和其他元素,但这些数据并非以机器可读的格式组织。常见的PDF数据提取工具可能无法提供准确的结果,尤其是在处理具有复杂布局的PDF文件时。而MapForce PDF提取器正是为了解决这个问题而设计的。
MapForce PDF 提取工具 是一款易于使用的实用工具,它允许您快速定义 PDF 文档的结构,并从中提取数据。 然后,您可以在 MapForce 中访问这些 PDF 数据,以便进行进一步的转换和转换为其他格式,例如 XML、JSON、数据库、Excel 等。 它是实现 PDF 数据集成和 ETL 项目的理想工具。
通过在 MapForce PDF 提取工具中使用可视化工具,您可以定义 PDF 文档的结构,并高效地提取其数据。PDF 提取工具是一个高度灵活的工具,它允许您仅提取文档的某些部分,而不是整个文档;您可以将来自同一 PDF 文件不同页面的信息片段进行组合;可以将表格拆分为行;还可以将数据组织成组。
MapForce PDF提取器的设计直观且简单易用,用户可以通过点击和拖拽等操作,以可视化的方式轻松定义PDF文档的结构。 最终,之前被困在PDF文件中的大量数据现在可以被转换为其他格式,从而实现数据整合和利用。
在 PDF 提取工具中,您可以立即开始处理基于文本的 PDF 文件。然而,许多 PDF 文件实际上是扫描的文档,即仅仅是图像。通过支持光学字符识别 (OCR) 技术,MapForce 可以将这些图像转换为可选择、可搜索的文本,从而可以进行提取。这使得 MapForce PDF 提取工具能够处理各种类型的输入,包括旧文档、数字化纸质档案以及扫描或手写表格。
在MapForce中,当您对扫描的PDF文件进行光学字符识别(OCR)时,处理器会将识别出的内容以对象树的形式显示。文档本身会以叠加的方式显示,展示OCR处理器如何在扫描区域中识别单词,并将识别出的单词以绿色突出显示。以红色突出显示的单词未被添加到对象树中,因为它们的置信度得分未达到处理器的阈值。您可以根据需要,手动编辑对象树,以及绿色和红色标记的单词。
当只需要处理部分数据,或者处理大型文档时,您可以利用鼠标定义一个扫描区域(ScanArea),从而一次性对文档的特定区域进行光学字符识别(OCR)处理。
当光学字符识别(OCR)和编辑工作完成后,您可以保存结果,并在PDF提取器中继续创建您的PDF数据提取规则。
当您加载一个PDF样本文件以创建模板并定义数据提取规则时,该PDF文件会显示在模式面板的旁边。模式面板会显示一个树状结构,该结构代表数据将如何被提取。MapForce PDF提取器包含一个强大的建议引擎,它可以自动识别常见的文档元素,并尝试检测其结构。
例如,建议引擎会识别文档中存在的表格,您可以选择自动提取这些表格。在模式面板中的分割操作符可以帮助您定义如何正确地将表格分割成独立的行。建议引擎可以根据边缘或线条来创建分割,或者根据固定的距离进行分割,您可以在PDF预览窗口中查看分割效果。同时,建议引擎还会识别表格的列和标题文本。点击模式树中的任何对象,都会突出显示相应的结构和数据提取规则,这些规则适用于PDF文档的显示。
在包含大量表格的大型PDF文档中,搜索文档中的文本(例如标题)并定义处理与该文本相关的数据的规则,可能会很有帮助。例如,在创建用于提取年度财务报告数据的模板时,您可以搜索“支出”一词,并相应地处理其后出现的表格数据。 精细的搜索选项,如区分大小写、格式过滤(字体、字体粗细等)以及完整或部分单词搜索,可以实现精确的目标定位。
在提取表格数据后,您可以根据需要调整提取规则,例如排除某些片段、调整锚点设置、定义表格边界等。这些操作可以通过可视化的工具和便捷的下拉菜单完成。您可以在输出树中预览数据提取的结果,以检查其准确性。
其他文档元素也可以手动提取并添加到您的模板中。要定义手动提取数据的规则,只需在PDF文件中选择一个区域,通过将其框选在矩形内来提取。然后,在右键菜单中选择“文本提取”。PDF提取工具会将提取的内容作为元素添加到文档树中,您可以将其拖动到文档树中的所需位置。
在您进行操作时,MapForce PDF 提取器会构建一个 XML 文档,该文档代表您 PDF 模板的结构,并从正在处理的 PDF 文档中提取示例数据,并在输出窗口中显示。这有助于您理解并完善提取结果,这些结果将成为在 MapForce 中使用的模板。
一旦您在 MapForce PDF 提取器中保存了模板,您就可以将其作为源数据组件插入到 MapForce 数据映射项目中。常见的 PDF 转换需求包括:
当然,MapForce 还可以与其他多种源数据和目标数据格式进行组合,支持链式的数据映射项目,以及更多功能。它拥有丰富的的数据处理函数库,并且提供可视化的函数构建工具,从而可以轻松地对数据进行过滤和处理,然后再将其写入目标位置。
借助PDF提取器,MapForce 终于可以将之前被锁定在PDF文件中的关键业务数据,用于数据映射、数据集成以及ETL(提取、转换、加载)流程。
“Altova MapForce 提供了卓越的数据映射功能,我们可以将其无缝地集成到我们的核心产品中。这款产品的可扩展性使其能够满足我们所有解决方案的需求。”





