Daten für die PDF-Kartierung extrahieren
MapForce, das preisgekrönte Datenmapping-Tool von Altova, unterstützt die Verarbeitung von PDF-Dateien in Datenintegrations- und ETL-Workflows. Der MapForce PDF-Extraktor ermöglicht es, Regeln zur Extraktion von Daten aus PDF-Dateien in einem strukturierten Format zu definieren, um diese Daten anschließend für das Mapping in andere gängige Formate wie Excel, XML, JSON, Datenbanken und mehr verfügbar zu machen.
Schauen wir uns an, wie es funktioniert.

Wie man Daten aus PDF-Dateien extrahiert
Das PDF-Dateiformat erfreut sich heute in der Kommunikation verschiedener Branchen nahezu allgegenwärtiger Nutzung, dank seiner Fähigkeit, eine einheitliche Darstellung auf jeder Plattform oder jedem Gerät zu gewährleisten. PDFs kombinieren typischerweise verschiedene Möglichkeiten der Datenpräsentation in Elementen, die sich gut für menschliche Leser geeignet, darunter Text, Bilder, Diagramme und Tabellen, wobei eine Vielzahl von Formatierungsoptionen verfügbar sind.
Obwohl PDFs sich hervorragend eignen, um Daten auf benutzerfreundliche Weise darzustellen, fehlt ihnen jegliche eingebaute Struktur, die für die effektive Extraktion dieser Daten zur Integration mit anderen Geschäftssystemen erforderlich wäre. Dies ist natürlich eine häufige Anforderung. Traditionelle Tools zur Datenauswertung können oft keine Informationen aus PDFs korrekt erfassen, insbesondere bei komplexen Layouts und unterschiedlichen Formatierungsstilen. Dies kann zu Fehlern, Ineffizienzen und der Notwendigkeit manueller Eingriffe führen, um die extrahierten Daten zu korrigieren.
Um diese Herausforderungen bei der Integration von PDF-Daten zu bewältigen, hat Altova das MapForce PDF Extractor entwickelt, ein visuelles Werkzeug, das die Definition von Regeln zur Extraktion strukturierter Daten aus PDFs vereinfacht.
Erfahren Sie in diesem Tutorial-Video, wie der MapForce PDF Extractor funktioniert:
Der beste Weg, um mit dem MapForce PDF-Extraktor zu beginnen, ist das Laden eines Beispieldokuments, das das Format der Daten enthält, die Sie extrahieren möchten. Dies kann eine Rechnung, ein Datenerfassungsformular, ein Bericht, ein Kundenprofil usw. sein. Wenn die PDF-Datei ein Scan eines anderen Dokuments ist, können Sie zunächst eine Texterkennung (OCR) durchführen, um die Daten zugänglich zu machen und sie für den Extraktor vorzubereiten.
Der PDF-Extraktor zeigt Ihr Beispieldokument an, sodass Sie mit der Definition einer Vorlage und Regeln für die strukturierte Extraktion der Daten beginnen können. Das benutzerfreundliche Design des MapForce PDF-Extraktors ermöglicht es, die Struktur des PDF-Dokuments einfach und visuell festzulegen, und zwar mithilfe von Funktionen zum Anklicken und Ziehen.
Neben dem Bereich zur Anzeige der PDF-Datei befindet sich ein Bereich, der ein Baumdiagramm anzeigt. Dieses Diagramm stellt dar, wie die PDF-Datei analysiert und die Daten extrahiert werden.

Das Eigenschaftenfenster ermöglicht es Ihnen, Eigenschaften zu definieren und Ausdrücke zu berechnen, falls erforderlich. Am unteren Rand der PDF-Dokumentansicht befindet sich das Ausgabefenster (siehe oben), das Ihnen eine Vorschau des Ergebnisses der PDF-Datenausgabe basierend auf den von Ihnen definierten Eigenschaften und Extraktionsregeln anzeigt. Die Ausgabe wird durch ein XML-Dokument dargestellt, das XML-Tags für die Struktur sowie den tatsächlichen Inhalt der extrahierten Beispieldatei enthält.
Um Teile des Dokuments auszuwählen und zum Schemabaum hinzuzufügen, markieren Sie einfach einen Bereich und klicken Sie mit der rechten Maustaste, um einen Textausschnitt zu erstellen.

Ziehen Sie das neu erstellte Element an die gewünschte Position im Baum und geben Sie ihm einen aussagekräftigen Namen.

Zusätzlich zur Möglichkeit, Datenextraktionsregeln manuell zu definieren, enthält der MapForce PDF Extractor eine leistungsstarke Vorschlagsfunktion, die automatisch häufig vorkommende Elemente in Dokumenten erkennt und versucht, deren Struktur zu bestimmen. Beispielsweise erkennt die Vorschlagsfunktion Tabellen, die im Dokument vorhanden sind, und bietet die Möglichkeit, diese automatisch zu extrahieren und anschließend bei Bedarf anzupassen. Der "Split"-Operator im Schema-Bereich hilft Ihnen dabei, zu definieren, wie die Tabelle korrekt in separate Zeilen aufgeteilt werden soll. Die Vorschlagsfunktion kann nach Rändern oder Linien suchen, um die Aufteilung zu erstellen, eine Aufteilung basierend auf einem festen Abstand vornehmen oder Änderungen in der Hintergrundfarbe erkennen. Dies können Sie im PDF-Anzeige-Bereich vorab einsehen. Gleichzeitig erfasst die Vorschlagsfunktion Spalten und Überschriften, die Sie bei Bedarf anpassen können, wie im obigen Video gezeigt.
Durch Klicken auf ein beliebiges Objekt im Schemabereich wird die entsprechende Struktur und die zugehörigen Datenextraktionsregeln hervorgehoben, wie sie in der PDF-Dokumentansicht angewendet werden.

Konvertieren Sie Karten-PDFs in andere Formate
Sobald Ihre Vorlage im MapForce PDF Extractor fertiggestellt ist, können Sie sie einem MapForce-Datenmapping-Projekt hinzufügen, um die PDF-Daten effizient in andere unterstützte Formate zu konvertieren. Ziehen Sie einfach die gewünschten Elemente per Drag & Drop, um Quell- und Zielknoten zu verknüpfen, und nutzen Sie die integrierte Bibliothek von Datenverarbeitungsfunktionen, um die PDF-Daten zu transformieren. Typische Anwendungen umfassen:
PDF in Excel
PDF in XML
PDF in JSON
Konvertierung von PDF-Dateien in SQL- oder NoSQL-Datenbanksysteme
PDF in EDI-Nachrichten
PDF in CSV oder Text umwandeln
Zusätzlich zu diesen Szenarien unterstützt MapForce verkettete Datenmapping-Prozesse sowie mehrere Quell- und Ziel-Datenstrukturen.

Basierend auf Ihrer Datenzuordnungsdefinition transformiert MapForce die Daten sofort. Alternativ können Sie die erweiterte Version von MapForce Server nutzen, um wiederkehrende PDF-Transformationen und ETL-Prozesse durchzuführen. Dies ermöglicht es Unternehmen, die Datenintegration zu automatisieren und Prozesse zu optimieren, indem sie PDF-Daten nahtlos in ihre bestehenden Systeme, Datenbanken und Arbeitsabläufe integrieren.
Beginnen Sie mit dem MapForce PDF-Extraktor, indem Sie.. das Herunterladen einer kostenlosen Testversion von der Altova-Webseite.