Extraheer PDF-gegevens voor data-mapping

MapForce PDF-extractor

  • Definieer eenvoudig regels om gegevens uit PDF-bestanden te extraheren
  • Maak sjablonen om PDF-bestanden om te zetten naar andere formaten
  • Visuele interface met punt-en-klikbediening
  • Krachtige suggestie-engine voor automatische extractie
  • Selecteer fragmenten, combineer en meng informatie
  • OCR voor gescande PDF-bestanden
  • Geavanceerde tools voor het extraheren van gegevens uit tabellen
  • Organiseer gegevens eenvoudig in groepen
  • Schema-boom voor het vooruitblikken van sjabloonresultaten
  • Converteer PDF-bestanden naar Excel, databases, JSON, CSV en meer
  • Automatiseer het koppelen van PDF-bestanden met MapForce Server

Gegevensuitwinning uit PDF-bestanden

Hoewel PDF een alomtegenwoordige dataformat is in het bedrijfsleven, is de data die in PDF-bestanden staat niet gemakkelijk toegankelijk voor integratie met andere systemen. PDF-bestanden zijn doorgaans ontworpen voor leesbare content met variabele opmaak en lay-outs, waardoor het extraheren van gestructureerde data een enorme uitdaging is. Ze kunnen tekst, afbeeldingen, tabellen en andere elementen bevatten, en de data is niet georganiseerd in een machineleesbaar formaat. Standaard tools voor het extraheren van data uit PDF-bestanden leveren mogelijk niet altijd accurate resultaten, vooral bij PDF-bestanden met complexe lay-outs. Daar komt de MapForce PDF Extractor om de hoek kijken.

De MapForce PDF Extractor is een gebruiksvriendelijk hulpmiddel waarmee u snel de structuur van een PDF-document kunt definiëren en gegevens eruit kunt halen. Vervolgens kunnen deze PDF-gegevens in MapForce worden gebruikt voor verdere transformatie en conversie naar andere formaten, zoals XML, JSON, databases, Excel, enzovoort. Het is het ideale hulpmiddel voor het integreren van PDF-gegevens en voor ETL-projecten (Extract, Transform, Load).

Met behulp van visuele hulpmiddelen in de MapForce PDF Extractor kunt u de structuur van een PDF-document definiëren en de gegevens ervan efficiënt extraheren. PDF Extractor is een zeer flexibel hulpmiddel waarmee u niet alleen delen van de tekst kunt extraheren in plaats van het hele document, maar ook informatie uit verschillende pagina's van hetzelfde PDF-bestand kunt combineren, tabellen in rijen kunt opsplitsen en gegevens in groepen kunt ordenen.

Toegang tot PDF-gegevens voor conversie met behulp van de MapForce PDF Extractor

Het intuïtieve en overzichtelijke ontwerp van de MapForce PDF Extractor maakt het eenvoudig om de structuur van PDF-documenten op een visuele manier te definiëren, met behulp van functies waarmee u kunt klikken en slepen. Eindelijk kunnen de enorme hoeveelheden data die voorheen in PDF-bestanden waren opgesloten, worden omgezet naar andere formaten.

Leer hoe u de MapForce PDF-extractor kunt gebruiken

Beginnen met OCR

Het is eenvoudig om direct aan de slag te gaan met tekstgebaseerde PDF-bestanden in de PDF Extractor. Veel PDF-bestanden zijn echter in werkelijkheid gescande documenten, dat wil zeggen, enkel afbeeldingen. Dankzij de ondersteuning voor OCR (optische tekenherkenning) kan MapForce deze afbeeldingen omzetten in selecteerbare en doorzoekbare tekst, die vervolgens kan worden geëxtraheerd. Hierdoor kan de MapForce PDF Extractor elk type invoer verwerken, waaronder oudere documenten, gedigitaliseerde papierenarchieven en gescande of handgeschreven formulieren.

Wanneer u OCR uitvoert op een gescande PDF in MapForce, toont de processor de gedetecteerde inhoud in een boomstructuur van objecten. Een overlay van het document zelf laat zien hoe de OCR-processor woorden in het gescande gebied heeft gedetecteerd, waarbij herkende woorden in het groen worden weergegeven. Woorden die in het rood zijn gemarkeerd, zijn niet aan de boomstructuur toegevoegd, omdat hun betrouwbaarheidsscore niet aan de vereiste drempelwaarde van de processor voldeed. U kunt de boomstructuur, evenals de groene en rode woorden, indien nodig handmatig bewerken.

Wanneer slechts een deel van de gegevens nodig is, of wanneer u met grote documenten werkt, kunt u met uw muis een scangebied definiëren om OCR (optische tekenherkenning) toe te passen op één specifiek gebied van het document tegelijk.

OCR voor het extraheren van gegevens uit PDF-bestanden

Zodra de optische tekenherkenning (OCR) en de bewerking voltooid zijn, kunt u de resultaten opslaan en verdergaan met het maken van uw regels voor het extraheren van gegevens in de PDF-extractor.

Hoe gegevens uit PDF-bestanden extraheren

Wanneer u een voorbeeld-PDF bestand laadt om een sjabloon te maken en regels voor het extraheren van gegevens te definiëren, wordt de PDF weergegeven naast een schema-paneel. Het schema-paneel toont een boomstructuur die weergeeft hoe de gegevens worden geëxtraheerd. De MapForce PDF Extractor bevat een krachtige suggestie-engine die automatisch veelvoorkomende elementen in documenten herkent en probeert hun structuur te detecteren.

Bijvoorbeeld, de suggestie-engine identificeert tabellen die in het document voorkomen, die u vervolgens automatisch kunt extraheren. Een "split"-operator in het schema-paneel helpt u om te definiëren hoe de tabel correct in afzonderlijke rijen moet worden verdeeld. De suggestie-engine kan zoeken naar randen of lijnen om de tabel te splitsen, of de tabel kan worden gesplitst op basis van een vaste afstand, bijvoorbeeld. U kunt dit voorproeven in het PDF-weergavepaneel. Tegelijkertijd detecteert de suggestie-engine kolommen en koptekst. Door op een object in de schema-boom te klikken, worden de bijbehorende structuren en de regels voor het extraheren van gegevens, zoals die van toepassing zijn in de PDF-weergave, gemarkeerd.

Hoe extraheert u PDF-gegevens met MapForce

In grote PDF-documenten met veel tabellen kan het nuttig zijn om naar tekst (zoals een koptekst) in het document te zoeken en regels te definiëren voor het verwerken van gegevens die betrekking hebben op die tekst. Bijvoorbeeld, bij het maken van een sjabloon om gegevens uit jaarlijkse financiële rapporten te extraheren, kunt u zoeken naar "Uitgaven" en de tabel met cijfers die daarop volgt dienovereenkomstig verwerken. Gedetailleerde zoekopties, zoals hoofdlettergevoeligheid, formattering (lettertype, vetgedrukt, etc.) en het zoeken naar hele of gedeeltelijke woorden, maken een precieze selectie mogelijk.

Tekst zoeken in de MapForce PDF-extractor

Nadat de tabulaire gegevens zijn geëxtraheerd, kunt u indien nodig de extractieregels aanpassen om bepaalde fragmenten uit te sluiten, ankerpunten te wijzigen, tabelgrenzen te definiëren, enzovoort. Dit kan worden gedaan met behulp van visuele hulpmiddelen en handige dropdownmenu's. U kunt de resultaten van de data-extractie in de resultaatboom bekijken om de nauwkeurigheid te controleren.

Andere elementen in het document kunnen handmatig worden geselecteerd en aan uw sjabloon worden toegevoegd. Om regels te definiëren voor het handmatig extraheren van gegevens, selecteert u eenvoudig een gebied in de PDF-bestand dat u wilt extraheren, door dit in een rechthoek te omcirkelen. Selecteer vervolgens "Tekst vastleggen" in het contextmenu dat verschijnt wanneer u met de rechtermuisknop klikt. De PDF-extractor voegt de vastgelegde tekst toe als een element in de documentstructuur, en u kunt deze vervolgens naar de gewenste positie in de structuur slepen en neerzetten.

Extraheer de PDF-bestanden voor het koppelen van gegevens

Tijdens het werken bouwt de MapForce PDF Extractor een XML-document op dat de structuur van uw PDF-sjabloon weergeeft, met voorbeeldgegevens uit het actieve PDF-document. Dit helpt u de resultaten van de extractie te begrijpen en te optimaliseren, zodat u een sjabloon krijgt die u in MapForce kunt gebruiken.

Bekijk een voorproef van de geëxtraheerde gegevens

Converteer PDF-gegevens

Zodra u uw sjabloon heeft opgeslagen in de MapForce PDF Extractor, kunt u deze gebruiken als een brongegevenscomponent in een MapForce-datamappingsproject. Veelvoorkomende eisen voor PDF-conversie omvatten:

  • PDF naar Excel
  • PDF-bestanden omzetten naar databases (SQL of NoSQL)
  • PDF naar JSON
  • PDF naar CSV
  • PDF naar XML
  • PDF naar Shopify/GraphQL

Natuurlijk kan MapForce ook verschillende bron- en doelgegevensformaten combineren, en kan het worden gebruikt met gekoppelde datamappingsprojecten en meer. Een uitgebreide bibliotheek met databewerkingsfuncties en een visuele functiebouwer maken het eenvoudig om gegevens te filteren en te verwerken voordat ze naar de bestemming(en) worden geschreven.

Converteer PDF-bestanden naar JSON-formaat in MapForce

Met de PDF Extractor maakt MapForce nu essentiële bedrijfsgegevens, die voorheen vastzaten in PDF-bestanden, toegankelijk voor datamapping, data-integratie en ETL-processen.

“Altova MapForce biedt uitstekende mogelijkheden voor data-omzetting, die we naadloos kunnen integreren in onze kernproducten. De flexibele aard van dit product betekent dat het aan al onze eisen voor oplossingen voldoet.”

Scott Redford Visionware