Extrahujte údaje z PDF súborov na účely mapovania dát

MapForce za izvlačenje podataka iz PDF dokumentov

  • Jednoducho definujte pravidlá na extrahovanie dát z formátu PDF
  • Vytvorte šablóny na preklad formátu PDF do iných formátov
  • Vizualno vmesnik, ki omogoča interakcijo s klikanjem
  • Močnejši mehanizem za predlaganje, ki samodejno izvleče podatke
  • Izberite dele, združite in primerjajte informacije
  • OCR za skenirane PDF dokumente
  • Napredne alatke za izvažanje podataka iz tablic
  • Ľahko usporiadajte dáta do skupín
  • Struktura drevesa za predogled rezultatov predloge
  • Prevedenie dát z formátu PDF do formátov Excel, databáz, JSON, CSV a ďalších
  • Automatizujte mapovanie PDF súborov pomocou MapForce Server

Izvlačanje podataka iz PDF formata

Hoci formát PDF je dnes bežný v podnikaní, údaje obsiahnuté v PDF sú často ťažko dostupné na prenos do iných systémov. PDF sú zvyčajne navrhnuté pre obsah, ktorý je ľahko čitateľný pre ľudí, s variabilným formátovaním a rozvrhnutím, čo robí extrakciu štruktúrovaných údajov veľmi náročnou. Môžu obsahovať text, obrázky, tabuľky a ďalšie prvky, pričom údaje nie sú usporiadané v formáte, ktorý by bol ľahko čitateľný pre počítače. Bežné nástroje na extrakciu údajov z PDF nemusia poskytovať presné výsledky, najmä v prípade PDF s komplexným rozvrhnutím. Práve tu prichádza na rad nástroj MapForce PDF Extractor.

MapForce PDF Extractor je jednoduchý nástroj, ktorý umožňuje rýchlo definovať štruktúru dokumentu PDF a extrahovať z neho dáta. Tieto dáta z PDF potom môžete v programe MapForce použiť na ďalšiu transformáciu a konverziu do iných formátov, ako sú XML, JSON, databázy, Excel a pod. Je to ideálny nástroj na integráciu dát z PDF a na ETL projekty.

S pomočjo vizualnih orodij v programu MapForce PDF Extractor lahko definirate strukturo dokumenta PDF in učinkovito izvlečete njegove podatke. Program PDF Extractor je zelo prilagodljivo orodje, ki vam omogoča, da izvlečete samo dele besedila, namesto celotnega dokumenta, združite različne informacije iz različnih strani istega PDF datoteke, razdelite tabele na vrstice in uredite podatke v skupine.

Prístup k dátam v formáte PDF na účely konverzie pomocou nástroja MapForce PDF Extractor

Intuitívna a jednoduchá konštrukcia nástroja MapForce PDF Extractor umožňuje vizuálne definovanie štruktúry dokumentov PDF pomocou jednoduchých kliknutí a funkcie presúvania prvkov. Vďaka tomu je obrovské množstvo dát, ktoré boli predtým uložené v PDF formáte, teraz dostupné na prenos do iných formátov.

Naučte sa, ako používať nástroj MapForce PDF Extractor

Začíname s OCR

Je lahko takoj začnete z obdelavo besedilnih PDF-datotek v programu PDF Extractor. Vendar pa so mnoge PDF-datoteke dejansko skenirani dokumenti, tj. le slike. Podpora za OCR (optično prepoznavanje znakov) omogoča programu MapForce, da te slike pretvori v izberljiva in iskalna besedila, ki so na voljo za ekstrakcijo. To omogoča programu MapForce PDF Extractor, da obdeluje različne vrste vhodnih podatkov, vključno s starejšimi dokumenti, digitaliziranimi papirnimi arhivimi ter skeniranimi ali ročno napisanimi obrazci.

Ko používate funkciu OCR na naskenovanom PDF súbore v programe MapForce, procesor zobrazí detekovaný obsah v štruktúre objektov. Prekrytie samotného dokumentu ukazuje, ako procesor OCR detegoval slová v oblasti skenu, pričom rozpoznané slová sú zobrazené zelenou farbou. Slová zvýraznené červenou farbou neboli pridané do štruktúry, pretože ich spoľahlivosť nedosiahla prahovú hodnotu procesora. Štruktúru, ako aj zelené a červené slová, môžete upravovať manuálne, podľa potreby.

Če potrebujete le del podatkov, ali če delate z velikimi dokumenti, lahko s pomočjo miške določite območje za skeniranje (ScanArea) in tako izvajate optično prepoznavo znakov (OCR) na posameznem delu dokumenta.

OCR za izlučevanje podatkov iz PDF dokumentov

Po dokončanju optičnega prepoznavanja znakov (OCR) in urejanja, lahko shranite rezultate in nadaljujete z ustvarjanjem pravil za izvažanje podatkov iz PDF datotek v programu PDF Extractor.

Kako izvući podatke iz PDF datoteke

Ko naložete vzorový PDF súbor na vytvorenie šablóny a definovanie pravidiel extrakcie dát, PDF súbor sa zobrazí vedľa panela schémy. Panel schémy zobrazuje stromovú štruktúru, ktorá reprezentuje spôsob, akým budú dáta extrahované. MapForce PDF Extractor obsahuje výkonný systém návrhov, ktorý automaticky identifikuje bežné prvky dokumentu a pokúša sa detekovať ich štruktúru.

Například, systém návrhových doporučení identifikuje tabulky, které se nacházejí v dokumentu, a vy si můžete zvolit, zda je automaticky extrahovat. Operátor rozdělení v panelu schématu vám pomáhá definovat, jak správně rozdělit tabulku na samostatné řádky. Systém návrhových doporučení může hledat okraje nebo čáry pro vytvoření rozdělení, nebo může rozdělovat na základě pevné vzdálenosti, například, což si můžete prohlédnout v panelu náhledu PDF. Současně systém návrhových doporučení zachycuje sloupce a text záhlaví. Kliknutím na jakýkoli objekt ve stromu schématu se zvýrazní odpovídající struktura a pravidla pro zachycení dat, jak se uplatňují v zobrazení PDF dokumentu.

Kako izvući podatke iz PDF datoteka pomoću MapForce-a

V rozsiahlych PDF dokumentoch s množstvom tabuliek môže byť užitočné vyhľadávať text (napríklad nadpis) v dokumente a definovať pravidlá pre spracovanie údajov v súvislosti s týmto textom. Napríklad, pri vytváraní šablóny na extrahovanie údajov z ročných finančných správ, môžete vyhľadať výraz „Výdavky“ a následne spracovať tabuľku čísel, ktorá nasleduje po tomto texte, podľa potreby. Možnosti detailného vyhľadávania, ako je citlivosť na veľké a malé písmená, filtrovanie formátu (písmo, hrúbka písma, atď.) a vyhľadávanie celých alebo čiastkových slov, umožňujú presné zameranie.

Iskanje besedila v programu MapForce PDF Extractor

Po extrakciji tabličnih podatkov, lahko prilagodite pravila za ekstrakcijo, če je potrebno, da izključite določene dele, prilagodite dodeljevanje sidrišč, definirate meje tabel in tako naprej. To lahko storite z uporabo vizualnih orodij in uporabnih spustnih menijev. Rezultate ekstrakcije podatkov lahko predogledate v izhodnem drevesu, da preverite njihovo natančnost.

Druhé prvky dokumentu je možné manuálne zachytiť a pridať do šablóny. Na definovanie pravidiel pre manuálne extrahovanie dát, jednoducho vyberte oblasť v PDF súbore, ktorú chcete extrahovať, a ohraničte ju obdĺžnikom. Potom, z kontextového menu po kliknutí pravým tlačidlom, vyberte možnosť "Zachytiť text". Nástroj PDF Extractor pridá zachytený text ako prvok do štruktúry dokumentu a môžete ho presúvať do požadovanej pozície v štruktúre pomocou metódy "drag and drop".

Extrahujte PDF súbor pre mapovanie dát

Meden ko delate, MapForce PDF Extractor ustvarja XML dokument, ki predstavlja strukturo vaše PDF predloge, in vključuje vzorčne podatke iz delovnega PDF dokumenta, ki so prikazani v izhodnem oknu. To vam pomaga razumeti in izboljšati rezultate ekstrakcije, ki bodo postali predloga za uporabo v MapForce.

Predogled izbranih podatkov

Prevedite podatke iz PDF formátu

Ko uložite svoju predlošku v programe MapForce PDF Extractor, môžete ju vložiť ako zdroj dát v projekte mapovania dát v programe MapForce. Medzi bežné požiadavky na konverziu PDF patrí:

  • PDF do Excel
  • Prevod PDF dokumentov do databáz (SQL alebo NoSQL)
  • PDF v JSON
  • PDF do CSV
  • PDF v XML
  • PDF na Shopify/GraphQL

Seveda, MapForce lahko tudi kombinira različne formate vhodnih in izhodnih podatkov, omogoča verige projektov za pretvorbo podatkov in še več. Bogata knjižnica funkcij za obdelavo podatkov in vizualni konstruktor funkcij omogočata enostavno filtriranje in obdelavo podatkov, preden se zapisujejo na cilj(e).

Prevedenie formátu PDF do formátu JSON v programe MapForce

S pomočjo orodja PDF Extractor omogoča MapForce, da podatki, ki so bili doslej zaklenjeni v PDF dokumentih, postanejo dostopni za mapiranje podatkov, integracijo podatkov in procese ETL.

“Altova MapForce ponúka vynikajúce možnosti mapovania, ktoré môžeme bezproblémovo integrovať do našich hlavných produktov. Rozšíriteľnosť tohto produktu znamená, že pokrýva všetky naše požiadavky na riešenia.”

Scott Redford Visionware