Estrarre i dati dai file PDF per la mappatura dei dati

Estrattore PDF di MapForce

  • Definisci facilmente regole per estrarre dati dai file PDF
  • Crea modelli per convertire i file PDF in altri formati
  • Interfaccia grafica intuitiva, basata su icone e clic
  • Potente motore di suggerimenti per l'estrazione automatica
  • Estrarre frammenti, combinare e accostare informazioni
  • Riconoscimento ottico dei caratteri per file PDF scansionati
  • Strumenti avanzati per l'estrazione di dati da tabelle
  • Organizzare facilmente i dati in gruppi
  • Albero di schemi per l'anteprima dei risultati del modello
  • Converti file PDF in formati Excel, database, JSON, CSV e altri
  • Automatizzate la mappatura dei file PDF con MapForce Server

Estrazione dati da file PDF

Sebbene il formato PDF sia oggi ampiamente utilizzato in ambito aziendale, i dati contenuti nei PDF non sono facilmente accessibili per essere integrati in altri sistemi. I PDF sono generalmente progettati per contenuti leggibili dagli esseri umani, con formattazioni e layout variabili, il che rende l'estrazione di dati strutturati estremamente complessa. Possono contenere testo, immagini, tabelle e altri elementi, e i dati non sono organizzati in un formato leggibile dalle macchine. Gli strumenti tipici di estrazione dati da PDF potrebbero non fornire risultati accurati, soprattutto per i PDF con layout complessi. Ed è qui che entra in gioco il MapForce PDF Extractor.

Il MapForce PDF Extractor è un'applicazione semplice da usare che consente di definire rapidamente la struttura di un documento PDF ed estrarne i dati. Successivamente, questi dati PDF possono essere utilizzati in MapForce per ulteriori trasformazioni e conversioni in altri formati, come XML, JSON, database, Excel, e così via. È lo strumento ideale per facilitare l'integrazione dei dati PDF e i progetti ETL.

Utilizzando gli strumenti visivi integrati in MapForce PDF Extractor, è possibile definire la struttura di un documento PDF ed estrarne i dati in modo efficiente. PDF Extractor è uno strumento estremamente flessibile che consente di estrarre solo porzioni di testo, invece dell'intero documento, di combinare informazioni provenienti da diverse pagine dello stesso file PDF, di suddividere le tabelle in righe e di organizzare i dati in gruppi.

Accedere ai dati in formato PDF per la conversione utilizzando MapForce PDF Extractor

Il design intuitivo e semplice del MapForce PDF Extractor rende facile definire la struttura dei documenti PDF in modo visivo, utilizzando funzionalità di selezione con il mouse e di trascinamento. Finalmente, l'enorme quantità di dati precedentemente bloccati all'interno dei file PDF è disponibile per essere convertita in altri formati.

Imparate come utilizzare l'estratto PDF di MapForce

Iniziamo con l'OCR

È facile iniziare subito a lavorare con i file PDF basati su testo nell'estratto PDF. Tuttavia, molti file PDF sono in realtà documenti scansionati, ovvero semplici immagini. La funzionalità di riconoscimento ottico dei caratteri (OCR) consente a MapForce di trasformare queste immagini in testo selezionabile e ricercabile, rendendolo disponibile per l'estrazione. Questo permette all'estratto PDF di MapForce di elaborare una vasta gamma di formati, inclusi documenti più datati, archivi cartacei digitalizzati e moduli scansionati o scritti a mano.

Quando si esegue l'OCR su un file PDF scansionato in MapForce, il processore visualizza il contenuto rilevato in una struttura ad albero. Una sovrapposizione del documento stesso mostra come il processore OCR ha identificato le parole nell'area di scansione, evidenziando le parole riconosciute in verde. Le parole evidenziate in rosso non sono state aggiunte all'albero, poiché il loro livello di affidabilità non ha raggiunto la soglia stabilita dal processore. È possibile modificare l'albero, nonché le parole evidenziate in verde e in rosso, manualmente, a seconda delle necessità.

Quando è necessario analizzare solo una parte dei dati, oppure quando si lavora con documenti di grandi dimensioni, è possibile definire un'area di scansione con il mouse per eseguire l'OCR su una specifica regione del documento alla volta.

Riconoscimento ottico dei caratteri (OCR) per l'estrazione di dati da file PDF

Una volta completate le operazioni di riconoscimento ottico dei caratteri (OCR) e di editing, è possibile salvare i risultati e continuare a creare le regole di estrazione dei dati PDF all'interno del programma PDF Extractor.

Come estrarre dati da un file PDF

Quando si carica un file PDF di esempio per creare un modello e definire le regole di estrazione dei dati, il PDF viene visualizzato accanto a un pannello di schemi. Il pannello di schemi mostra una struttura ad albero che rappresenta il modo in cui i dati verranno estratti. Il componente MapForce PDF Extractor include un potente motore di suggerimenti che identifica automaticamente gli elementi comuni dei documenti e cerca di rilevare la loro struttura.

Ad esempio, il motore di suggerimenti identificherà le tabelle presenti nel documento, che potrete quindi scegliere di estrarre automaticamente. Un operatore di divisione nella finestra dello schema vi aiuta a definire come suddividere correttamente la tabella in righe separate. Il motore di suggerimenti può cercare bordi o linee per creare la divisione, oppure può suddividere in base a una distanza fissa, ad esempio, e potrete visualizzare l'anteprima nel pannello di visualizzazione PDF. Allo stesso tempo, il motore di suggerimenti identifica le colonne e il testo delle intestazioni. Cliccando su qualsiasi elemento nell'albero dello schema, verrà evidenziata la struttura corrispondente e le regole di acquisizione dei dati applicate nel documento PDF.

Come estrarre dati da file PDF con MapForce

In documenti PDF di grandi dimensioni, contenenti numerose tabelle, può essere utile cercare un testo specifico (come un'intestazione) all'interno del documento e definire regole per l'elaborazione dei dati relativi a quel testo. Ad esempio, quando si crea un modello per estrarre dati da report finanziari annuali, si potrebbe cercare la parola "Spese" e, di conseguenza, elaborare la tabella dei dati che segue quel testo. Le opzioni di ricerca avanzate, come la distinzione tra maiuscole e minuscole, il filtraggio per formato (tipo di carattere, peso del carattere, ecc.) e la ricerca di parole intere o parziali, consentono di individuare con precisione le informazioni desiderate.

Ricerca testuale in MapForce PDF Extractor

Dopo aver estratto i dati tabellari, è possibile modificare le regole di estrazione, se necessario, per escludere alcuni elementi, regolare le impostazioni di ancoraggio, definire i confini delle tabelle, e così via. Questo può essere fatto utilizzando strumenti visivi e menu a tendina intuitivi. È possibile visualizzare in anteprima i risultati dell'estrazione dei dati nell'albero dei risultati per verificarne l'accuratezza.

Altri elementi del documento possono essere acquisiti e aggiunti manualmente al modello. Per definire regole per l'estrazione manuale dei dati, è sufficiente selezionare un'area nel file PDF che si desidera estrarre, racchiudendola in un rettangolo. Quindi, selezionare l'opzione "Acquisizione testo" dal menu contestuale che si apre con il tasto destro del mouse. Il programma PDF Extractor aggiunge l'elemento acquisito all'albero del documento, e potrete trascinarlo e rilasciarlo nella posizione desiderata all'interno dell'albero.

Estrarre il file PDF per la mappatura dei dati

Durante il processo, il componente MapForce PDF Extractor crea un documento XML che rappresenta la struttura del modello PDF, utilizzando dati di esempio tratti dal documento PDF di input, visualizzati nella finestra di output. Questo vi aiuta a comprendere e perfezionare i risultati dell'estrazione, che diventeranno un modello da utilizzare in MapForce.

Visualizzare l'anteprima dei dati estratti

Convertire i dati in formato PDF

Una volta salvato il modello nel componente MapForce PDF Extractor, è possibile utilizzarlo come componente di dati di origine in un progetto di mappatura dati MapForce. Tra i requisiti comuni per la conversione di file PDF, si annoverano:

  • Conversione da PDF a Excel
  • Conversione di file PDF in database (SQL o NoSQL)
  • Conversione da PDF a JSON
  • Conversione da PDF a CSV
  • Conversione da PDF a XML
  • Conversione da PDF a Shopify/GraphQL

Naturalmente, MapForce può essere utilizzato anche per combinare diversi formati di dati di origine e destinazione, per gestire progetti di mappatura dei dati concatenati e molto altro. Una vasta libreria di funzioni di elaborazione dei dati e un costruttore di funzioni visuale semplificano la possibilità di filtrare ed elaborare i dati prima di scriverli nella(e) destinazione(i).

Convertire file PDF in formato JSON con MapForce

Con il componente PDF Extractor, MapForce rende finalmente disponibili per la mappatura dei dati, l'integrazione dei dati e i processi ETL, dati aziendali fondamentali che in precedenza erano contenuti in file PDF.

“Altova MapForce offre eccellenti funzionalità di mappatura che possiamo integrare perfettamente nei nostri prodotti principali. La sua natura estendibile significa che soddisfa tutte le nostre esigenze di soluzione.”

Scott Redford Visionware