Estrarre i dati per la creazione di mappe PDF

MapForce, lo strumento di mappatura dati pluripremiato di Altova, include il supporto per l'input PDF nei flussi di lavoro di integrazione dati e ETL. Il componente MapForce PDF Extractor semplifica la definizione di regole per estrarre i dati dai file PDF in un formato strutturato, rendendoli disponibili per la conversione in altri formati popolari come Excel, XML, JSON, database e altro ancora.

Vediamo come funziona.

Come estrarre dati da un file PDF

Il formato dei file PDF è oggi ampiamente utilizzato in diversi settori grazie alla sua capacità di garantire una visualizzazione uniforme su qualsiasi piattaforma o dispositivo. I file PDF combinano tipicamente diversi modi di presentare i dati in elementi che si adattano bene ai lettori umani, includendo testo, immagini, grafici e tabelle, il tutto con una vasta gamma di opzioni di formattazione.

Tuttavia, sebbene i PDF siano ottimi per presentare i dati in modo intuitivo, essi non offrono alcuna struttura integrata necessaria per estrarre efficacemente tali dati e integrarli con altri sistemi aziendali, il che, ovviamente, è un requisito comune. Gli strumenti tradizionali di estrazione dati spesso non riescono a catturare accuratamente le informazioni dai PDF, soprattutto quando si tratta di layout complessi e stili di formattazione diversi. Questo può causare errori, inefficienze e la necessità di interventi manuali per correggere i dati estratti.

Per affrontare queste difficoltà nell'integrazione dei dati PDF, Altova ha creato MapForce PDF Extractor, uno strumento visivo che semplifica la definizione di regole per estrarre dati strutturati dai file PDF.

Scoprite come funziona MapForce PDF Extractor guardando questo video tutorial:

Il modo migliore per iniziare a utilizzare MapForce PDF Extractor è caricare un documento di esempio che abbia il formato dei dati che si desidera estrarre. Questo potrebbe essere una fattura, un modulo di inserimento dati, un rapporto, un registro cliente, ecc. Se il PDF è una copia scansionata di un altro documento, è possibile iniziare con la tecnologia OCR per sbloccare i dati contenuti e renderli disponibili per l'estrazione.

Il programma PDF Extractor visualizza il documento di esempio, consentendovi di iniziare a definire un modello e delle regole per estrarre i dati in modo strutturato. Il design intuitivo di MapForce PDF Extractor rende semplice specificare la struttura del documento PDF in modo visivo, utilizzando funzionalità di selezione con il mouse e di trascinamento.

Accanto alla finestra di visualizzazione del PDF, una finestra di schemi mostra una struttura ad albero che rappresenta il modo in cui il PDF verrà analizzato e i dati verranno estratti.

Il pannello delle proprietà consente di definire le proprietà e calcolare espressioni, secondo le necessità. Nella parte inferiore della visualizzazione del documento PDF si trova il pannello dei risultati (mostrato sopra), che permette di visualizzare un'anteprima del risultato Estrazione dati da file PDF basato sulle proprietà e le regole di estrazione che si definiscono. L'output è rappresentato da un documento XML che mostra i tag XML relativi alla struttura, nonché il contenuto effettivo del file di esempio che viene estratto.

Per selezionare delle porzioni del documento da aggiungere all'albero degli schemi, è sufficiente evidenziare l'area desiderata e fare clic con il tasto destro per creare una selezione di testo.

Trascina l'elemento appena creato nella posizione desiderata all'interno della struttura ad albero e assegnagli un nome descrittivo.

Oltre al supporto per la definizione manuale delle regole di estrazione dei dati, il componente MapForce PDF Extractor include un potente motore di suggerimenti che identifica automaticamente gli elementi comuni dei documenti e cerca di rilevarne la struttura. Ad esempio, il motore di suggerimenti individuerà le tabelle presenti nel documento, che è possibile estrarre automaticamente e quindi perfezionare, se necessario. L'operatore di divisione nella finestra dello schema aiuta a definire come suddividere correttamente la tabella in righe separate. Il motore di suggerimenti può cercare bordi o linee per creare la divisione, suddividere in base a una distanza fissa, oppure rilevare variazioni nel colore di sfondo, il tutto visualizzabile nell'anteprima del PDF. Allo stesso tempo, il motore di suggerimenti identifica le colonne e il testo delle intestazioni, che è possibile perfezionare, come si può vedere nel video qui sopra.

Cliccando su qualsiasi elemento nell'albero dello schema, viene evidenziata la struttura corrispondente e le regole di acquisizione dei dati, così come si applicano nella visualizzazione del documento PDF.

Convertire file PDF di mappe in altri formati

Una volta completato il modello nell'estratto PDF di MapForce, è possibile aggiungerlo a un progetto di mappatura dati di MapForce per mappare in modo efficiente i dati PDF ad altri formati supportati. Basta trascinare e rilasciare per associare i nodi di origine e destinazione e utilizzare la libreria integrata di funzioni di elaborazione dati per trasformare i dati PDF. Le applicazioni comuni includono:

  • Conversione da PDF a Excel

  • Conversione da PDF a XML

  • Conversione da PDF a JSON

  • Conversione di file PDF in sistemi di database SQL o NoSQL

  • Conversione di file PDF in messaggi EDI

  • Conversione da PDF a CSV o a testo

Oltre a questi scenari, MapForce supporta processi di mappatura dei dati a catena, nonché strutture dati di origine e destinazione multiple.

In base alla definizione della mappatura dei dati, MapForce trasforma i dati istantaneamente. In alternativa, è possibile utilizzare MapForce Server Advanced Edition per trasformazioni PDF ricorrenti e pipeline ETL. Questo consente alle aziende di automatizzare l'integrazione dei dati e semplificare i processi, integrando senza problemi i dati PDF nei loro sistemi, database e flussi di lavoro esistenti.

Iniziate a utilizzare il componente MapForce PDF Extractor seguendo questi passaggi: scaricare una versione di prova gratuita dal sito web di Altova.