Sebbene il formato PDF sia oggi ampiamente utilizzato in ambito aziendale, i dati contenuti nei PDF non sono facilmente accessibili per essere integrati in altri sistemi. I PDF sono generalmente progettati per contenuti leggibili dagli esseri umani, con formattazioni e layout variabili, il che rende l'estrazione di dati strutturati estremamente complessa. Possono contenere testo, immagini, tabelle e altri elementi, e i dati non sono organizzati in un formato leggibile dalle macchine. Gli strumenti tipici di estrazione dati da PDF potrebbero non fornire risultati accurati, soprattutto per i PDF con layout complessi. Ed è qui che entra in gioco il MapForce PDF Extractor.
Il MapForce PDF Extractor è un'applicazione semplice da usare che consente di definire rapidamente la struttura di un documento PDF ed estrarne i dati. Successivamente, questi dati PDF possono essere utilizzati in MapForce per ulteriori trasformazioni e conversioni in altri formati, come XML, JSON, database, Excel, e così via. È lo strumento ideale per facilitare l'integrazione dei dati PDF e i progetti ETL.
Utilizzando gli strumenti visivi integrati in MapForce PDF Extractor, è possibile definire la struttura di un documento PDF ed estrarne i dati in modo efficiente. PDF Extractor è uno strumento estremamente flessibile che consente di estrarre solo porzioni di testo, invece dell'intero documento, di combinare informazioni provenienti da diverse pagine dello stesso file PDF, di suddividere le tabelle in righe e di organizzare i dati in gruppi.
Il design intuitivo e semplice del MapForce PDF Extractor rende facile definire la struttura dei documenti PDF in modo visivo, utilizzando funzionalità di selezione con il mouse e di trascinamento. Finalmente, l'enorme quantità di dati precedentemente bloccati all'interno dei file PDF è disponibile per essere convertita in altri formati.
È facile iniziare subito a lavorare con i file PDF basati su testo nell'estratto PDF. Tuttavia, molti file PDF sono in realtà documenti scansionati, ovvero semplici immagini. La funzionalità di riconoscimento ottico dei caratteri (OCR) consente a MapForce di trasformare queste immagini in testo selezionabile e ricercabile, rendendolo disponibile per l'estrazione. Questo permette all'estratto PDF di MapForce di elaborare una vasta gamma di formati, inclusi documenti più datati, archivi cartacei digitalizzati e moduli scansionati o scritti a mano.
Quando si esegue l'OCR su un file PDF scansionato in MapForce, il processore visualizza il contenuto rilevato in una struttura ad albero. Una sovrapposizione del documento stesso mostra come il processore OCR ha identificato le parole nell'area di scansione, evidenziando le parole riconosciute in verde. Le parole evidenziate in rosso non sono state aggiunte all'albero, poiché il loro livello di affidabilità non ha raggiunto la soglia stabilita dal processore. È possibile modificare l'albero, nonché le parole evidenziate in verde e in rosso, manualmente, a seconda delle necessità.
Quando è necessario analizzare solo una parte dei dati, oppure quando si lavora con documenti di grandi dimensioni, è possibile definire un'area di scansione con il mouse per eseguire l'OCR su una specifica regione del documento alla volta.
Una volta completate le operazioni di riconoscimento ottico dei caratteri (OCR) e di editing, è possibile salvare i risultati e continuare a creare le regole di estrazione dei dati PDF all'interno del programma PDF Extractor.
Quando si carica un file PDF di esempio per creare un modello e definire le regole di estrazione dei dati, il PDF viene visualizzato accanto a un pannello di schemi. Il pannello di schemi mostra una struttura ad albero che rappresenta il modo in cui i dati verranno estratti. Il componente MapForce PDF Extractor include un potente motore di suggerimenti che identifica automaticamente gli elementi comuni dei documenti e cerca di rilevare la loro struttura.
Ad esempio, il motore di suggerimenti identificherà le tabelle presenti nel documento, che potrete quindi scegliere di estrarre automaticamente. Un operatore di divisione nella finestra dello schema vi aiuta a definire come suddividere correttamente la tabella in righe separate. Il motore di suggerimenti può cercare bordi o linee per creare la divisione, oppure può suddividere in base a una distanza fissa, ad esempio, e potrete visualizzare l'anteprima nel pannello di visualizzazione PDF. Allo stesso tempo, il motore di suggerimenti identifica le colonne e il testo delle intestazioni. Cliccando su qualsiasi elemento nell'albero dello schema, verrà evidenziata la struttura corrispondente e le regole di acquisizione dei dati applicate nel documento PDF.
In documenti PDF di grandi dimensioni, contenenti numerose tabelle, può essere utile cercare un testo specifico (come un'intestazione) all'interno del documento e definire regole per l'elaborazione dei dati relativi a quel testo. Ad esempio, quando si crea un modello per estrarre dati da report finanziari annuali, si potrebbe cercare la parola "Spese" e, di conseguenza, elaborare la tabella dei dati che segue quel testo. Le opzioni di ricerca avanzate, come la distinzione tra maiuscole e minuscole, il filtraggio per formato (tipo di carattere, peso del carattere, ecc.) e la ricerca di parole intere o parziali, consentono di individuare con precisione le informazioni desiderate.
Dopo aver estratto i dati tabellari, è possibile modificare le regole di estrazione, se necessario, per escludere alcuni elementi, regolare le impostazioni di ancoraggio, definire i confini delle tabelle, e così via. Questo può essere fatto utilizzando strumenti visivi e menu a tendina intuitivi. È possibile visualizzare in anteprima i risultati dell'estrazione dei dati nell'albero dei risultati per verificarne l'accuratezza.
Altri elementi del documento possono essere acquisiti e aggiunti manualmente al modello. Per definire regole per l'estrazione manuale dei dati, è sufficiente selezionare un'area nel file PDF che si desidera estrarre, racchiudendola in un rettangolo. Quindi, selezionare l'opzione "Acquisizione testo" dal menu contestuale che si apre con il tasto destro del mouse. Il programma PDF Extractor aggiunge l'elemento acquisito all'albero del documento, e potrete trascinarlo e rilasciarlo nella posizione desiderata all'interno dell'albero.
Durante il processo, il componente MapForce PDF Extractor crea un documento XML che rappresenta la struttura del modello PDF, utilizzando dati di esempio tratti dal documento PDF di input, visualizzati nella finestra di output. Questo vi aiuta a comprendere e perfezionare i risultati dell'estrazione, che diventeranno un modello da utilizzare in MapForce.
Una volta salvato il modello nel componente MapForce PDF Extractor, è possibile utilizzarlo come componente di dati di origine in un progetto di mappatura dati MapForce. Tra i requisiti comuni per la conversione di file PDF, si annoverano:
Naturalmente, MapForce può essere utilizzato anche per combinare diversi formati di dati di origine e destinazione, per gestire progetti di mappatura dei dati concatenati e molto altro. Una vasta libreria di funzioni di elaborazione dei dati e un costruttore di funzioni visuale semplificano la possibilità di filtrare ed elaborare i dati prima di scriverli nella(e) destinazione(i).
Con il componente PDF Extractor, MapForce rende finalmente disponibili per la mappatura dei dati, l'integrazione dei dati e i processi ETL, dati aziendali fondamentali che in precedenza erano contenuti in file PDF.
“Altova MapForce offre eccellenti funzionalità di mappatura che possiamo integrare perfettamente nei nostri prodotti principali. La sua natura estendibile significa che soddisfa tutte le nostre esigenze di soluzione.”





