Extraire les données PDF pour le mappage de données

Extracteur PDF de MapForce

Définir des règles facilement pour extraire des données du PDF
Créer des modèles pour mapper le PDF vers d’autres formats
Interface visuelle, point et clic
Moteur de suggestion puissant pour l’extraction automatique
Extraire des fragments, mélanger et faire correspondre l’information

Reconnaissance optique de caractères pour les fichiers PDF numérisés
Outils sophistiqués pour extraire des données dans les tables
Arranger facilement des données dans des groupes
Arborescence de schéma pour prévisualiser des résultats de modèle
Mapper le PDF vers Excel, les bases de données, JSON, CSV & etc.
Automatisation du mappage PDF avec MapForce Server

Extraction de données PDF

Bien que le PDF soit un format de données omniprésent dans l’environnement professionnel de nos jours, les données contenues dans les PDF ne sont pas disponibles pour les autres systèmes. Les PDF sont généralement conçus pour du contenu lisible pour les hommes avec un formatage et des mises en page variables, rendant l’extraction des données structurée très difficile. Ils peuvent contenir du texte, des images, des tables, et d’autres éléments et les données ne sont pas organisées dans un format lisible aux appareils. Les outils d’extraction de données PDF typiques ne peuvent éventuellement pas fournir de résultats précis, en particulier pour des PDF avec des mises en page complexes. C’est à cet instant que l’Extracteur PDF de MapForce entre en jeu.

MapForce PDF Extractor est un utilitaire convivial qui vous permet de définir rapidement la structure d'un document PDF et d'en extraire les données. Puis, ces données PDF peuvent être accédées pour une transformation et conversion ultérieures vers d’autres formats tels que XML, JSON, bases de données, Excel, etc. dans MapForce. Il s’agit de l’outil ultime qui permet d’activer l’intégration des données PDF et les projets ETL.

En utilisant les outils visuels dans l’Extracteur PDF de MapForce, vous pouvez définir la structure d’un document PDF et extraire ses données de manière efficace. L’Extracteur PDF est un outil hautement flexible qui vous permet d’extraire uniquement des portions de texte à la place du document entier, mélanger et faire correspondre des morceaux d’information depuis différentes pages du même fichier PDF, fractionner des tables en lignes et arranger des données en groupes.

Accédez aux données PDF pour une conversion avec l’Extracteur PDF de MapForce

Son utilisation facile et sa conception claire dans l’Extracteur PDF de MapForce rend le travail visuel de définition de la structure du document PDF facile, en utilisant les fonctions pointer-et-cliquer ainsi que glisser-et-déposer. Les grands volumes de données bloqués dans les PDF sont enfin disponibles pour les mappages vers d’autres formats.

Apprenez à utiliser l’Extracteur PDF de PDF

Commencer avec l'OCR

Il est facile de commencer immédiatement avec des fichiers PDF textuels dans PDF Extractor. Cependant, de nombreux fichiers PDF sont en réalité des documents numérisés, c'est-à-dire de simples images. Grâce à la prise en charge de l'OCR (reconnaissance optique de caractères), MapForce peut transformer ces images en texte sélectionnable et consultable pouvant être extrait. Cela permet à l'extracteur PDF de MapForce de traiter toutes sortes d'entrées, y compris des documents plus anciens, des archives papier numérisées et des formulaires numérisés ou manuscrits.

Lorsque vous exécutez l'OCR sur un PDF numérisé dans MapForce, le processeur affiche le contenu détecté dans une arborescence d'objets. Une superposition du document lui-même montre comment le processeur OCR a détecté les mots dans la zone de numérisation, en affichant les mots reconnus en vert. Les mots surlignés en rouge n'ont pas été ajoutés à l'arborescence, car leur score de confiance n'atteignait pas le seuil du processeur. Vous pouvez modifier l'arborescence ainsi que les mots verts et rouges manuellement, selon vos besoins.

Lorsque seule une partie des données est requise ou lorsque vous travaillez avec des documents volumineux, vous pouvez définir une zone de numérisation à l'aide de votre souris afin d'exécuter l'OCR sur une région du document à la fois.

Une fois l'OCR et l'édition terminés, vous pouvez enregistrer les résultats et continuer à créer vos règles d'extraction de données PDF dans l'Extracteur PDF.

Comment extraire les données PDF

Quand vous chargez un PDF échantillon pour créer un modèle et définir les règles d’extraction de données, le PDF est affiché à côté du volet de schéma. Le volet de schéma affiche une structure d’arborescence qui décrit comment les données seront extraites. L’Extracteur PDF de MapForce inclut un moteur de suggestion puissant qui identifie automatiquement des éléments communs du document et tente de détecter leur structure.

Par exemple, le moteur de suggestion identifiera des tables qui existent dans le document dans lesquelles vous pouvez optez d’extraire des données automatiquement. Un opérateur de fractionnement dans le volet de schéma vous aide à définir comment diviser correctement la table en lignes séparées. Ce moteur de suggestion peut rechercher des bords ou des lignes pour créer le fractionnement, ou fractionner basé sur une distance fixe, par exemple, qui peut être consulté dans le volet de l'Aperçu PDF. En même temps, le moteur de suggestion saisit des colonnes et l’en-tête de texte. Cliquer sur un objet dans l’arborescence de schéma met en lumière la structure correspondante et les règles de capture des données telles qu’elles s’appliquent dans le document PDF.

Comment extraire des données PDF avec MapForce

Dans les documents PDF volumineux avec de nombreuses tables, il pourrait être utile de rechercher du texte (tel qu’une en-tête) dans le document et de définir les règles pour traiter les données relatives à ce texte. Par exemple, lorsque vous créez un modèle pour extraire des données des rapports financiers annuels, vous pourrez rechercher les « Dépenses » et traiter la tableau de chiffres suivant ce texte en conséquence. Les options de recherche granulaire comme la sensibilité à la casse, le filtrage de format (police, font-weight, etc.), et les recherches de mots entiers ou partiels, permettent un ciblage précis.

Recherche de texte dans l’Extracteur MapForce PDF

Une fois que des données tabulaires sont extraites, vous pouvez ajuster les règles d’extraction, le cas échéant, pour exclure des fragments, ajuster des assignations liées à l’ancre, définir des limites de tables, etc. Ceci peut être accompli en utilisant des outils visuels et des menus déroulants utiles. Vous pouvez prévisualiser les résultats d’extraction des données dans l’arborescence de sortie pour vérifier sa précision.

D’autres éléments de document peuvent être capturés et ajoutés à votre modèle manuellement. Pour définir les règles d’extraction de données manuellement, sélectionnez tout simplement une zone dans le PDF à extraire en la capturant dans un rectangle. Ensuite, sélectionnez la Capture de texte depuis le clic droit du menu contextuel. L’Extracteur PDF ajoute la capture comme élément dans l’arborescence du document, et vous pouvez le glisser et déposer dans la position souhaitée dans l’arborescence.

Extraire le PDF pour un mappage de données

Lorsque vous travaillez, l’Extracteur PDF de MapForce crée un document XML représentant la structure de votre modèle PDF avec des données échantillon depuis le document PDF dans la fenêtre de sortie. Ceci vous aide à comprendre et à perfectionner les résultats d’extraction qui deviendront un modèle à utiliser dans MapForce.

Convertir des données PDF

Une fois que vous enregistrez votre modèle dans l’Extracteur PDF de MapForce, vous pouvez déjà l’insérer comme composant de données source dans un projet de mappage de données de MapForce. Les exigences de conversion PDF communes incluent :

PDF en Excel
PDF en bases de données (SQL ou NoSQL)
PDF en JSON
PDF en CSV
PDF en XML
PDF en Shopify/GraphQL

Évidemment, MapForce peut aussi se mélanger et correspondre à de multiples formats de données source et cible, des projets de mappage de données, etc. Une bibliothèque riche en fonctions de traitement des données et un constructeur de fonction visuel permettent de filtrer et traiter es données facilement avant de les écrire dans la/les destination(s).

Avec l’Extracteur PDF, MapForce rend les données professionnelles critiques précédemment bloquées dans les PDF disponibles pour le mappage des données, l’intégration des données et les processus ETL.

“Altova MapForce provides excellent mapping capabilities that we can seamlessly embed within our core products. The extensible nature of the product means it covers all of our solution requirements.”

Scott Redford Visionware

Télécharger

Télécharger une version d'essai gratuite de 30 jours de MapForce Altova !

Mise à jour

Les clients existants peuvent procéder à la mise à jour vers la dernière version ici.

Acheter

MapForce maintenant.

Language:
EN
DE
FR
ES
JA
ZH
IT
KO
NL
PL
PT