Altova MapForce 2024 Enterprise Edition

Navigation: PDF > Extracteur PDF de MapForce > Objets modèle

Fusionner Source et Cible

Les objets Fusionner Source et Fusionner Cible vont de pair. Un objet Fusionner Source vous permet de découper un snippet de la page actuelle. Vous pouvez créer de multiples Fusionner Sources et les joindre ensemble en un Fusionner Cible qui prend en compte tous les snippets de différentes pages en un seul groupe de pages. Fusionner Cible traite les snippets dans l’ordre dans lequel ils ont été ajoutés.

La combinaison de Fusionner Sources et Fusionner Cibles est bénéfique quand les données sont bien organisées et délimitées sur une page. Toutefois, dans des situations dans lesquelles, par exemple, une ligne commence sur une page et continue sur la prochaine page, il est recommandé d’utiliser un Collage.

Pour savoir comment ajouter les objets à l’arborescence modèle, voir Insérer un objet.

Propriétés dans le volet de propriétés

L’objet Fusionner Source a deux propriétés dans le volet Propriétés : Région et Fusionner Cible. La propriété Région fait référence à l’emplacement de Fusionner Source sur la page. Pour les détails, voir la propriété Région dans l’objet Fractionner. La propriété Fusionner Cible fait référence au nom de l’objet Fusionner Cible qui recueillera Fusionner Sources en un seul groupe. Notez que les valeurs du paramètre Fusionner Cible de toutes les Fusionner Sources que vous voulez joindre en un Fusionner Cible et le nom de leur Fusionner Cible correspondant (la propriété Nom) doivent être le même. Autrement, Fusionner Cible ne sera pas en mesure de joindre ces Fusionner Sources.

Exemple

Cet exemple affiche comment utiliser les objets Fusionner Source et Fusionner Cible. Le document PDF duquel vous voulez extraire les données est appelé BookCatalog.pdf. Le document a deux pages (capture d’écran ci-dessous) qui ont des mises en page légèrement différentes : Page 1 contient un en-tête, une table et un bas de page ; la table continue à la Page 2, et il existe également un bas de page.

Objectifs

L'objectif de cet exemple est comme suit :

•Pour extraire le nom de l’entreprise

•Pour extraire toutes les données depuis la table des deux pages

•Pour exclure la ligne de bas de page et l’en-tête de la table du traitement

Mise en place

Pour obtenir des objectifs recensés ci-dessus, nous avons créé l’arborescence modèle suivante :

Sous l’élément racine appelé BookCatalog, il existe un objet Groupe/Filtre qui traite les objets uniquement à la première page (Sélectionner Groupes défini comme 1) du document PDF. L’objet Groupe/Filtre inclut deux Captures de texte : Company, qui fait référence au nom de l’entreprise en haut du document PDF et CatalogYear (capture d’écran ci-dessous).

Cet objet Groupe/Filtre contient également un objet Fusionner Source qui a une région englobant toutes les lignes à la première page, à l’exception de la ligne d’en-tête. Un extrait de la région du premier Fusionner Source est illustré ci-dessous.

Le deuxième objet Groupe/Filtre traite la deuxième page (Sélectionner Groupes défini comme 2) du document PDF et inclut également un Fusionner Source. La raison pour laquelle nous créons deux groupes séparés est que les mises en page des pages ne sont pas les mêmes. Pour cette raison, nous voulons découper un morceau de la première page et un autre morceau de la deuxième page. Ces morceaux deviennent des Fusionner Sources qui seront joints en un Fusionner Cible et traités en un seul groupe.

Dans les deux objets Groupe/Filtre, Fusionner Sources sont des enfants des objets Groupe/Filtre. Les objets Groupe/Filtre ont Un groupe par page défini dans la propriété Type de regroupement.

L’objet Fusionner Cible recueille les snippets des deux Fusionner Sources en un groupe. Une fois que tous les snippets ont été recueillis, ils sont regroupés en lignes (l’objet Groupe/Filtre avec Captures de texte). Chaque ligne contient des informations sur un livre, son auteur, l’ISBN, l’éditeur de publication, la longueur d’impression, l’année, le genre et le prix. L’objet Groupe/Filtre est enveloppé dans l’objet Fractionner et affiche le résultat du fractionnement de Fusionner Cible en lignes de données.

Sortie

La définition des règles d’extraction est complète. Le volet Sortie affiche la structure que nous avons défini et les données que nous avons choisi pour les extraire du document PDF. Un extrait de la sortie est affiché dans la liste de code suivante.

<Company>Crazy Book Lovers, Inc.</Company>

<Book>

<Title>Dune (Dune Chronicles, Book 1)</Title>

<Author>Frank Herbert</Author>

<Publisher>Penguin Publishing Group</Publisher>

</Book>

<Book>

<Title>Dark Matter</Title>

<Author>Blake Crouch</Author>

<Publisher>Pan Macmillan</Publisher>

</Book>

<Book>

<Publisher>Orion</Publisher>

<Genre>Horror</Genre>

</Book>

<...>

</ BookCatalog>