Altova MapForce 2024 Enterprise Edition

L’objet Fractionner (illustré ci-dessous) découpe une partie spécifique de la page en morceaux. L’objet Fractionner peut abandonner un nombre fixe d’extraits (snippets) initiaux et/ou finaux d’une région et prend en charge différents moyens de localiser les positions de fractionnement. Pour les détails, voir les Propriétés de la sous-section ci-dessous.

 

Pour savoir comment ajouter les objets à l’arborescence modèle, voir Insérer un objet.

PDFEX_SplitObject

Propriétés dans le volet de propriétés

Vous pouvez configurer les propriétés suivantes de l’objet Fractionner :

 

 

Exemple 1 : Recherche lignes ou bords

Cet exemple affiche comment configurer la méthode Recherche lignes ou bords. L'objectif de cet exemple est comme suit :

 

Pour extraire les données d’une table

Pour exclure la partie supérieure de la page (qui contient l’en-tête, l’entreprise, le client et les détails de la facture), la ligne de l’en-tête de la table, et la partie inférieure de la page du traitement

 

Pour atteindre ces objectifs, nous avons configuré l’objet Fractionner de la manière suivante :

 

La propriété Ignorer Initial a été définie comme 2.

La propriété Ignorer Final a été définie comme 1.

La Méthode a été définie comme Trouver des lignes ou des bords.

Aucune valeur n’a été définie pour la Région, pour cela, la page entière est traitée comme région.

 

L’algorithme a identifié le premier bord dans l’emplacement où la ligne d’en-tête commence et le deuxième bord dans l’emplacement où la ligne d’en-tête se termine. Pour cette raison, la partie supérieure du document ensemble avec la ligne d’en-tête de la table ont été exclues du traitement (partie supérieure grisée dans la capture d’écran ci-dessous)

 

La valeur Ignorer Initial (1) a fait que l’algorithme exclut les cellules Sous-total, Taxes ventes et Total car le premier bord du bas de la région a été identifié à la ligne où la réparation clôture se termine. Le reste de la table sera fractionné en lignes (partie du bas grisée dans la capture d’écran ci-dessous).

PDFEX_SkipInitial2

 

Exemple 2 : Recherche objets

Cet exemple affiche comment configurer la méthode Recherche objets. L’objectif de cet exemple est d’extraire les données de table depuis la facture échantillon illustrée ci-dessous.

PDFEX_BookInvoice

La table affichée dans la capture d’écran ci-dessus ne contient pas de lignes de grille régulières qui rend l’identification des positions correctes de fractionnement difficile. De plus, les cellules dans la deuxième colonne (Non) et les cellules de la troisième colonne (Description) chevauchent. Afin de fractionner correctement la table en lignes, nous avons sélectionné la méthode Recherche objets et nous l’avons configuré comme suit :

 

Les propriétés Couleur d’arrière-plan et Tolérance ont des valeurs par défaut (#FFF et 10 %, respectivement).

La propriété Étendue minimum a été définie à 4pt, ce qui aide à éliminer les objets plus petits à cette valeur.

Puisqu’il n’existe pas d’écart qui peut être rempli, la propriété Remplir écarts a sa valeur par défaut (0pt).

La propriété Bord à trouver a été définie comme Début, ce qui signifie que les objets seront fractionnés en emplacements où ils commencent.

Sur essais et erreurs, nous avons identifié la valeur idéale de la propriété Déplacer qui est -3pt. Cette valeur a fait que les positions de fractionnement se sont légèrement déplacées vers le haut, ce qui évitera que les données soient tronquées.

Aucune option post-processing n’a été définie.

 

Région de recherche

Puisqu’il n’existe aucune ligne cohérente le long de laquelle la table pourrait être fractionnée en lignes, nous utilisons la région de recherche pour identifier les positions de fractionnement fiables, qui seront ensuite appliquées à toute la Région. La capture d’écran ci-dessous affiche que la Région contient toutes les lignes de la table (zone jaune clair). La Région représente une zone que nous voulons fractionner. Toutefois, la région de recherche (rectangle jaune clair ci-dessous) couvre uniquement la première colonne de la table, dans laquelle les objets détectant fonctionnent de manière plus fiable que dans d’autres parties de la table.

PDFEX_BookInvoiceSearch

Si aucune région de recherche n’est utilisée, le séparateur identifiera les positions de fractionnement ci-dessous, qui entraîneront des résultats incorrects dans la sortie.

PDFEX_BookInvoiceNoSearch

 

© 2018-2024 Altova GmbH