Altova MapForce 2024 Enterprise Edition

Navigation: PDF > Extracteur PDF de MapForce > Objets modèle

Fractionner

L’objet Fractionner (illustré ci-dessous) découpe une partie spécifique de la page en morceaux. L’objet Fractionner peut abandonner un nombre fixe d’extraits (snippets) initiaux et/ou finaux d’une région et prend en charge différents moyens de localiser les positions de fractionnement. Pour les détails, voir les Propriétés de la sous-section ci-dessous.

Pour savoir comment ajouter les objets à l’arborescence modèle, voir Insérer un objet.

Propriétés dans le volet de propriétés

Vous pouvez configurer les propriétés suivantes de l’objet Fractionner :

La propriété Method fait référence au mécanisme de localisation des positions de fractionnement, basé sur une région spécifique qui sera fractionnée en morceaux. Les méthodes suivantes sont disponibles :

•Recherche lignes ou bords

•Recherche objets

•Distance fixe

Toutes les méthodes ont deux directions : (i) la direction de recherche, qui est verticale pour le séparateur et l’emplacement vertical et les localisateurs de la limite et horizontale pour l’emplacement horizontal et les localisateurs de la limite, et (ii) la deuxième direction, qui est perpendiculaire à la direction de recherche.

Recherche lignes ou bords

La méthode Recherche lignes ou bords recherche des lignes ou bords, autour desquels la région sera fractionnée en snippets. La méthode « edge-finding » a les propriétés suivantes :

•La propriété Remplir Écarts vous permet de préciser la distance entre les pixels adjacents à contraste élevé, qui permet de les fusionner. La propriété Remplir Écarts peut être particulièrement utile quand, par exemple, une ligne de table a des lignes pointillées. Fusionner des lignes pointillées en une ligne permettra à l’Extracteur PDF d’identifier cette ligne comme bord.

•La propriété Longueur minimum du bord est un paramètre avancé qui spécifie le pourcentage de la largeur de la région qu’un objet doit couvrir afin d’être compté. Cette propriété peut être utile dans des situations quand les lignes de la grille sont inconsistantes (par ex., quand une ligne de la grille est plus courte que la ligne). La valeur par défaut est 60%. Avec assez d’espace et des lignes de grille cohérentes, la propriété Longueur minimum du bord ne doit pas avoir une influence significative en ce qui concerne la détection des positions de fractionnement. Toutefois, vous allez éventuellement vouloir affiner ce paramètre s’il existe des lignes de grille manquantes. Dans ce cas, définir un pourcentage inférieur peut être utile pour que le séparateur trouve le bord.

•La propriété Résolution permet de scanner un document à plus haute résolution dans le cas où le document contient des lignes très fines. Vous pouvez choisir entre une résolution Standard, Fine (144 ppi) et Extra Fine (288 ppi).

Pour un exemple qui utilise la méthode Recherche lignes ou bords, voir Example 1 ci-dessous.

Recherche objets

La méthode Recherche objets peut être particulièrement utile quand il y a une absence de bords. La méthode de recherche de l’objet scannera la région de recherche, et à chaque fois qu’un coordinateur de direction de recherche a au moins un pixel dans la direction secondaire qui est assez différent de la couleur d’arrière-plan, ce pixel est compté comme faisant partie d’un objet. Dépendant du bord de l’objet ou des bords que vous avez sélectionné, le séparateur découpera la région en snippets, basé sur ces lignes. Ces lignes peuvent également être ajustées si nécessaire. Avec une configuration appropriée, la méthode Recherche objet peut également être utilisée pour détecter des écarts élevés entre les lignes de texte.

La méthode de recherche de l’objet a les propriétés suivantes :

•La propriété Couleur d’arrière-plan est la couleur d’arrière-plan d’un document PDF et accepte les codes couleur hexadécimaux. L’option par défaut est #FFF, qui représente le blanc.

•La propriété Tolérance est le pourcentage de la déviation de la couleur spécifiée dans le paramètre Arrière-plan. Ceci est l’étendue à l’intérieur de laquelle la couleur d’arrière-plan est considérée comme un arrière-plan. Tout ce qui se trouve au-dessus du pourcentage de la déviation de la couleur n’est plus considéré comme arrière-plan. Par exemple, la valeur 100 signifie que tout est traité comme arrière-plan.

•La propriété Étendue minimum précise la taille minimum d’un objet ; tout objet plus petit que la valeur spécifiée sera ignoré.

•La propriété Remplir écarts détermine la taille d’un trou qui est couvert le long de la direction de recherche ; si deux lignes qui n’appartiennent pas à l’arrière-plan ne représentent pas plus que cette distance, ces deux lignes son considérées être un seul objet.

•La propriété Bord à trouver précise le bord sur lequel l’objet sera fractionné, qui peut être le début (Start), la fin (End), ou le début et la fin de l’objet (Start and End).

•La propriété Déplacer précise un décalage qui sera ajouté à la position détectée d’un objet. Le décalage est généralement négatif quand la pour trouver propriété Bord est définie comme Start, autrement il est positif.

Pour un exemple qui utilise la méthode Recherche objets, voir Example 2 ci-dessous.

Distance fixe

La méthode de distance fixée débute en haut de la région de recherche (ou du bord de contrôle, selon le cas) et se déplace vers le ou non selon une distance spécifiée dans le champ Distance. Cette méthode peut être particulièrement utile pour certains documents qui utilisent des lignes fixes ou des hauteurs de cellules.

La capture d’écran ci-dessous illustre un extrait de table qui sera fractionné en lignes basé sur les paramètres configurés dans la section Méthode dans le volet des Propriétés : La méthode a été définie comme Distance fixe, et, en utilisant des mesures dans la barre de statut, nous avons identifié la distance entre le début et la fin de chaque ligne, qui est 24pt (définie dans le champ Distance). Pour les détails sur comment mesurer les distances, voir Exemple dans la sous-section Post-Processus ci-dessous.

La section Post-processus contient des options de post-processus supplémentaires pour le résultat de la méthode sélectionnée :

•L’option Étendue minimum précise une distance seuil en dessous de laquelle les résultats de fractionnement sont considérés être de petits fragments.

•Le paramètre petits fragments précise comment procéder de petits fragments. Les valeurs suivantes sont disponibles :

oIgnorer : De petits fragments ne seront pas inclus dans la séquence du séparateur (option par défaut).

oFusionner avec précédent : Un petit fragment sera fusionné avec le premier fragment « non-small » précédent.

oFusionner avec suivant : Un petit fragment sera fusionné avec le premier fragment « non-small » successif.

oFractionner au centre : La région entre les fragments « non-small » sera fractionnée de manière uniforme entre les deux ; les petits fragments « initial » et « final » seront fusionnés avec les premiers et derniers fragments « non-small », respectivement.

Exemple

Vous pouvez utiliser toutes les manières d’exclusion de fragments non voulus du traitement. Par exemple, si chaque page de votre document PDF a le même nombre de snippets que vous voulez éliminer, vous pouvez utiliser les propriétés Ignorer Initial et Ignorer Final (voir Exemple 1 ci-dessous). Toutefois, si le nombre de snippets non souhaités varie d’une page à l’autre, vous pouvez utiliser la propriété Étendue minimum.

Pour mesurer la hauteur du fragment que vous voulez exclure du traitement, suivez les étapes ci-dessous :

1.Sélectionnez un rectangle qui couvre le hauteur du fragment non souhaité (capture d’écran ci-dessous).

2.Vérifiez les mesures dans la barre de statut (capture d’écran ci-dessous). La valeur 26.84pt représente la hauteur du fragment.

3.Basé sur les mesures affichées dans la barre de statut, nous pouvons définir en sécurité la propriété Étendue minimum à 30pt. Nous avons défini la propriété Petits fragments à Éliminer. Tous les fragments plus petits que 30pt seront exclus du traitement. Pour éviter des résultats imprévisibles, vous devez vous assurer que la hauteur des fragments que vous prévoyez inclure dans les résultats de fractionnement est supérieure à la valeur de la propriété Étendue minimum. Dans notre exemple, la hauteur des lignes que nous voulons fractionner est supérieures à la hauteur de la ligne d’en-tête. Pour cette raison, la valeur que nous avons défini dans la propriété Étendue minimum affectera uniquement les snippets que nous voulons éliminer.

Exemple 1 : Recherche lignes ou bords

Cet exemple affiche comment configurer la méthode Recherche lignes ou bords. L'objectif de cet exemple est comme suit :

•Pour extraire les données d’une table

•Pour exclure la partie supérieure de la page (qui contient l’en-tête, l’entreprise, le client et les détails de la facture), la ligne de l’en-tête de la table, et la partie inférieure de la page du traitement

Pour atteindre ces objectifs, nous avons configuré l’objet Fractionner de la manière suivante :

•La propriété Ignorer Initial a été définie comme 2.

•La propriété Ignorer Final a été définie comme 1.

•La Méthode a été définie comme Trouver des lignes ou des bords.

•Aucune valeur n’a été définie pour la Région, pour cela, la page entière est traitée comme région.

L’algorithme a identifié le premier bord dans l’emplacement où la ligne d’en-tête commence et le deuxième bord dans l’emplacement où la ligne d’en-tête se termine. Pour cette raison, la partie supérieure du document ensemble avec la ligne d’en-tête de la table ont été exclues du traitement (partie supérieure grisée dans la capture d’écran ci-dessous)

La valeur Ignorer Initial (1) a fait que l’algorithme exclut les cellules Sous-total, Taxes ventes et Total car le premier bord du bas de la région a été identifié à la ligne où la réparation clôture se termine. Le reste de la table sera fractionné en lignes (partie du bas grisée dans la capture d’écran ci-dessous).

Exemple 2 : Recherche objets

Cet exemple affiche comment configurer la méthode Recherche objets. L’objectif de cet exemple est d’extraire les données de table depuis la facture échantillon illustrée ci-dessous.

La table affichée dans la capture d’écran ci-dessus ne contient pas de lignes de grille régulières qui rend l’identification des positions correctes de fractionnement difficile. De plus, les cellules dans la deuxième colonne (Non) et les cellules de la troisième colonne (Description) chevauchent. Afin de fractionner correctement la table en lignes, nous avons sélectionné la méthode Recherche objets et nous l’avons configuré comme suit :

•Les propriétés Couleur d’arrière-plan et Tolérance ont des valeurs par défaut (#FFF et 10 %, respectivement).

•La propriété Étendue minimum a été définie à 4pt, ce qui aide à éliminer les objets plus petits à cette valeur.

•Puisqu’il n’existe pas d’écart qui peut être rempli, la propriété Remplir écarts a sa valeur par défaut (0pt).

•La propriété Bord à trouver a été définie comme Début, ce qui signifie que les objets seront fractionnés en emplacements où ils commencent.

•Sur essais et erreurs, nous avons identifié la valeur idéale de la propriété Déplacer qui est -3pt. Cette valeur a fait que les positions de fractionnement se sont légèrement déplacées vers le haut, ce qui évitera que les données soient tronquées.

•Aucune option post-processing n’a été définie.

Région de recherche

Puisqu’il n’existe aucune ligne cohérente le long de laquelle la table pourrait être fractionnée en lignes, nous utilisons la région de recherche pour identifier les positions de fractionnement fiables, qui seront ensuite appliquées à toute la Région. La capture d’écran ci-dessous affiche que la Région contient toutes les lignes de la table (zone jaune clair). La Région représente une zone que nous voulons fractionner. Toutefois, la région de recherche (rectangle jaune clair ci-dessous) couvre uniquement la première colonne de la table, dans laquelle les objets détectant fonctionnent de manière plus fiable que dans d’autres parties de la table.

Si aucune région de recherche n’est utilisée, le séparateur identifiera les positions de fractionnement ci-dessous, qui entraîneront des résultats incorrects dans la sortie.