Altova MapForce 2024 Enterprise Edition

Navigation: Composants de structure > PDF > Extracteur PDF de MapForce > Objets modèle

Capture de texte

L’objet de Capture de texte vous permet d’extraire du texte de la page d’un document PDF. Quand vous créez une capture de texte, elle apparaît dans l#arborescence de modèle dans le volet de schéma et dans le volet Sortie. Vous pouvez envelopper une capture de texte en option à l’intérieur d’une balise XML, en donnant un nom à une capture, qui vous aidera à organiser l’arborescence dans le volet Sortie en une structure utile (voir la liste de code ci-dessous). Le nom par défaut d’une capture de texte est Capture. Pour savoir comment ajouter les objets à l’arborescence modèle, voir Insérer un objet.

<Header>GARDENING SERVICES INVOICE</Header>

<BillTo>Oswald Grim

Darkwood St. 17

Boston, MA 02128

+1-617-8767675</BillTo>

<...>

</ Invoice>

Lorsque vous cliquez sur une capture de texte dans l’arborescence de modèle du volet de schéma, la capture se met immédiatement en surbrillance dans le volet de l’Affichage PDF (capture d’écran ci-dessous), qui aide à localiser la capture sur la page. La zone en surbrillance a un libellé de texte qui correspond au nom de la capture visible dans l’arborescence de modèle et dans le volet Sortie. Vous pouvez aussi cliquer sur des éléments ou leurs valeurs dans le volet Sortie pour voir quels objets ils référencent dans une page de votre document PDF. Pour les détails, voir Étape 2 du tutoriel.

Propriétés dans le volet de propriétés

Vous pouvez configurer les propriétés suivantes de l’objet Capture de texte :

La section Algorithme contient différentes propriétés qui vous permettent de gérer des procédures de traitement PDF de base. L’algorithme est visuel dans le sens qu’il ne dépend pas de la structure interne d’un document PDF, mais plutôt de l’ordre d’éléments visuels du document. Les propriétés suivantes sont disponibles :

•La propriété Tolérance baseline spécifie une distance pour des baselines de texte, qui permettent de gérer des cas mineurs de mauvais alignements de texte.

•La propriété Espacement de paragraphe spécifie quelle distance baseline-à-baseline est considérée comme paragraphe. Cette propriété vous permet de configurer si deux lignes consécutives sont traitées comme faisant partie du même paragraphe ou non. Si les deux lignes consécutives font partie du même paragraphe, aucun saut de ligne n’est inséré, et un espace est inséré pour joindre les lignes sauf si l’option Insérer espace est désactivée (voir Mots séparés ci-dessous). Configurer cette propriété à un numéro élevé vous permet de traiter tout le texte comme paragraphe unique. Le résultat contiendra un saut de ligne pour chaque paragraphe, tandis que des sauts de ligne non-paragraphes dans le fichier PDF convertira en un espace unique par défaut.

•La propriété Angle baseline donne un angle de référence (en degrés) pour les baselines à utiliser et peut être utilisée pour extraire du texte vertical ou à angle. L’option par défaut est définie à 0°.

•La propriété Déviation d’angle spécifie l’étendue à laquelle la baseline des glyphes de caractère sur la page peuvent dévier de l’Angle baseline. Le défaut est défini à 180°, ce qui signifie que chaque caractère sera pris en considération. Si vous souhaitez extraire du texte à angle, vous pouvez utiliser cette propriété pour ignorer tout texte qui n’est pas à angle à proximité.

•La propriété Mots séparés spécifie si des espaces sont préservés ou supprimés. Si vous sélectionnez l’option Insérer espace, tous les espaces existants seront préservés. Si vous sélectionnez Coller ensemble, tous les espaces seront supprimés. L’option Coller ensemble est particulièrement utile pour les URL qui ont des sauts de ligne.