Internationalisation avec la suite Altova MissionKit

L'article suivant est rédigé par Peter Reynolds, PDG et consultant en gestion de la traduction chez TM-Global, ainsi que directeur exécutif de Kilgray Translation Technologies. De nationalité irlandaise et basé à Varsovie, il est titulaire d'une licence et d'un MBA de l'Open University et est un expert chevronné dans les secteurs de la localisation et de la traduction. Peter a précédemment travaillé chez Idiom Technologies Inc. — aujourd'hui SDL PLC. En tant que directeur du programme de partenaires LSP chez Idiom, Peter était responsable de la réussite et de l'innovation de son programme mondial de partenaires LSP. Avant Idiom, il a travaillé sur le développement de technologies linguistiques pour plusieurs entreprises de localisation internationales : Lionbridge, Bowne Global Solutions et Berlitz GlobalNET. Il a dirigé l'équipe de développement de Dublin, responsable des solutions technologiques BerlitzIT, Elcano et Freeway 2.0, ainsi que des outils de gestion de projets internes et des fournisseurs. Peter est activement impliqué dans le développement et la promotion de normes (notamment XLIFF) depuis plus de dix ans, principalement au sein d'OASIS. Jusqu'en 2008, date de la publication de XLIFF, il était secrétaire du comité technique XLIFF chez OASIS et présidait le comité technique des services web de traduction. Il est actuellement impliqué dans OASIS, TILP, et est également l'expert irlandais auprès des comités SC2 et SC4 de l'ISO, ainsi que formateur d'auditeurs pour la norme EN 15038.

Introduction

Chaque développeur souhaite que ses applications soient utilisées et espère qu'elles connaîtront un grand succès. Une application web développée dans une zone rurale du Maine, aux États-Unis, peut facilement être utilisée par quelqu'un vivant dans la ville voisine, ou en Malaisie, en Nouvelle-Zélande, en Allemagne ou en Pologne. Même si l'application n'est pas traduite (adaptée à une langue spécifique), il existe des différences importantes dans la manière dont les données sont présentées selon les différentes régions. La définition de l'internationalisation du W3C est la suivante : "la conception et le développement d'un produit qui est adapté à des publics cibles différents en termes de culture, de région ou de langue". Cela ne signifie pas que le produit doit être traduit dans la langue du public cible, mais qu'il est conçu de manière à ce que ce public puisse utiliser l'application et comprendre la manière dont les données sont présentées. L'objectif de l'internationalisation est de garantir la plus large audience possible pour votre application et de faciliter sa traduction, tout en réduisant les coûts.

Cet article vous présentera le concept de l'internationalisation et vous montrera comment les applications peuvent être adaptées à différents marchés grâce à Altova MissionKit, une suite intégrée d'outils XML, de bases de données et UML, comprenant notamment XMLSpy, StyleVision, MapForce, et d'autres. Si vous utilisez des outils tels que XMLSpy et StyleVision, il est fort probable que vous soyez déjà en train de créer des applications XML adaptées à différents contextes internationaux.

La stratégie que je propose est que vous essayiez de déterminer à l'avance quel est le public cible de vos applications, et que vous mettiez en œuvre la normalisation internationale en conséquence. Dans cet article, je vais d'abord présenter une stratégie pour la normalisation internationale des fichiers XML. Ensuite, je vais introduire l'ensemble de balises de normalisation internationale et examiner les problèmes liés à la normalisation internationale des fichiers XML.

Stratégie de développement à l'échelle internationale pour XML

La première étape de la planification de l'internationalisation consiste à prendre une décision éclairée quant au niveau d'internationalisation dont vous avez besoin. Il peut y avoir des personnes au sein de votre organisation qui peuvent vous aider à prendre cette décision, et il serait particulièrement utile de recueillir l'avis de personnes vivant dans différents pays. L'approche en trois niveaux présentée ci-dessous devrait vous aider à déterminer le niveau d'internationalisation que vous allez mettre en œuvre. Cependant, il est important de se rappeler que vous pourriez rencontrer des problèmes si vos documents ou applications ne sont pas internationalisés, mais vous ne rencontrerez certainement pas les mêmes problèmes si vous vous assurez qu'ils le sont pleinement. Les trois niveaux d'internationalisation sont :

  • Niveau 1 : Vos applications sont susceptibles d'avoir un public relativement restreint, qui pourrait se développer, mais il est peu probable qu'elles soient traduites ou utilisées à l'échelle internationale. Dans ce cas, vous devriez simplement suivre les suggestions de cet article et vous assurer d'utiliser les fonctionnalités d'Altova MissionKit pour prendre en charge la localisation.
  • Niveau 2 : Vos applications auront un large public et pourraient être traduites et utilisées à l'échelle internationale. En plus d'utiliser les fonctionnalités d'Altova MissionKit, vous devriez également utiliser l'ensemble de balises pour l'internationalisation. Il s'agit d'un schéma publié par le W3C dans le but de faciliter l'internationalisation.
  • Niveau 3 : Vos applications sont très probablement utilisées à l'échelle internationale et traduites dans de nombreuses langues différentes. Vous devriez réfléchir à la manière d'améliorer le processus de localisation en séparant le contenu du code et en veillant à ce que les traducteurs puissent visualiser le document ou l'application comme le ferait l'utilisateur final. Cela dépasse le cadre de cet article, mais vous trouverez des informations pertinentes sur ce sujet dans les références ci-dessous.

Les outils logiciels inclus dans la suite Altova MissionKit offrent de nombreuses fonctionnalités qui facilitent la mise en œuvre de la localisation. Si vous utilisez ces outils, vous disposez d'une base solide pour créer des documents XML adaptés à différents contextes internationaux. Unicode est l'encodage par défaut pour les applications créées avec l'éditeur XML XMLSpy, et je vous recommande vivement d'utiliser cet ensemble de caractères.

Ensemble de balises d'internationalisation

L'ensemble de balises d'internationalisation (ITS) est recommandé par le W3C et conçu pour créer des documents XML qui sont internationalisés et peuvent être facilement adaptés à différentes langues et cultures. Si vous travaillez avec des documents XML qui pourraient être adaptés à différentes langues, je vous recommande d'utiliser ITS. Grâce à cette technologie, vous pouvez spécifier quels textes nécessitent une traduction, fournir des instructions aux traducteurs et définir la direction du texte. Les sept catégories de données incluses dans ITS sont :

  • Traduction : Définit les parties d'un document qui peuvent être traduites.
  • Note de localisation : Fournit des notes et des informations utiles aux traducteurs.
  • ** Terminologie :** Permet d'identifier les termes utilisés dans les documents.
  • Sens de lecture : Indique la direction dans laquelle le document ou une partie du document est rédigé et doit être lu.
  • Ruby : Indique les parties du document qui doivent être affichées sous forme de texte ruby. (Le texte ruby est un court segment de texte affiché à côté du texte principal, généralement utilisé dans les documents des langues d'Asie du Sud-Est pour indiquer la prononciation ou pour fournir une brève annotation).
  • Informations sur la langue : Indique la langue utilisée pour les différentes parties du document.
  • Éléments contenus dans le texte : Indique comment les différents éléments doivent être traités en ce qui concerne la segmentation linguistique.

Le W3C a publié un guide des bonnes pratiques pour l'internationalisation des documents XML, qui détaille l'utilisation de ITS. Vous pouvez le trouver sur leur site web à l'adresse suivante : http://www.w3.org/TR/2007/WD-xml-i18n-bp-20070427/. La spécification est disponible dans cette section : http://www.w3.org/TR/2007/REC-its-20070403/. Je vous recommande vivement de lire ces documents avant de procéder à l'internationalisation.

Problèmes liés à l'internationalisation

Le tableau suivant décrit certains des problèmes de localisation que vous pourriez rencontrer. Il sera suivi d'une explication plus détaillée de ces problèmes, ainsi que de suggestions sur la manière de les résoudre à l'aide d'Altova MissionKit.

PROBLÈME DESCRIPTION
Encodage Les caractères doivent être pris en charge par la page de codes utilisée. Unicode est un encodage qui prend en charge les caractères de toutes les langues courantes.
Dates et heures La manière dont les dates et les heures sont représentées varie d'un pays à l'autre.
Nombres La manière dont les décimales et les séparateurs de milliers sont représentés varie d'un pays à l'autre.
Devises Outre les différences dans la manière dont le nombre est représenté dans certains pays, le symbole ou le mot désignant la devise est parfois écrit après le nombre, tandis que dans la plupart des cas, il est écrit avant.
Salutations et noms Il existe de nombreuses différences dans les salutations entre les pays, et dans certains pays, comme la Hongrie, le nom de famille est écrit en premier. Il n'y a pas de deuxième prénom en japonais.
Adresses Il existe un certain nombre de différences concernant les adresses, par exemple, le numéro de la maison peut apparaître avant le nom de la rue dans certains pays et après dans d'autres. De plus, certains pays utilisent un code postal tandis que d'autres utilisent un code ZIP.
RTL (Lecture de droite à gauche) Dans de nombreuses langues, le texte est lu de gauche à droite, mais dans certaines langues, comme l'hébreu et l'arabe, le texte est lu de droite à gauche (bidirectionnel).
Tri et collation Il existe des différences dans la manière dont les alphabets sont triés. Certaines langues scandinaves ont un caractère "aa" qui est généralement, mais pas toujours, trié à la fin de l'alphabet.
Points d'exclamation et points d'interrogation En anglais, les questions et les points d'exclamation sont toujours à la fin de la phrase, tandis qu'en espagnol, il y a un point d'interrogation au début et à la fin d'une phrase.

Encodage

Tous les textes électroniques utilisent un système de codage des caractères, où chaque caractère est représenté par un nombre. Avant la généralisation de l'utilisation de Unicode, c'était l'un des problèmes les plus importants en matière de normalisation internationale. Lorsqu'une application tente d'afficher un caractère qui n'est pas représenté dans une page de codes, celui-ci apparaîtra sous forme de texte illisible. Il y avait non seulement des problèmes entre différentes langues, mais aussi avec l'affichage incorrect de caractères sur des ordinateurs utilisant différents systèmes d'exploitation. Unicode a résolu la plupart de ces problèmes en créant une seule page de codes, quel que soit le système, le programme ou la langue. XML utilise Unicode comme page de codes par défaut. Tous les documents XML que vous créez dans XMLSpy auront, par défaut, la déclaration "encoding="UTF-8"". Si le fichier n'a pas été créé dans XMLSpy, vous devez vous assurer qu'il est enregistré au format UTF-8. UTF est un acronyme pour "Unicode transformation format", et UTF-8 est une variante de Unicode qui utilise 1, 2 ou 4 octets pour stocker les caractères. C'est la variante la plus couramment utilisée et elle est très largement utilisée pour XML et le Web. Les autres versions de Unicode prises en charge par XMLSpy sont :

  • UTF-7. Il s'agit d'une version de Unicode utilisant 7 bits. Elle ne doit être utilisée que dans le contexte de transmissions utilisant 7 bits, comme les courriels.
  • ISO 1064 UCS – 2 et UTF – 16. UCS est un acronyme pour "Universal Character Set" (ensemble de caractères universel), et UCS-2 utilise deux octets pour chaque caractère. UTF-16 est une extension de UCS-2 qui utilise 2 ou 4 octets pour représenter un caractère. UTF-16 est souvent utilisé par Windows et Java. Vous devriez utiliser UTF – 16 plutôt que UCS – 2 pour les nouveaux documents.
  • ISO 1064 UCS-4. Utilise 4 octets pour chaque caractère et est identique à UTF-32. UTF-32 est souvent utilisé sous Unix.

Il peut y avoir des raisons d'utiliser un encodage par défaut autre que UTF-8. Pour définir l'encodage par défaut dans XMLSpy, allez dans le menu Outils | Options, puis sélectionnez l'onglet "Encodage".

Si vous souhaitez modifier l'encodage d'un document XML spécifique, ouvrez le document dans XMLSpy et sélectionnez Fichier | Encodage.

Langue

L'espace de noms XML définit l'attribut xml:lang pour identifier la langue d'un document XML. La valeur de xml:lang doit être un code de langue ISO (ISO 639-2). Si vous avez un document XML rédigé dans une langue, mais contenant une section dans une autre langue, vous pouvez utiliser l'attribut xml:lang au niveau de l'élément racine pour identifier la langue principale du document, et l'utiliser au niveau de l'élément contenant le texte dans une autre langue pour identifier cette langue.

Dates

Dans différents pays, les dates et les heures sont représentées de manières très différentes. Prenons par exemple la date 10/09/08 :

In most European countries this means the 10th of September 2008. In the United States this means the 9th of October 2008. In Japan this means 8th of October 2009.

La meilleure façon de gérer cela est d'utiliser la norme ISO 8601 pour spécifier les dates et les heures dans votre application. Il s'agit d'une méthode standard pour représenter les dates et les heures au format AAAA-MM-JJTHH:MM:SS[±HH:MM], où :

YYYY- represents year
MM- represents month
DD - represents day
T signifies that Time follows this
HH- represents hours
MM- represents minutes
SS- represents seconds.

Vous pouvez ensuite utiliser StyleVision pour créer une feuille de style qui formate la date de manière adaptée à votre public cible. StyleVision est un outil de conception de feuilles de style graphique qui permet de créer des feuilles de style XSLT et XSL:FO par glisser-déposer, afin de rendre les données XML dans des formats tels que HTML, Microsoft Word, PDF et d'autres. Pour utiliser la fonctionnalité de formatage de date dans StyleVision :

  • Sélectionnez le conteneur de contenu ou le champ de saisie du nœud.
  • Dans la barre latérale des propriétés, sélectionnez l'élément de contenu, puis le groupe de propriétés "Contenu".
  • Cliquez sur le bouton "Modifier" de la propriété "Format d'entrée".
  • La fenêtre de dialogue de formatage des données s'affichera :

  • Sélectionnez le bouton radio "Formaté". Cela vous permettra de choisir le type de données que vous souhaitez utiliser, et si vous avez sélectionné une date, vous pourrez ensuite choisir le format de cette date.

Vous pouvez également sélectionner d'autres formats de date et d'heure ici. Je vous recommande vivement d'utiliser le sélecteur de date. Pour insérer le sélecteur de date, le curseur doit se trouver entre un nœud xs:date ou xs:dateTime. Ensuite, allez dans le menu principal, cliquez sur "Insérer" et sélectionnez "Insérer le sélecteur de date". Si le curseur ne se trouve pas entre un nœud xs:date ou xs:dateTime, l'option "Insérer le sélecteur de date" sera grisée.

Nombres

Les nombres décimaux peuvent être précédés soit d'un point, soit d'une virgule, selon la région. Il existe également des différences dans la manière dont les milliers sont représentés. StyleVision offre des fonctionnalités qui vous permettent de formater un nombre en fonction de votre public cible :

  • Sélectionnez le conteneur de contenu ou le champ de saisie du nœud.
  • Dans la barre latérale des propriétés, sélectionnez l'élément de contenu, puis le groupe de propriétés "Contenu".
  • Cliquez sur le bouton "Modifier" de la propriété "Format d'entrée".
  • La fenêtre de dialogue de formatage des données s'affichera

  • Sélectionnez le bouton radio "Formaté". Cela vous permettra de choisir le format de nombre.

Argent

Les problèmes liés aux chiffres s'appliquent également à la monnaie, mais en plus de cela, il existe différentes conventions pour représenter le symbole de la devise. Certaines devises partagent le même nom et le même symbole, comme le dollar, mais le dollar australien, le dollar canadien et le dollar singapourien ne sont pas la même devise, et cela doit être clairement identifié. Vous pouvez traiter les chiffres comme indiqué ci-dessus, mais la question de savoir si le nom de la devise ou son symbole doit être placé avant ou après le chiffre sera probablement traitée dans le cadre du processus de traduction.

Adresse

L'un des problèmes rencontrés par les clients qui achètent auprès d'une entreprise étrangère lors d'un achat en ligne est que le système ne leur permet pas toujours de saisir correctement leur adresse. Il existe de nombreuses différences, comme le fait que le numéro de la maison se trouve avant ou après le nom de la rue, l'ordre dans lequel les éléments de l'adresse sont placés, et le format du code postal. Le CEN (l'organisme européen de normalisation) a développé une norme qui répertorie les éléments d'une adresse, et l'UPU (Union postale universelle) travaille à perfectionner cette norme afin de créer une liste complète des éléments de nom et d'adresse. Je vous recommande de vous assurer que vous collectez les données nécessaires pour vos principaux marchés cibles, mais veillez également à ce que les personnes d'autres pays puissent saisir leur adresse. Une liste déroulante de pays pourrait être utilisée pour garantir une vérification des erreurs lorsque vous savez que certains éléments de l'adresse sont obligatoires, tout en évitant d'afficher des erreurs pour d'autres pays dont vous ne connaissez pas la structure de l'adresse.

Cartes de crédit

Certains sites web basés aux États-Unis n'acceptent pas les cartes de crédit émises en dehors des États-Unis. À titre de mesure de sécurité, ils exigent une adresse américaine valide. Si vous souhaitez accepter les paiements par carte de crédit et faire des affaires avec des personnes situées en dehors de votre pays, vous devez vérifier que les cartes de crédit étrangères seront acceptées.

RTL (bidirectionnel)

Dans de nombreuses langues, le texte est lu de gauche à droite, mais ce n'est pas une règle universelle. L'arabe et l'hébreu, par exemple, sont écrits de droite à gauche. Dans les documents XML, cela crée une confusion supplémentaire, car les éléments XML sont lus de gauche à droite, alors que tout texte devrait être lu de droite à gauche. L'espace de noms ITS possède un attribut "direction" qui peut être utilisé pour indiquer la direction de lecture appropriée. <its:span dir="rtl">Le plaisir de la pêche !</its:span>

Tri

Il existe des différences dans la manière dont les alphabets sont triés. Certaines langues scandinaves possèdent un caractère « aa » qui est généralement, mais pas toujours, trié à la fin de l'alphabet. Si vous avez défini la langue dans votre document XML et que vous utilisez xsl:sort dans votre document XSL, le tri devrait fonctionner conformément aux règles de tri de cette langue. Cependant, vous devez vérifier que votre processeur effectue bien cela, car ce n'est pas toujours le cas. Les fichiers d'exemple fournis avec StyleVision contiennent des exemples de tri. Sélectionnez « Exemples StyleVision », puis le dossier « tutoriel », puis « tri », et ouvrez le fichier « SortingOnTwoTextKeys.sps ». Pour voir comment le tri fonctionne, passez en mode conception et cliquez avec le bouton droit sur l'élément membre. Ensuite, sélectionnez l'option « trier par » dans le menu contextuel. Vous pouvez ainsi contrôler la manière dont le tri est effectué pour cette liste particulière.

Points d'exclamation et points d'interrogation

En anglais, les points d'interrogation et les points d'exclamation sont toujours placés à la fin de la phrase, tandis qu'en espagnol, cette ponctuation peut apparaître au début et à la fin d'une phrase. C'est un élément qui sera généralement corrigé lors du processus de traduction.

Conclusions

La mise en œuvre d'une approche internationale est une étape importante pour garantir un public cible aussi large que possible pour votre application, et pour que la traduction soit aussi économique et simple que possible. Votre approche doit être très pragmatique. Le temps consacré en amont à la mise en place de la stratégie internationale se traduira par des avantages considérables tout au long du processus et augmentera significativement le potentiel marketing de votre produit. L'objectif de cet article était de présenter un aperçu et de vous familiariser avec la stratégie d'internationalisation. Vous trouverez de nombreuses informations utiles dans les références listées ci-dessous.

Des outils tels que XMLSpy et StyleVision, qui sont tous deux inclus dans la suite logicielle Altova MissionKit, facilitent considérablement le processus d'internationalisation des documents XML en offrant un large éventail de fonctionnalités intégrées pour cette tâche. L'ensemble de balises d'internationalisation (Internationalization Tag Set) de W3C est une innovation très importante qui constitue un excellent ajout à la boîte à outils à la disposition des développeurs souhaitant créer des applications XML internationalisées. XML est une technologie qui a toujours pris en compte l'internationalisation et la traduction dès sa conception. L'utilisation de Unicode comme encodage par défaut pour XML est très importante et facilite grandement la résolution de tout problème d'internationalisation que vous pourriez rencontrer. Les fonctionnalités offertes par Altova MissionKit, ITS et Unicode constituent la base de la création d'applications correctement internationalisées.

Références Voici une liste de sites web et d'autres ressources utiles qui fournissent des informations complémentaires sur la normalisation internationale : Leader dans le domaine des outils XML - Altova : https://www.altova.com/. Ils proposent également une version d'essai gratuite de MissionKit : https://www.altova.com/download.

Site web d'Unicode : http://www.unicode.org/

Ensemble de balises d'internationalisation http://www.w3.org/TR/2007/REC-its-20070403/

Meilleures pratiques du W3C pour l'internationalisation : http://www.w3.org/TR/2007/WD-xml-i18n-bp-20070427/

Open Tag (de Yves Savourel) : http://www.opentag.com/

Yves Savourel, « Internationalisation et localisation de XML », un ouvrage qui constitue une excellente source d'informations. Vous trouverez plus d'informations à l'adresse suivante : http://www.opentag.com/xmli18nbook.htm

Le site web TM-Global, dédié à la recherche et aux ressources, publie de nombreux articles, analyses et enquêtes utiles sur la traduction, la localisation et les normes de l'industrie. http://www.tm-global.com/

Sites web de Tex Texin, expert en internationalisation : http://www.xencraft.com/ et http://www.i18nguy.com/

Flux de localisation – site web d'experts en internationalisation. http://www.locflowtech.com/

Des systèmes de traduction assistée par ordinateur (TAO) et des outils de traduction basés sur la technologie XML, offrant un bon rapport qualité-prix, sont disponibles auprès d'entreprises telles que Kilgray Translation Technologies http://www.kilgray.com/