Internacionalización con el conjunto de herramientas Altova MissionKit
El siguiente artículo ha sido escrito por Peter Reynolds, director ejecutivo y consultor de gestión de traducción en TM-Global, y director ejecutivo de Kilgray Translation Technologies. De nacionalidad irlandesa y residente en Varsovia, posee una licenciatura y un MBA de la Open University, y es un experto con amplia experiencia en la industria de la localización y la traducción. Anteriormente, Peter trabajó en Idiom Technologies Inc., que ahora es SDL PLC. Como director del programa de socios de proveedores de servicios lingüísticos (LSP) en Idiom, Peter fue responsable de convertir el programa global de socios LSP en una iniciativa exitosa e innovadora. Antes de Idiom, trabajó en el desarrollo de tecnologías lingüísticas para varias empresas de localización a nivel mundial: Lionbridge, Bowne Global Solutions y Berlitz GlobalNET. Dirigió el equipo de desarrollo de Dublín, responsable de las soluciones tecnológicas BerlitzIT, Elcano y Freeway 2.0, así como de las herramientas internas de gestión de proyectos y proveedores. Peter ha participado activamente en el desarrollo y la promoción de estándares (especialmente XLIFF) durante más de diez años, principalmente en OASIS. Hasta 2008, cuando se publicó XLIFF, fue secretario del Comité Técnico de XLIFF en OASIS y presidió el Comité Técnico de Servicios Web de Traducción. Actualmente, participa en OASIS y TILP, además de ser el experto irlandés ante las comisiones SC2 y SC4 de la ISO, y forma a auditores para la norma EN 15038.
Introducción
Todo desarrollador desea que sus aplicaciones sean utilizadas y espera que sean muy populares. Una aplicación web desarrollada en una zona rural de Maine, en Estados Unidos, podría ser utilizada fácilmente por alguien que viva en el pueblo vecino, o en Malasia, Nueva Zelanda, Alemania o Polonia. Incluso si la aplicación no está traducida (adaptada a un idioma específico), existen algunas diferencias importantes en la forma en que se presenta la información en diferentes regiones. La definición del W3C sobre la internacionalización es "el diseño y desarrollo de un producto que está adaptado para audiencias objetivo que varían en cultura, región o idioma". Esto no significa que el producto deba ser traducido al idioma de la audiencia objetivo, sino que está diseñado de tal manera que la audiencia objetivo pueda utilizar la aplicación y comprender la forma en que se presenta la información. La razón de la internacionalización es asegurar la mayor audiencia posible para su aplicación y facilitar y reducir el costo de su traducción.
Este artículo le presentará el concepto de internacionalización y demostrará cómo las aplicaciones pueden ser adaptadas a diferentes idiomas y culturas utilizando Altova MissionKit, un conjunto integrado de herramientas XML, de bases de datos y UML que incluye XMLSpy, StyleVision, MapForce, entre otras. Si está utilizando herramientas como XMLSpy y StyleVision, es muy probable que ya esté creando aplicaciones XML adaptadas a diferentes idiomas.
La estrategia que sugiero es que intenten determinar de antemano a qué público objetivo están dirigidas sus aplicaciones e implementar la internacionalización en consecuencia. En este artículo, primero discutiré una estrategia para la internacionalización de XML. Luego, presentaré el conjunto de etiquetas de internacionalización y analizaré los aspectos relacionados con la internacionalización de XML.
Estrategia para la internacionalización de XML
El primer paso en la planificación de la internacionalización es tomar una decisión informada sobre el nivel de internacionalización que necesita. Es posible que haya personas en su organización que puedan ayudarle a tomar esta decisión, y sería especialmente útil obtener la opinión de personas que viven en diferentes países. El enfoque de tres niveles que se presenta a continuación le ayudará a decidir el nivel de internacionalización que va a implementar. Sin embargo, debe tener en cuenta que puede encontrar algunos problemas si sus documentos o aplicaciones no están internacionalizados, pero sin duda no tendrá los mismos problemas si se asegura de que estén completamente internacionalizados. Los tres niveles de internacionalización son:
- Nivel 1: Es probable que sus aplicaciones tengan una audiencia relativamente pequeña, que podría crecer, pero es poco probable que se traduzcan o se utilicen a nivel internacional. En ese caso, simplemente debe seguir las sugerencias de este artículo y asegurarse de utilizar las funcionalidades de Altova MissionKit para facilitar la internacionalización.
- Nivel 2: Sus aplicaciones tendrán un público amplio y podrían ser traducidas y utilizadas a nivel internacional. Además de utilizar las funcionalidades de Altova MissionKit, también debe utilizar el conjunto de etiquetas de internacionalización. Este es un esquema publicado por el W3C con el propósito de facilitar la internacionalización.
- Nivel 3: Es muy probable que sus aplicaciones se utilicen a nivel internacional y se traduzcan a varios idiomas. Debería considerar cómo mejorar el proceso de localización, separando el contenido del código y asegurándose de que los traductores puedan ver el documento o la aplicación tal como lo vería el usuario final. Esto está fuera del alcance de este artículo, pero encontrará información relevante sobre el tema en las referencias que se presentan a continuación.
Las herramientas de software incluidas en el Altova MissionKit ofrecen una gran cantidad de funcionalidades que facilitan la internacionalización. Si utiliza estas herramientas, tendrá una base muy sólida para crear documentos XML adaptados a diferentes idiomas y culturas. Unicode es la codificación predeterminada para las aplicaciones creadas en el editor XML XMLSpy, y recomiendo encarecidamente utilizar este conjunto de caracteres.
Conjunto de etiquetas de internacionalización
El conjunto de etiquetas de internacionalización (ITS) es recomendado por el W3C y está diseñado para crear archivos XML que sean internacionalizados y que puedan ser fácilmente adaptados a diferentes idiomas y culturas. Si está trabajando con documentos XML que podrían ser adaptados a diferentes idiomas, le recomiendo utilizar ITS. Con esta tecnología, puede especificar qué texto necesita ser traducido, proporcionar instrucciones para los traductores y definir la dirección del texto. Las siete categorías de datos incluidas en ITS son:
- Traducción: Define qué partes de un documento son traducibles.
- Nota de localización: Proporciona notas e información útil para los traductores.
- Terminología: Identifica los términos utilizados en los documentos.
- Dirección: Indica la dirección en la que está escrito el documento o una parte del mismo, y la dirección en la que debe leerse.
- Ruby: Indica qué partes del documento deben mostrarse como texto "ruby". (El texto "ruby" es una breve sección de texto que se muestra junto a un texto principal, y se utiliza comúnmente en documentos de idiomas del sudeste asiático para indicar la pronunciación o para proporcionar una breve anotación).
- Información del idioma: Identifica el idioma utilizado para las diferentes secciones del documento.
- Elementos dentro del texto: Indica cómo deben tratarse los elementos en relación con la segmentación lingüística.
El W3C ha publicado una guía de buenas prácticas para la internacionalización de documentos XML, que detalla cómo utilizar ITS. Puede encontrarla en su sitio web en: http://www.w3.org/TR/2007/WD-xml-i18n-bp-20070427/ La especificación se encuentra en esta sección: http://www.w3.org/TR/2007/REC-its-20070403/ Le recomiendo encarecidamente que lea estos documentos antes de continuar con el proceso de internacionalización.
Cuestiones relacionadas con la internacionalización
La siguiente tabla describe algunos de los problemas de internacionalización que es posible que encuentre. A continuación, se ofrecerá una explicación más detallada de estos problemas, junto con sugerencias sobre cómo resolverlos utilizando Altova MissionKit.
| ASPECTO | DESCRIPCIÓN |
|---|---|
| Codificación | Los caracteres deben ser compatibles con la página de códigos utilizada. Unicode es una codificación que admite caracteres de todos los idiomas comunes. |
| Fecha y hora | La forma en que se representan las fechas y las horas varía entre países. |
| Números | La forma en que se representan los puntos decimales y los separadores de miles varía entre diferentes países. |
| Moneda | Además de las diferencias en la forma en que se representa el número en algunos países, el símbolo o la palabra que indica la moneda se escribe después del número, mientras que en la mayoría de los casos se escribe antes. |
| Saludos y nombres | Existen muchas diferencias en los saludos entre países, y en algunos países, como Hungría, el nombre de una persona se escribe con el apellido primero. En japonés, no se utiliza un segundo nombre. |
| Dirección | Existen varias diferencias relacionadas con las direcciones, como el número de la casa que aparece antes del nombre de la calle en algunos países y después en otros. Además, algunos países utilizan un código postal en lugar de un código ZIP. |
| Idiomas de derecha a izquierda (RTL) | En muchos idiomas, el texto se lee de izquierda a derecha, pero en algunos, como el hebreo y el árabe, el texto se lee de derecha a izquierda (bidireccional). |
| Ordenamiento y clasificación | Existen diferencias en la forma en que se ordenan los alfabetos. Algunos idiomas escandinavos tienen un carácter "aa" que, generalmente, pero no siempre, se ordena al final del alfabeto. |
| Signos de exclamación e interrogación | En inglés, los signos de interrogación y exclamación siempre se colocan al final de la oración, mientras que en español, hay un signo de interrogación al principio y al final de una oración. |
Codificación
Todo texto electrónico utiliza un sistema de codificación de caracteres, donde cada carácter se representa mediante un número. Antes de la adopción generalizada de Unicode, este era uno de los problemas más importantes en la internacionalización. Cuando una aplicación intenta mostrar un carácter que no está representado en una página de códigos, este aparecerá como texto ilegible. No solo existían problemas entre diferentes idiomas, sino también con caracteres que se mostraban incorrectamente en ordenadores que utilizaban diferentes sistemas operativos. Unicode ha resuelto la mayoría de estos problemas al crear una única página de códigos, independientemente de la plataforma, el programa o el idioma. XML utiliza Unicode como su página de códigos predeterminada. Cualquier documento XML que cree en XMLSpy tendrá, por defecto, la declaración "encoding="UTF-8"". Si el archivo no se ha creado en XMLSpy, debe asegurarse de que se guarda como UTF-8. UTF es un acrónimo de "Unicode transformation format" (formato de transformación Unicode), y UTF-8 es una variante de Unicode que utiliza 1, 2 o 4 bytes para almacenar caracteres. Es la variante más utilizada y se emplea ampliamente para XML y la web. Las otras versiones de Unicode que XMLSpy admite son:
- UTF-7. Esta es la versión de 7 bits de Unicode. Solo debe utilizarse en contextos de transmisión de 7 bits, como el correo electrónico.
- ISO 1064 UCS – 2 y UTF – 16. UCS es un acrónimo de "Universal Character Set" (Conjunto de caracteres universal) y UCS-2 utiliza dos bytes para cada carácter. UTF-16 es una extensión de UCS-2 que utiliza 2 o 4 bytes para representar un carácter. UTF-16 se utiliza a menudo en Windows y Java. Para documentos nuevos, es recomendable utilizar UTF – 16 en lugar de UCS – 2.
- ISO 1064 UCS-4. Utiliza 4 bytes para cada carácter y es equivalente a UTF-32. UTF-32 se utiliza a menudo en sistemas Unix.
Puede haber razones para utilizar la codificación predeterminada que no sean UTF-8. Para establecer la codificación predeterminada en XMLSpy, vaya a Herramientas | Opciones y seleccione la pestaña de codificación.
![]()
Si desea cambiar la codificación de un documento XML individual, abra el documento en XMLSpy y seleccione "Archivo" | "Codificación".
![]()
Idioma
El espacio de nombres XML define el atributo xml:lang para identificar el idioma de un documento XML. El valor de xml:lang debe ser un código de idioma ISO (ISO 639-2). Si tiene un documento XML que está escrito en un idioma, pero contiene un fragmento en otro idioma, puede utilizar el atributo xml:lang en el elemento raíz para identificar el idioma principal del documento, y utilizarlo en el elemento donde se utiliza el texto en otro idioma para identificar ese idioma.
Fechas
En diferentes países, las fechas y las horas se representan de maneras muy distintas. Tomemos como ejemplo la fecha 10/09/08:
In most European countries this means the 10th of September 2008. In the United States this means the 9th of October 2008. In Japan this means 8th of October 2009.
La mejor manera de abordar esto es utilizar el estándar ISO 8601 para especificar la fecha y la hora dentro de su aplicación. Esta es una forma estándar de representar la fecha y la hora en el formato AAAA-MM-DDTHH:MM:SS[±HH:MM], donde..
YYYY- represents year
MM- represents month
DD - represents day
T signifies that Time follows this
HH- represents hours
MM- represents minutes
SS- represents seconds.
Luego, puede utilizar StyleVision para crear una hoja de estilos que formatee la fecha de una manera adecuada para su público objetivo. StyleVision es una herramienta gráfica de diseño de hojas de estilos que permite diseñar hojas de estilos XSLT y XSL:FO mediante la función de arrastrar y soltar, para renderizar datos XML en formatos HTML, Microsoft Word, PDF y otros. Para utilizar la función de formato de fecha dentro de StyleVision:
- Seleccione el marcador de posición del contenido o el campo de entrada del nodo.
- En la barra lateral de propiedades, seleccione el elemento de contenido y, a continuación, el grupo de propiedades "Contenido".
- Haga clic en el botón "Editar" de la propiedad "Formato de entrada".
- Aparecerá el cuadro de diálogo de formato de entrada:
![]()
- Seleccione el botón de opción "Formateado". Esto le permitirá elegir el tipo de dato que desea utilizar, y si ha seleccionado una fecha, podrá elegir el formato de la misma.
También puede seleccionar otros formatos de fecha y hora aquí. Le recomiendo encarecidamente que utilice el selector de fechas. Para insertar el selector de fechas, el cursor debe estar entre un nodo xs:date o xs:dateTime. Luego, vaya a "Insertar" en el menú principal y seleccione "Insertar selector de fechas". Si el cursor no está entre un nodo xs:date o xs:dateTime, la opción "Insertar selector de fechas" aparecerá desactivada (en gris).
Números
Los decimales pueden estar precedidos por un punto o una coma, dependiendo de la configuración regional. También existen diferencias en la forma en que se representan los miles. StyleVision ofrece funciones que le permiten formatear un número para su público objetivo:
- Seleccione el marcador de posición del contenido o el campo de entrada del nodo.
- En la barra lateral de propiedades, seleccione el elemento de contenido y, a continuación, el grupo de propiedades "Contenido".
- Haga clic en el botón "Editar" de la propiedad "Formato de entrada".
- Aparecerá el cuadro de diálogo de formato de entrada
![]()
- Seleccione el botón de opción "Formateado". Esto le permitirá elegir el formato de los números.
Dinero
Los problemas relacionados con los números también se aplican al dinero, pero, además de esto, existen diferentes convenciones para representar el símbolo de la moneda. Algunas monedas comparten el mismo nombre y símbolo, como el dólar, pero el dólar australiano, el canadiense y el singapurense no son la misma moneda, y esto debe ser identificable. Se pueden tratar los números como se muestra anteriormente, pero la cuestión de si el nombre de la moneda o el símbolo deben aparecer antes o después del número probablemente se resolverá como parte del proceso de traducción.
Dirección
Uno de los problemas que enfrentan los clientes al comprar a una empresa extranjera a través de internet es que el sistema no les permite ingresar su dirección correctamente. Existen muchas diferencias, como la ubicación del número de la casa (antes o después del nombre de la calle), el orden en que se presentan los componentes de la dirección y el formato del código postal. CEN (la institución europea de normas) ha desarrollado una norma que enumera los componentes de una dirección, y la UPU (Unión Postal Universal) está desarrollando aún más esta norma para crear una lista exhaustiva de elementos de nombre y dirección. Recomiendo que se asegure de obtener los datos necesarios para sus principales mercados objetivo, pero también que se asegure de que alguien de otro país pueda ingresar su dirección. Se podría utilizar una lista desplegable de países para garantizar que se realice una verificación de errores cuando se conocen ciertos componentes de una dirección, pero que no se produzca un error para otros países donde no se conoce la estructura de la dirección.
Tarjetas de crédito
Algunos sitios web con sede en Estados Unidos no aceptan tarjetas de crédito emitidas desde fuera del país. Como medida de seguridad, exigen una dirección válida en Estados Unidos. Si desea aceptar pagos con tarjeta de crédito y realizar negocios con personas de otros países, debe verificar que se acepten tarjetas de crédito extranjeras.
RTL (bidireccional)
En muchos idiomas, el texto se lee de izquierda a derecha, pero esto no es universal. El árabe y el hebreo se escriben de derecha a izquierda. En los documentos XML, esto genera aún más confusión, ya que los elementos XML se leen de izquierda a derecha, pero cualquier texto debe leerse de derecha a izquierda. El espacio de nombres ITS tiene un atributo de "dirección" que se puede utilizar para identificar la dirección en la que se debe leer el texto. <its:span dir="rtl">¡La emoción de la pesca!</its:span>
Clasificación
Existen diferencias en la forma en que se ordenan los alfabetos. Algunos idiomas escandinavos tienen un carácter "aa" que, generalmente, pero no siempre, se ordena al final del alfabeto. Si ha configurado el idioma en su documento XML y utiliza xsl:sort en su documento XSL, la ordenación debería funcionar de acuerdo con las reglas de ordenación de ese idioma. Sin embargo, debe verificar que su procesador lo haga, ya que no siempre es así. Los archivos de ejemplo que se incluyen con StyleVision contienen ejemplos de ordenación. Seleccione "Ejemplos de StyleVision", luego la carpeta "tutorial", luego "ordenación" y abra el archivo "SortingOnTwoTextKeys.sps". Para ver cómo funciona la ordenación, vaya a la vista de diseño y haga clic derecho en el elemento miembro. Luego, seleccione la opción "ordenar por" en el menú contextual. Aquí puede controlar cómo funciona la ordenación para esta lista en particular.
Signos de exclamación e interrogación
En inglés, los signos de interrogación y exclamación siempre se colocan al final de la oración, mientras que en español, esta puntuación puede aparecer tanto al principio como al final de una oración. Este es un aspecto que generalmente se corrige durante el proceso de traducción.
Conclusiones
La internacionalización es un paso fundamental para garantizar que su aplicación llegue al público más amplio posible, y que la traducción sea lo más económica y sencilla posible. Su enfoque hacia esto debe ser muy práctico. El tiempo invertido inicialmente en la planificación de la internacionalización generará grandes beneficios a lo largo de todo el proceso y aumentará significativamente el potencial de marketing de su producto. El propósito de este artículo es presentar una visión general e introducirle al concepto de internacionalización. Hay mucha más información útil disponible en las referencias que se mencionan a continuación.
Herramientas como XMLSpy y StyleVision, que ambas se incluyen en el conjunto de software Altova MissionKit, facilitan enormemente el proceso de internacionalización de documentos XML al proporcionar una amplia gama de funciones integradas para este propósito. El conjunto de etiquetas de internacionalización (Internationalization Tag Set) de W3C es una innovación muy importante que representa una valiosa adición al conjunto de herramientas disponibles para un desarrollador que desea crear aplicaciones XML internacionalizadas. XML es una tecnología que, desde sus inicios, ha tenido en cuenta la internacionalización y la traducción. El uso de Unicode como codificación predeterminada para XML es muy significativo y facilita considerablemente la resolución de cualquier problema de internacionalización que pueda surgir. Las funcionalidades disponibles en Altova MissionKit, ITS y Unicode son la base para crear aplicaciones bien internacionalizadas.
Referencias A continuación, se presenta una lista de sitios web y otros recursos útiles que proporcionan información adicional sobre la internacionalización: Altova, proveedor líder de herramientas XML: https://www.altova.com/. También ofrecen una versión de prueba gratuita de MissionKit: https://www.altova.com/download.
Sitio web de Unicode: http://www.unicode.org/
Conjunto de etiquetas de internacionalización http://www.w3.org/TR/2007/REC-its-20070403/
Mejores prácticas del W3C para la internacionalización http://www.w3.org/TR/2007/WD-xml-i18n-bp-20070427/
Open Tag (de Yves Savourel): http://www.opentag.com/
Yves Savourel, "Internacionalización y localización de XML", un libro que es una excelente fuente de información. Se puede encontrar más información en: http://www.opentag.com/xmli18nbook.htm
El sitio web de investigación y recursos TM-Global publica numerosos artículos, opiniones y encuestas útiles sobre traducción, localización y estándares de la industria. http://www.tm-global.com/
Sitios web de Tex Texin, experto en internacionalización: http://www.xencraft.com/ y http://www.i18nguy.com/
Flujo de localización – sitio web de expertos en internacionalización. http://www.locflowtech.com/
Herramientas de traducción y sistemas de traducción automática (TTA) basados en XML, que ofrecen una buena relación calidad-precio, están disponibles a través de empresas como Kilgray Translation Technologies http://www.kilgray.com/