Hit 4 Ta 2023

Tema 4
Traducir con la ayuda de un sistema de traducción automática
Traducción automática (TA; machine translation o MT en inglés): traducción realizada por

un sistema informático, habitualmente sin intervención humana.
Historia de la TA
Tras el final de la Segunda Guerra Mundial, coincidiendo con el auge de la informática, los
avances en criptografía y el preludio de la Guerra Fría, la TA empezó a considerarse una
necesidad real al tiempo que abordable, por lo que fue objeto de cuantiosas inversiones. En
aquella época, se creía que las dificultades de la TA serían superadas en tan solo cinco años.
Sin embargo, todavía actualmente la TA presenta grandes desafíos.
1946: Warren Weaver, en la Fundación Rockefeller, da a conocer la disciplina proponiendo

métodos para abordarla: técnicas criptográficas y estadísticas, formalización del lenguaje
humano.
1954: Primera demostración pública de un traductor automático en la Universidad de

Georgetown en colaboración con IBM. 49 oraciones ruso-inglés con un vocabulario de 250
palabras y 6 reglas gramaticales. El Ministerio de Defensa de EE. UU. dedica importantes
partidas presupuestarias a la investigación en TA.
1964: Se crea el comité ALPAC (Automatic Language Processing Advisory Committee) para
evaluar la situación de la TA. Las conclusiones son demoledoras y la inversión en EE. UU. se
reduce de forma drástica. Para obtener resultados equiparables a la traducción humana se
considera que el sistema debe ser alimentado con conocimiento semántico y pragmático.
Chomsky revoluciona el estudio de las lenguas con su Syntactic Structures.
1976: Tras el informe ALPAC, Europa y Canadá toman las riendas. Un grupo de
investigadores de la Universidad de Montreal crea el sistema METÉO, que traducía partes
meteorológicos del inglés al francés. Ese mismo año, la UE recurre a la TA para hacer frente
a la desbordante demanda de traducciones internas entre sus distintas sedes
administrativas. La Comisión compra las licencias para desarrollar Systran y adaptarlo a sus
necesidades. Poco después, la propia Comisión financia su propio proyecto: EUROTRA.
1991: El informe Danzin encargado por la UE hace que se cancele la financiación de

EUROTRA. En un contexto de declive generalizado, hacen su aparición en el mercado los
programas de traducción asistida.
2000: La traducción automática se convierte en un campo de investigación muy prolífico y

comienzan a surgir nuevas tecnologías, en especial la TA estadística. Proliferan los
traductores automáticos accesibles online de forma gratuita.
2016: La TA neuronal se convierte en el nuevo paradigma. Aumenta extraordinariamente

la calidad de las traducciones automáticas y su uso en entornos profesionales.
1
Tipos de TA
Es muy común categorizar los sistemas de TA en tres tipos distintos. Entre 1950 y 1990
predominaron los sistemas de TA basada en reglas, conocida en inglés como rule based
machine translation o RBMT. A partir de 1990, pero sobre todo a partir del año 2000,
dominaron los sistemas estadísticos, statistical machine translation o SMT. Y a partir del año
2016 se produjo un nuevo cambio de paradigma con los sistemas de TA neuronal, neural
machine translation o NMT. Puesto que estos últimos requieren ingentes cantidades de texto
para poder ser entrenados y tales recursos no existen todavía para la gran mayoría de
combinaciones lingüísticas posibles, la TA basada en reglas y sobre todo la estadística
siguen utilizándose hoy en día.
TA basada en reglas: El sistema analiza el léxico, la morfología, la sintaxis y otros aspectos

lingüísticos del texto original, crea una representación abstracta de su sentido y genera a
partir de ella el texto traducido. En otras palabras, los sistemas basados en reglas analizan
los textos usando los conocimientos de la lingüística: diccionarios y reglas de carácter
morfológico y sintáctico creados por humanos. El problema de estos sistemas es que su
mantenimiento y actualización resulta muy costoso y, además, debido a la ambigüedad de
la lengua, pueden generar problemas al traducir, por ejemplo, expresiones idiomáticas.
TA estadística: Estos sistemas de TA emplean grandes volúmenes de corpus bilingües de

textos paralelos como base para su funcionamiento. Se emplean modelos estadísticos para
analizar el corpus y generar las traducciones. Los sistemas de TA estadística relegan la
gramática y funcionan a partir de cálculos de frecuencias y probabilidades. Usan
traducciones previas para hacer algo parecido. En este ejemplo, se recogen algunas de las
opciones que maneja el sistema y se destacan las más probables:
María no dio una bofetada a la bruja verde
Mary not gave a slap to the witch green
did not a slap by green witch
no slap to the
did not give to
the
slap the witch
La ventaja de estos sistemas frente a los sistemas basados en reglas es su buen rendimiento
en cuanto a la elección del léxico, así como el poco esfuerzo humano que requieren para ser
entrenados de forma automática.
Sistemas de TA híbridos: Combinan los dos enfoques anteriores para aprovechar las
ventajas de ambos sistemas y minimizar los errores.
2
TA neuronal: Es el método que está en auge en la actualidad. Estos sistemas se crean a
partir del análisis de enormes corpus bilingües alineados. El resultado de tal análisis son
redes neuronales gigantescas, espacios con cientos de dimensiones en las que las palabras
están organizadas según sus afinidades y contienen ingentes cantidades de información
sobre cómo se relacionan con otras palabras en la cadena de texto y con las palabras de la
otra lengua. En la práctica, toda la información está representada en forma de números
indescifrables incluso para los creadores de los sistemas. Durante la traducción, a partir del
análisis del texto original, de toda la información almacenada en la red neuronal y del texto
traducido que se va generando, los sistemas van calculando una tras otra las palabras que
conformarán el texto traducido.
Procedimientos asociados a la TA
Los sistemas de TA no sustituyen la traducción humana, pero pueden acelerarla en ciertos
casos. Existen dos procedimientos para sacarle un mayor provecho al uso de TA: la
postedición (realizada sobre el resultado de la TA) y la preedición (realizada sobre el texto
origen).
Posedición: Corrección por parte de un humano de un texto traducido automáticamente.

Incluye la edición, modificación, corrección y/o simplemente la validación del texto
traducido. Se suele distinguir entre posedición completa, cuya finalidad es producir textos
de calidad publicable, y posedición ligera, la que se practica cuando lo más importante es
transferir correctamente los contenidos y no es necesario pulir todas las asperezas del texto
traducido. La práctica de la posedición ha crecido de forma extraordinaria en los últimos
años.
Preedición: Modificación de un texto original por parte de un humano con objeto de que
sea más fácil de interpretar y, por lo tanto, traducir, para un sistema de TA. El concepto de
preedición está íntimamente relacionado con los lenguajes controlados. Su práctica no está
muy extendida.
3
Actividad práctica 2: DeepL y Google Translate
Se valorará tanto el contenido como la redacción y presentación. En caso de que tu
profesor/a decida que esta actividad se puede hacer en grupo, todos los miembros del
mismo deben hacer la entrega en Prado.
1. Junto a este archivo has recibido dos archivos docx. Traduce los dos textos con los
sistemas de traducción automática de DeepL y Google Translate. El texto 1 al inglés o
francés y el texto 2 a tu lengua materna.
2. Reproduce en tu trabajo los textos en tres columnas usando páginas apaisadas:
originales a la izquierda, traducciones de DeepL en el centro, traducciones de Google
Translate a la derecha, tratando de alinear párrafos equivalentes e indicando
claramente el origen de los textos traducidos. A continuación, haz un breve análisis
comparativo de los resultados. ¿Qué diferencias hay? ¿Qué sistema obtiene mejores
resultados? ¿Por qué?
3. En los textos que ya has traducido con estos sistemas de TA o en otros textos distintos
trata de encontrar tipos de errores que se repiten. ¿Qué tres propuestas de mejora les
harías a los creadores de los programas? ¿Qué crees que deberían hacer para que los
sistemas de TA dejaran de cometer esos errores?
4. Haz una posedición ligera del mejor resultado del texto 1 copiando de nuevo la
traducción y activando el control de cambios. Haz los cambios necesarios para que la
traducción sea fiel y la gramática correcta, pero no introduzcas mejoras estilísticas.
Mientras poseditas, observa los errores que comete el sistema. Elabora una clasificación
con los más habituales y trata de explicar por qué el sistema comete ese tipo de errores.
5. Imagina que en tu empresa poseditas habitualmente textos traducidos
automáticamente. Como hay cosas que la TA hace mal sistemáticamente, podrías
ahorrar tiempo si se sistematizaran algunas correcciones usando la función de buscar y
reemplazar (por ejemplo, crear una macro que busque todas las comas situadas entre
dos números y las reemplace por puntos). Formula al menos tres reglas de este tipo de
posedición. Las reglas deben ser de carácter no léxico y no tienen que estar
necesariamente relacionadas con los cambios del ejercicio anterior. ¿Crees que puede
merecer la pena hacer un inventario de dicho tipo de reglas en una empresa que utilice
habitualmente este sistema de TA?
6. Escoge las cinco oraciones peor traducidas del texto 2, por Google Translate o DeepL, y
preedítalas de modo que los dos sistemas consigan traducirlas mejor. Para ello debes
usar un lenguaje que el sistema de TA "entienda" mejor, pero nunca debes cometer
errores gramaticales en la lengua origen. Usa una tabla de cuatro columnas en una
página apaisada para exponer el resultado (oración original, primera traducción,
oración original preeditada y segunda traducción).
7. Imagina que en tu empresa se utiliza a menudo la TA y se decide modificar los textos
originales para que el programa dé mejores resultados. Formula al menos cinco reglas
de preedición. Deben ser muy concretas y fáciles de aplicar (por ejemplo, en lugar de
usar palabras polisémicas como “capital”, usar palabras monosémicos como “dinero”).
¿Crees que puede merecer la pena hacer un inventario completo de dicho tipo de reglas?
4
Sobre marcas de párrafo y saltos de línea en archivos PDF y HTML
Si nos dedicamos a la traducción o edición de textos, es importante conocer los problemas

que nos pueden ocasionar las marcas de párrafo y los saltos de línea. Comencemos
definiéndolos:
Marca de párrafo es el espacio que creamos entre dos líneas de texto cuando pulsamos
INTRO. Normalmente la usamos al final de un párrafo. Si en Word pulsamos el botón Mostrar
todo (¶) para ver los símbolos de formato ocultos, el programa la representa con el signo
tipográfico ¶ (calderón). En el lenguaje html de las páginas web se usa la etiqueta de cierre
 (con su correspondiente etiqueta de apertura ).
Salto de línea es el espacio que creamos entre dos líneas de texto cuando pulsamos MAYÚS
+ INTRO. Solemos usarlo intencionadamente para escribir texto perteneciente a un mismo
párrafo en dos líneas distintas (por ejemplo, los versos de un poema). Si en Word pulsamos
el botón Mostrar todo (¶) para ver los símbolos de formato ocultos, el programa lo
representa con el signo . En el lenguaje html se usa la etiqueta .
Estos son los problemas más frecuentes que nos pueden ocasionar las marcas de párrafo y
los saltos de línea cuando traducimos o editamos textos:
1. Los creadores de páginas web con muchísima frecuencia utilizan saltos de línea ( )
en lugar de marcas de párrafo (…) para separar unos párrafos de otros. Como
los programas de traducción asistida y de alineación normalmente están configurados
para no interpretar el salto de línea como fin de segmento, esto suele generar algunos
problemas de segmentación cuando traducimos archivos html o archivos doc/rtf
copiados de internet (por ejemplo, los títulos, al no llevar punto final, aparecen unidos a
las oraciones que les suceden). Del mismo modo, un programa de traducción automática
puede interpretar que dos líneas seguidas separadas por un salto de línea forman parte
de la misma oración (siempre y cuando la primera línea no acabe en punto, claro) y
consecuentemente las traducirá peor que de costumbre.
2. En Word, cuando al final de un párrafo justificado introducimos un salto de línea en lugar
de una marca de párrafo (esto suele ocurrir cuando copiamos el texto de internet), se
genera este efecto tan antiestético.
3. Cuando copiamos texto de determinados archivos pdf y lo pegamos en Word,
automáticamente todos los finales de línea se convierten en marcas de párrafo (lo mismo
ocurre con algunos programas de conversión pdf > doc/rtf). Como los programas de
traducción asistida (al igual que los de alineación y los de traducción automática)
evidentemente interpretan la marca de párrafo como fin de segmento, esto genera
gravísimos problemas de segmentación, puesto que en esos casos los programas toman
medias oraciones como unidades de traducción, lo cual no tiene sentido alguno. He aquí
el resultado de copiar y pegar el texto de un pdf:
5
Artículo 6. Organización¶
Las modalidades del bachillerato serán las siguientes: Artes;¶
Ciencias y Tecnología; Humanidades y Ciencias Sociales. La modalidad¶
de Artes se organizará en dos vías, referidas, una de ellas a artes¶
plásticas, imagen y diseño, y la otra a artes escénicas, música y danza.¶
El bachillerato se organizará, en cada una de las modalidades,¶
en: materias comunes, materias de modalidad y materias optativas.¶
Conviene advertir que el hecho de que aparezcan o no los saltos de línea incorrectos
depende de cómo se haya generado el archivo pdf.
4. Es imposible editar adecuadamente un texto copiado de un archivo pdf si no se eliminan

antes las marcas de párrafo erróneas.
5. Cuando usamos la función Buscar y reemplazar no es lo mismo buscar una marca de
párrafo que buscar un salto de línea.
Consejos
1. Cuando copiemos y peguemos un texto de internet, buscar todos los saltos de línea y
reemplazarlos por marcas de párrafo (aunque puede haber ocasiones en que no convenga
hacerlo).
2. Cuando convirtamos un archivo pdf a doc/rtf o copiemos y peguemos el texto, reemplazar
las marcas de párrafo erróneas por espacios. En este caso no conviene usar la función
Reemplazar todos puesto que eliminaríamos también las marcas de párrafo correctas,
sino revisarlas de una en una. También es posible hacerlo de forma semiautomatizada.
3. Utilizar adecuadamente las marcas de párrafo y los saltos de línea cuando generemos
documentos.

Hit 4 Ta 2023

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Hit 4 Ta 2023

Cargado por

Copyright:

Formatos disponibles

Tema 4

Traducir con la ayuda de un sistema de traducción automática

Traducción automática (TA; machine translation o MT en inglés): traducción realizada por

1946: Warren Weaver, en la Fundación Rockefeller, da a conocer la disciplina proponiendo

1954: Primera demostración pública de un traductor automático en la Universidad de

1991: El informe Danzin encargado por la UE hace que se cancele la financiación de

2000: La traducción automática se convierte en un campo de investigación muy prolífico y

2016: La TA neuronal se convierte en el nuevo paradigma. Aumenta extraordinariamente

TA basada en reglas: El sistema analiza el léxico, la morfología, la sintaxis y otros aspectos

TA estadística: Estos sistemas de TA emplean grandes volúmenes de corpus bilingües de

María no dio una bofetada a la bruja verde

Mary not gave a slap to the witch green

did not a slap by green witch

did not give to

slap the witch

Posedición: Corrección por parte de un humano de un texto traducido automáticamente.

Si nos dedicamos a la traducción o edición de textos, es importante conocer los problemas

4. Es imposible editar adecuadamente un texto copiado de un archivo pdf si no se eliminan

También podría gustarte