Está en la página 1de 30

Empobrecimiento léxico en

la traducción automática
neuronal
Nombre: Miriam Espinosa Giménez

Línea de investigación: Tecnologías de la traducción

Tutor: Mikel L. Forcada Zubizarreta

Fecha: 05/06/2023

Trabajo de

Fin de Grado de

Traducción e Interpretación
A mi familia, y en especial a mi padre, por apoyarme en cada paso de mi camino

2
Empobrecimiento léxico en la traducción automática neuronal

Miriam Espinosa Giménez

meg33@alu.ua.es

RESUMEN

La utilidad de los resultados de la traducción automática neuronal ha mejorado considerablemente. No


obstante, la mayoría de los sistemas de traducción no tienen en cuenta el contexto más allá de la
oración, por lo que puede disminuir dicha utilidad. Uno de los objetivos de este estudio es investigar
el empobrecimiento léxico que se produce tras la traducción automática. Para ello, a través de una
lista de 50 sustantivos en inglés, se comparan las estadísticas de aparición en el corpus de
entrenamiento de los diferentes equivalentes de traducción con las estadísticas de su aparición tras la
traducción automática. Además, 14 traductores profesionales completaron una encuesta diseñada para
determinar si la falta de contexto influye en dicho empobrecimiento. Los resultados muestran la
exacerbación de la predominancia del equivalente mayoritario, en detrimento de la distribución de la
probabilidad del resto de equivalentes, siendo la falta de contexto una causa de este empobrecimiento.

ABSTRACT

“Lexical impoverishment in neural machine translation”

The usefulness of neural machine translation results has improved considerably. However, most
translation systems do not take into account the context beyond each sentence, which can reduce the
usefulness of machine translation. One of the aims of this study is to investigate the lexical
impoverishment that occurs after machine translation. To this end, by means of a list of 50 English
nouns, the statistics of appearance of the different translation equivalents in the training corpus are
compared to the statistics of their appearance after machine translation. Furthermore, 14 translation
professionals completed a survey designed to determine whether the lack of context influences such
impoverishment. The results show the exacerbation of the predominance of the majoritarian
equivalent, to the detriment of the probability distribution of the rest of the equivalents, being the lack
of context one of the causes of this lexical impoverishment.

Palabras clave: Traducción automática. Empobrecimiento léxico. Equivalentes de traducción.


Contexto. Corpus de entrenamiento.

Keywords: Machine translation. Lexical impoverishment. Translation equivalent. Context. Training


corpus.

3
1. Introducción......................................................................................................................................... 5
1.1. Sistema de traducción automática neuronal............................................................................... 6
1.2. Empobrecimiento léxico...........................................................................................................10
2. Metodología....................................................................................................................................... 12
2.1. Elaboración de la lista...............................................................................................................12
2.2. Estadísticas de aparición equivalentes y traducción automática.............................................. 15
2.3. Evaluación humana...................................................................................................................17
3. Resultados.......................................................................................................................................... 19
3.1. Corpus de entrenamiento y traductor automático.....................................................................19
3.2. Evaluación humana...................................................................................................................21
4. Conclusiones...................................................................................................................................... 23
Bibliografía............................................................................................................................................ 25
ANEXO 1...............................................................................................................................................27
ANEXO 2...............................................................................................................................................29

4
1. Introducción
El uso de la traducción automática (TA) está cada vez más y más extendido, ya sea con fines de
diseminación o asimilación de información. El primer uso es aquel que espera que los resultados sean
correctos para su publicación, tal y como lo harían los traductores profesionales. Por su parte, la
asimilación de información se emplea para comprender un texto en otra lengua y no requiere de una
perfección gramatical ni estilística, y su uso es más común en el público general (cf. Forcada et al.
2016). La utilidad de los resultados producidos por estos sistemas ha aumentado enormemente en los
últimos años, por lo que su uso se ha convertido en una realidad más del mundo de la traducción
profesional. No obstante, el uso de este tipo de herramientas puede producir un empobrecimiento
léxico por la tendencia que tienen a seleccionar los equivalentes de traducción más probables. Algunos
estudios como el de Vanmassenhove et al. (2019) comparan la pérdida de diversidad léxica de estos
sistemas con la de la traducción humana profesional, en los que se demuestra de manera empírica que
los algoritmos tienden a la simplificación léxica. En este estudio, sin embargo, se profundizará sobre la
distribución de la probabilidad de cada equivalente posible.

Esto se ha llevado a cabo a través de un estudio estadístico del corpus de entrenamiento y la


consiguiente elaboración manual de una lista de los sustantivos más frecuentes en inglés susceptibles
de tener más de un equivalente en español. A partir de esta lista, se han obtenido las estadísticas que
comparan el número de apariciones de dichos equivalentes en el corpus de entrenamiento con las
estadísticas de su aparición al ejecutar el traductor automático. De esta manera, se pretende confirmar
la pérdida de riqueza de diferentes equivalentes en los sistemas de TA aun habiendo visto dichos
equivalentes en su previo entrenamiento. Finalmente, se llevará a cabo una evaluación humana por
traductores profesionales para comprobar si los sistemas de TA disponen del contexto suficiente para
elegir el equivalente correcto.

El presente trabajo de final de grado tiene como objetivo analizar el empobrecimiento léxico y la
exacerbación de la predominancia de los equivalentes mayoritarios en los sistemas de TA,
concretamente en el traductor inglés–español Helsinki-NLP/opus-mt-en-es1, disponible en
HuggingFace, cuyo corpus de entrenamiento de más de 150 000 000 oraciones2 fue publicado en julio
de 2020. Para ello, se estudiará el corpus de entrenamiento desde dentro, mediante una metodología
análoga a la de Ondoño-Soler y Forcada (2022). Se utilizará el corpus de entrenamiento como punto
de partida y parte fundamental del estudio, con el fin de comprender la situación real del corpus
utilizado para entrenar el sistema y para darle la máxima ventaja posible (cf. Ondoño-Soler y Forcada
2022). Los resultados se obtienen a partir de una lista elaborada manualmente que consta de los 50

1
https://huggingface.co/Helsinki-NLP/opus-mt-en-es
2
https://object.pouta.csc.fi/Tatoeba-Challenge-v2020-07-28/eng-spa.tar

5
sustantivos ambiguos en inglés más frecuentes y sus correspondientes equivalentes en español, para
los que se compara la aparición de los diferentes equivalentes en el corpus y en el proceso de
traducción automática.

Por otro lado, es importante destacar que este trabajo no cuestiona la calidad de las traducciones
del corpus ni las generadas por el sistema de traducción, sino que se enfoca exclusivamente en
observar las diversas traducciones de los sustantivos seleccionados.

Por tanto, teniendo en cuenta todo lo mencionado anteriormente, el siguiente estudio parte de 2
hipótesis diferentes a comprobar a lo largo del trabajo:

● Hipótesis 1 (H1): Los sistemas de traducción automática tienden a la exacerbación de la


predominancia de los equivalentes más comunes, incluso si han sido entrenados con otras
opciones en el corpus de entrenamiento. De esta manera, se produce lo que podría
considerarse como una pérdida de la riqueza de la distribución de probabilidad de los
diferentes equivalentes. Esto podría darse por diferentes razones, ya sea por la falta de
contexto en el segmento a traducir, que hace que el sistema tienda a elegir el equivalente más
común para minimizar el error, o porque el sistema no es capaz de utilizar ciertas pistas que
indican que un equivalente concreto es el adecuado en ese contexto.
● Hipótesis 2 (H2): Los sistemas de TA se entrenan a partir de frases sueltas, por lo que en
muchas ocasiones no disponen de contexto suficiente más allá que el de la oración en sí. Esto
puede provocar que a la hora de traducir, el sistema no tenga la capacidad de elegir otro
equivalente, incluso aunque lo haya visto en su entrenamiento. Para demostrar esta hipótesis,
se llevará a cabo una evaluación humana por traductores profesionales en la que se
comprobará si el contexto disponible era suficiente para elegir el equivalente adecuado.

1.1. Sistema de traducción automática neuronal

Para empezar, es necesario saber qué es la traducción automática neuronal y cómo funcionan estos
sistemas de una manera general. Es importante tener en cuenta que existen diferentes tipos de
traducción automática, que se dividen en dos grupos principales: los basados en reglas y los basados
en corpus. Dentro de este último grupo se encuentran la traducción automática estadística, que fue la
aproximación más utilizada hasta 2015, y la traducción automática neuronal, que es la aproximación
que se utiliza en la actualidad y la que se abordará en detalle, puesto que el traductor
Helsinki-NLP/opus-mt-en-es que se estudia en este trabajo es un sistema de TA neuronal.

Los sistemas de traducción automática basados en corpus, como la traducción automática neuronal,
cuentan con corpus de entrenamiento compuestos de cientos de miles o incluso millones de textos en
lengua origen y su correspondiente traducción en lengua meta (cf. Forcada 2017). Estos textos se

6
presentan en forma de segmentos (oraciones o trozos de oraciones) que se alinean con sus respectivas
traducciones, formando así los pares de segmentos que posteriormente se utilizarán para entrenar el
sistema. No obstante, debido a las dimensiones de estos corpus, no siempre se revisan, por lo que en
algunas ocasiones estos pares de segmentos no se corresponden entre sí por diferentes problemas de
segmentación o alineación.

Estos sistemas de TA reciben el nombre de neuronales porque están compuestos por redes
neuronales artificiales que, a su vez, están integradas por miles de neuronas artificiales interconectadas
que simulan el comportamiento de las neuronas humanas. De acuerdo con Sánchez-Martínez et al.
(2023), la activación (excitación o inhibición) de estas neuronas depende de los estímulos que reciben
de las otras neuronas, estos estímulos son el resultado de la activación multiplicada por el peso de la
conexión. A lo largo del proceso de entrenamiento, se van ajustando los pesos de manera reiterada
hasta alcanzar la probabilidad de la traducción deseada.

Estas redes están compuestas a su vez por diversas capas de neuronas, y cuando se emplean para un
uso lingüístico, como puede ser la traducción automática, la capa de entrada, recibe los datos iniciales
de la palabra en la lengua origen y le asigna un número (su posición en el vocabulario), que se usará
para decidir qué señal de entrada es 1; el resto son 0. Por su lado, la capa de salida, que proporciona el
resultado final como una probabilidad, es decir, la activación de la neurona de salida número X está
directamente relacionada con la probabilidad de la palabra número X del vocabulario de salida (cf.
Sánchez-Martínez et al. 2023). Además, entre estas dos se encuentran las capas intermedias, también
conocidas como capas ocultas o hidden layers, que son las responsables de determinar la fuerza de las
conexiones entre las neuronas. Estas capas ocultas son fundamentales para el proceso de aprendizaje
de la red neuronal. Estos sistemas suelen incluir varias capas ocultas; por ello, se denominan sistemas
de aprendizaje profundo o deep learning (cf. Pérez-Ortiz et al. 2022: 145-147).

Cuadro 1. Una red neuronal con la capa de entrada, tres capas ocultas y la capa de salida (cf.
Sánchez-Martínez et al. 2023).

7
El corpus de entrenamiento es un recurso fundamental para el desarrollo de estos sistemas, y su
utilidad depende en gran parte de la existencia de material en cada par de lenguas, que no siempre es
suficiente. De la misma manera, el entrenamiento de los sistemas de TA neuronal es un proceso clave,
ya que determinará la calidad de los resultados obtenidos. Para este se emplean tres corpus disjuntos
con textos diferentes: el corpus de entrenamiento, el conjunto de validación y el conjunto de prueba.
De acuerdo con Forcada (2019), estos son los tres corpus diferentes:

1. El corpus de entrenamiento, que está compuesto por millones de pares de segmentos y que se
le muestra repetidamente al sistema para entrenar su algoritmo, ajustando los pesos y las
conexiones de las redes neuronales para maximizar de esta manera la probabilidad.

2. Al mismo tiempo que se van ajustando los pesos en el corpus de entrenamiento, se utiliza de
manera repetida un conjunto de datos de validación de entre 1 000 y 3 000 pares
representativos del corpus para evaluar los resultados producidos y determinar de esta manera
cuándo parar de entrenar el sistema. Se considera que el entrenamiento debe terminar cuando
el sistema ha aprendido a generalizar, y no a aprenderse el corpus de memoria. Para ello, se
emplean diferentes métricas de evaluación automática, como puede ser BLEU (cf. Papineni et
al. 2002), que compara la traducción producida por el sistema con la traducción de referencia,
y calcula una puntuación entre 0 y 100  %. Si el porcentaje de coincidencias decrece, el
entrenamiento se detiene, para evitar el sobreajuste.

3. Por último, se emplea un conjunto de datos de prueba compuesto por entre 1 000 y 3 000 pares
de oraciones representativas, que no se han visto anteriormente. Esta es la última fase y se
realiza una vez ha finalizado el entrenamiento para evaluar el rendimiento del sistema.

En la actualidad, existen tres tipos de arquitecturas principales en lo que a la traducción automática


neuronal concierne, las redes neuronales recurrentes (RNN), las redes neuronales convolucionales y la
transformer, que es modelo predominante en la actualidad y el que se emplea en el traductor de este
estudio, Helsinki-NLP/opus-mt-en-es. Esta arquitectura fue presentada por Vaswani et al.
(2017) y se basa en un mecanismo de atención que permite a la red centrarse en las partes relevantes
de la entrada para producir una salida. Este sistema también está compuesto por dos módulos
principales, el codificador y el decodificador. El codificador procesa la entrada del texto origen y la
convierte en una representación vectorial que el decodificador emplea para generar el texto
correspondiente en lengua meta mediante la predicción de palabras, teniendo en cuenta las
representaciones de cada una de las palabras en lengua origen y las palabras que ya se han producido
en lengua meta (cf. Pérez-Ortiz et al. 2022: 156-158).

8
Cuadro 2. Proceso de traducción de los sistemas de traducción automática neuronal mediante la predicción
de palabras (cf. Sánchez-Martínez et al. 2023).

Para entender mejor cómo funcionan los transformer, se puede observar el cuadro 2, en el que se
presenta la frase Fortes fortuna iuvat. en latín y se traduce al catalán. El sistema ya ha producido la
traducción de La sort afavoreix els. Por lo tanto, si se tiene en cuenta la frase de entrada y las palabras
producidas en lengua meta, el sistema debería asignar la probabilidad máxima a la palabra forts.

Como resultado del entrenamiento, cada palabra posee una representación en forma de vector
numérico, cuyos componentes vienen dados por los valores de activación que se le asocian a cada una
de las neuronas de la capa. Estas representaciones numéricas de cada palabra (o fragmento de palabra)
son lo que en inglés se conoce como word embedding (cf. Pérez-Ortiz et al. 2022: 152). Normalmente,
las capas están compuestas por 512 neuronas, y cada una de ellas representa una dimensión y una
característica semántica o sintáctica de la palabra. Para entenderlo mejor, se puede observar el cuadro
3, en el que se ilustran las representaciones realizadas con 3 neuronas, es decir, 3 dimensiones. Se
puede observar que aquellas palabras o conceptos que están relacionados entre sí o pertenecen a la
misma familia están situados cerca, por lo que tienden a encontrarse, como los colores o los países. Al
contrario, aquellos conceptos que no tienen nada que ver estarán situados más lejos (cf. Forcada 2017).

9
Cuadro 2. Representación de tres neuronas para entender el funcionamiento de las representaciones
vectoriales (cf. Sánchez-Martínez et al. 2023).

Gracias a estas representaciones vectoriales se puede producir lo que Forcada (2017)


denomina aritmética semántica, es decir, operaciones matemáticas entre los valores de activación de
cada neurona. Por ejemplo, [rey] − [hombre] + [mujer] = [reina], donde a la representación vectorial
de la palabra “rey” se le resta el valor de “hombre” y se le suma el valor de “mujer” y el resultado es
un vector similar al de “reina” (cf. Pérez-Ortiz et al. 2022: 152).

1.2. Empobrecimiento léxico

Una vez explicados los sistemas traducción automática neuronal y su funcionamiento, se explicará el
denominado empobrecimiento léxico que se produce en estos sistemas. Este fenómeno se podría
definir como la pérdida de la riqueza de la distribución de probabilidad de los diferentes equivalentes
de traducción, es decir, una distribución se considera rica cuanto más repartida está la probabilidad
entre las diferentes opciones. Esto produce una exacerbación de la predominancia del equivalente
mayoritario y una disminución de aparición de aquellos otros con un porcentaje menor.

Por otro lado, no hay que olvidar el funcionamiento de los sistemas de TA, que como ya se ha
explicado anteriormente, tienden a elegir el equivalente con una mayor probabilidad. Por esta razón,
en muchas ocasiones escoge el más común, sin tener en cuenta otras alternativas que podrían ser
igualmente válidas o incluso más precisas en ciertos contextos, lo que provoca de esta manera el
denominado empobrecimiento léxico. Asimismo, este tipo de problemas suelen ser más evidentes
cuando se presentan oraciones sueltas y sin contexto, para las que el sistema no tiene otra opción que

10
elegir el equivalente con mayor probabilidad. Otro posible caso es que la oración sí que tenga contexto
y pistas que indiquen que un equivalente concreto es la opción más adecuada y que el sistema no sea
capaz de sacar provecho de esos indicadores y siga eligiendo el equivalente predominante. De esta
manera, se demuestra la tendencia de los sistemas de TA a la sobregeneralización, lo que provoca
incluso la desaparición de algunos equivalentes menos frecuentes. Por tanto, esta tendencia a la
exacerbación de la predominancia de los equivalentes más probables y la consiguiente pérdida de
diversidad podría ser la causa subyacente de otros problemas más debatidos como la exacerbación de
los sesgos de género en TA, tal y como se demuestra en el estudio de Ondoño-Soler y Forcada (2022).

El concepto del empobrecimiento léxico se podría confundir con la pérdida de diversidad léxica en
tanto que se produce una pérdida de variedad y riqueza de vocabulario en la traducción de un texto. No
obstante, es importante tener en cuenta que se tratan de dos conceptos diferentes, ya que la pérdida de
diversidad léxica hace referencia a la cantidad total de palabras diferentes, es decir, al tamaño del
vocabulario que aparece en un texto, tal y como se estudia en el artículo de Vanmassenhove et al.
(2019) o el de Toral (2019). De otra manera, en el presente estudio se analiza de manera individual la
aparición en el corpus de entrenamiento y en la TA de cada posible equivalente de traducción de los 50
sustantivos ambiguos más frecuentes.

Durante los últimos años, la investigación y los avances en la traducción automática se han
enfocado principalmente en la obtención de mejores resultados, sin hacer un énfasis especial en la
riqueza léxica; esta puede ser la causa de un problema de los sistemas actuales, tal y como se estudia
en el artículo de Vanmassenhove et al. (2019). Sin embargo, en ese estudio se cuantifica de manera
empírica la pérdida de diversidad léxica en diferentes sistemas de traducción automática en
comparación con la traducción humana, utilizando como medidor la cantidad total de palabras
diferentes y no tanto la riqueza de la distribución de su aparición.

11
2. Metodología
La metodología empleada para llevar a cabo este trabajo es análoga a la usada por Ondoño-Soler y
Forcada (2022). En primer lugar, para comprobar si existe un empobrecimiento léxico, se elaboró una
lista de 50 sustantivos extraídos del corpus de entrenamiento en inglés que no pertenecen a otra familia
gramatical, con sus respectivos equivalentes en español (2.1.). Sin embargo, para llegar a la
elaboración de esta lista definitiva, se ha tenido que refinar en numerosas ocasiones los criterios de
búsqueda, es por ello que este fue sin lugar a duda el proceso más laborioso del trabajo. Además, no se
puede garantizar que se hayan contemplado todos los equivalentes existentes, sino únicamente
aquellos que se han considerado. Seguidamente, se obtuvieron las estadísticas de aparición de cada
equivalente en el corpus. Se tradujeron las oraciones del texto en lengua origen con el sistema de
traducción automática, para obtener de esta manera unas estadísticas de aparición de los equivalentes
(2.2.); también se compararon estas estadísticas entre ellas para determinar si se produce el
denominado empobrecimiento léxico mencionado en la hipótesis H1. Por último, se llevó a cabo una
evaluación humana realizada por profesionales de la traducción para comprobar la hipótesis H2. Para
ello, se eligieron las primeras 10 frases de cuatro sustantivos diferentes en inglés y se presentó una
traducción en español diferente a la escogida por el sistema para que juzgaran su corrección (2.3.).

A continuación, se explicará en detalle el proceso de elaboración de la lista, el proceso de la


obtención de las estadísticas de aparición del corpus y de la traducción automática del sistema, así
como la metodología empleada para la evaluación humana.

2.1. Elaboración de la lista

Para comprobar el posible empobrecimiento léxico se examinó el problema desde dentro, es decir,
desde el corpus de más de 150 000 000 oraciones a partir del que se ha entrenado el sistema de
traducción automática inglés-español Helsinki-NLP/opus-mt-en-es, que se encuentra disponible
en HuggingFace de forma gratuita.

Para empezar, se instaló tanto PuTTY como SmarTTY en el ordenador personal para poder acceder
desde el sistema operativo de Windows al servidor remoto con el que se ha trabajado. Se utiliza este
servidor remoto que cuenta con 128 GB de RAM y 32 procesadores porque el proceso sería mucho
más largo en un ordenador personal convencional, ya que no tiene la potencia ni el espacio necesario
para realizar todas las operaciones necesarias. Mi tutor se encargó de darme acceso a dicho servidor
remoto y a todos los recursos necesarios, como el sistema de traducción automática o su corpus de
entrenamiento.

Primero, para evitar las líneas demasiado largas, se filtró el corpus de entrenamiento para que los

12
segmentos no fueran de más de 1 500 caracteres3. A partir de ahí, se generó un documento de texto en
el que aparecían las 10 000 palabras más recurrentes del corpus junto con su número de apariciones.
Poco a poco y de manera manual, se seleccionaron los primeros 50 sustantivos que pudieran dar lugar
a más de una traducción posible en español, pero que a la vez no fueran palabras ambiguas en cuanto a
su categoría gramatical en inglés. Para ello, se utilizó el diccionario monolingüe de inglés Merriam
Webster4 y se descartaron todas aquellas palabras que no fueran únicamente sustantivos. No obstante,
había algunos casos en los que existía cierta ambigüedad, pero resultaba muy poco común, por lo que
se decidió hacer una doble comprobación en el diccionario monolingüe de Cambridge para descartar o
ratificar dicha ambigüedad.

Seguidamente, se buscaron posibles equivalentes al español de cada palabra inglesa a través del
diccionario bilingüe WordReference5, y se fue comprobando la presencia en el corpus de español de
cada posible traducción con una orden como esta:

paste <(zcat train.filtrd-1500char.src.gz) <(zcat


train.filtrd-1500char.trg.gz) | egrep
"[^[:alpha:]][Aa]reas?[^[:alpha:]].*$’\t’.*[^[:alpha:]][Ss]uperficies?[^[
:alpha:]]" | head -10

De acuerdo con el intérprete de órdenes bash del sistema GNU/Linux instalado en el servidor remoto,
a través de “paste” se consigue que se alineen el archivo comprimido “gz” del corpus de
entrenamiento filtrado con oraciones de menos de 1 500 caracteres en lengua origen (inglés)
“train.filtrd-1500char.src.gz”, junto con el archivo del corpus en la lengua meta (español)
“train.filtrd-1500char.trg.gz”. Por otro lado, la orden “egrep” filtra los archivos en busca
de la palabra area y su correspondiente traducción en español superficie. Para ello se hace uso de una
expresión regular, es decir, de una fórmula que permite determinar un patrón de búsqueda específico
que puede corresponder a más de una secuencia de caracteres. Las letras que se encuentran entre
corchetes (“[Aa]”) indican que se quiere encontrar la palabra con esa letra tanto en mayúsculas como
en minúsculas, por lo que todos los caracteres que se encuentran entre corchetes son las opciones que
pueden ir en ese lugar determinado. Asimismo, el signo “?”, indica que el carácter o grupo de
caracteres anteriores, en este caso la terminación de plural “s”, puede estar presente o no, es decir, la
palabra se puede encontrar tanto en singular como en plural. La orden “[^[:alpha:]].*” se emplea
para que después de dicha palabra haya un carácter que no (“^”) sea alfabético (“[:alpha:]”),
seguido de cualquier carácter (lo que se representa con “.”) repetido cero o más veces (“*”). Por su

3
El corpus filtrado se extrajo del estudio de Ondoño-Soler y Forcada. Esto se hizo porque había oraciones de más de 1 000
palabras por problemas de segmentación.
4
https://www.merriam-webster.com/
5
https://www.wordreference.com/

13
parte, “$’\t’” representa el tabulador generado por “paste”, que separa la oración original de la
traducción.6 Tras la orden “paste” y “egrep”, se encuentra lo que se llama una tubería (“|”), que lo
que hace es enviar la salida estándar de una orden hacia la entrada estándar de otra orden. En una
situación normal, la entrada estándar es el teclado y la salida estándar la pantalla. Por último, la orden
“head -10” únicamente muestra las 10 primeras oraciones que concuerdan con aquello que se ha
pedido que busque.

A partir de los primeros diez pares de segmentos se pudo comprobar cada uno de los posibles
equivalentes en español. No obstante, en algunos casos, como el del ejemplo, se encontraron lo que
denominamos interferencias, es decir, que aunque en algunos pares de segmentos aparecían ambas
palabras en las frases, sus traducciones no correspondían entre sí. Esto se puede observar claramente
con el ejemplo de aquí abajo, donde la palabra inglesa area, no es la razón por la que en la oración en
español aparece la palabra superficie, sino que lo que ocurre en realidad es que dentro de la frase
inglesa aparece también la palabra surface en otra parte y por ello aparece la traducción superficie. Por
lo tanto, surface sería una interferencia para el equivalente de traducción superficie.

EN: When a user wants to remove grout 42 from a confined space or in


areas close to the perpendicular junction between two surfaces 54a, 54b,
as illustrated in figure 22, the tool 10 can be pivoted so the secondary
cutting tip 30 of the second blade or edge 26 can be used without being
obstructed by the depth guide 22.

ES: Cuando un usuario desea eliminar mortero 42 de un espacio confinado o


en zonas proximas a la union perpendicular entre dos superficie 54a, 54b,
como se ilustra en la figura 22, la herramienta 10 puede ser hecha
pivotar de manera que la punta de corte secundaria 30 de la segunda
cuchilla o arista 26 se pueda usar sin que sea obstaculizada por la grna
de profundidad 22.

Para solventar este problema lo que se hizo fue comprobar uno por uno todos los posibles equivalentes
y leer con atención los primeros diez pares de segmentos en los que aparecían, comprobando que las
traducciones se correspondían entre sí. Asimismo, cuando se observaba alguna interferencia con otras
palabras, se anotaban en la lista como palabras tabú para eliminarlas en la siguiente fase.
Adicionalmente, mediante WordReference se hizo una traducción inversa al inglés de los equivalentes
en español, como superficie, para anotar todos aquellos equivalentes de traducción que no fueran area,
para anotarlos como posibles futuras interferencias, algunos ejemplos de estos pueden ser surface o

6
La expresión $’\t’ del intérprete bash permite introducir un tabulador en las expresiones regulares.

14
space.

Sin embargo, cabe recordar que todas las traducciones, como superficie, y las interferencias, como
surface, se han obtenido de manera manual, por lo que cabe la posibilidad de que existan otros
equivalentes posibles y que no se hayan contemplado, aunque se ha hecho todo lo posible por incluir
el máximo número posible. De igual manera, es importante reiterar que no se ha evaluado la calidad de
las traducciones encontradas; únicamente se tenía en cuenta que el sustantivo en inglés correspondiera
con la traducción deseada en español.

A continuación se puede observar un ejemplo del resultado final de la palabra en inglés area, que
tiene 8 equivalentes de traducción en español, y cada uno con sus respectivas interferencias. Este
formato se aplica a cada uno de los 50 sustantivos recogidos para el estudio.

1. [Aa]reas? (8)

1.1. [Áá]reas? (4): [Pp]arts?; [Zz]ones?; [Rr]egions?; [Ff]ields?

1.2. [Zz]onas? (5): [Zz]ones?; [Ss]phere(s)?; [Ss]pace(s)?;


[Dd]istricts?; [Cc]ountr(y|ies)

1.3. [Ss]uperficie(s)? (2): [Ss]urface(s)?; [Ss]pace(s)?

1.4. [Pp]artes? (4): [Pp]arts?; [Pp]ortions?; [Nn]otice(s)?;


[Rr]eport(s)?

1.5. [Rr]egi(ón|ones) (1): [Rr]egions?

1.6. [Cc]ampos? (7): [Ff]ields?; [Cc]ountr(y|ies);


[Cc]ountrysides?; [Ll]ands?; [Cc]ourses?; [Cc]amps?; [Pp]astures?

1.7. [Ss]ector(es)? (3): [Ss]ector(s)?; [Ss]egment(s)?;


[Ss]ection(s)?

1.8. [Tt]erritorio(s)? (1): [Tt]erritor(y|ies)

2.2. Estadísticas de aparición equivalentes y traducción automática

Una vez finalizada la lista con los 50 sustantivos más frecuentes del corpus de entrenamiento en inglés
con sus respectivas interferencias, se procedió a la obtención de las estadísticas de aparición de cada
uno de los posibles equivalentes en español. Para ello se empleó la siguiente orden, en la que se
delimitaba este problema y se eliminaban cada una de las posibles interferencias o palabras tabú:

15
word="[Aa]reas?"; avoid="([Ss]urfaces?|[Ss]paces?)";
esp="[Ss]uperficies?";
avoidtarget="([Áá]reas?|[Zz]onas?|[Pp]artes?|[Rr]egi(ón|ones)|[Cc]ampos?|
[Ss]ector(es)?|[Tt]erritorio(s)?|[Ee]spacios?|[Ee]sferas?)"; paste <(zcat
train.filtrd-1500char.src.gz) <(zcat train.filtrd-1500char.trg.gz) |
egrep "(^|[^[:alpha:]])"$word"([^[:alpha:]].*)?"$'\t' | egrep -v
"(^|[^[:alpha:]])"$word"[^[:alpha:]](.*[^[:alpha:]])?"$word"([^[:alpha:]]
.*)?"$'\t' | head -1000 | egrep
$'\t'"(.*[^[:alpha:]])?"$esp"([^[:alpha:]]|$)" | egrep -v
$'\t'"(.*[^[:alpha:]])?"$esp"[^[:alpha:]].*[^[:alpha:]]"$esp"([^[:alpha:]
]|$)" | egrep -v "(^|[^[:alpha:]])"$avoid"([^[:alpha:]].*)?"$'\t' | egrep
-v $'\t'"(.*[^[:alpha:]])?"$avoidtarget"([^[:alpha:]]|$)" | wc -l

Al principio de la orden, se establecen: la palabra a buscar del corpus en inglés “word”, las
interferencias para que no aparezcan “avoid”, la traducción al español “esp” que se quiere buscar y
el resto de las traducciones en español para que no aparezcan con “avoidtarget”. A continuación, a
través de “paste” se alinean los segmentos del texto origen y meta, para después filtrar con “egrep”
que aparezca la palabra en inglés (antes del tabulador), pero no aparezca en el texto más de una vez
(“egrep -v”). Después, “head” selecciona los primeros 1 000 segmentos, y se indica con otro
“egrep -v” que no deben aparecer las interferencias, en este caso surface y space. Por último, se
filtra de nuevo para que aparezca el equivalente en español que se quiere obtener (superficie), pero no
los otros (área, zona, parte, etc.). Finalmente, se cuenta su número de apariciones mediante “wc -l”.

Para no tener que comprobarlo manualmente uno a uno, mi tutor elaboró un programa con un
intérprete de órdenes, que a partir de una expresión regular como la desarrollada anteriormente,
obtenía de forma automática las estadísticas de aparición de cada equivalente en el corpus de
entrenamiento. Este programa se puede encontrar en GitLab7. El proceso se repitió en numerosas
ocasiones, ya que se iban localizando errores concretos en la lista o en la propia expresión regular.

Una vez obtenidas las estadísticas de aparición en el corpus, se ejecutó una orden similar a la
anterior para traducir las primeras 1 000 apariciones de cada palabra del texto en lengua origen con el
sistema de TA, para obtener de nuevo unas estadísticas de aparición de los resultados obtenidos al
emplear el traductor automático. Para comprobar la hipótesis H1, ambas cifras se comparan entre ellas
para analizar la distribución de la probabilidad de los equivalentes en ambas partes y observar qué ha
ocurrido en el proceso de traducción automática y si se ha producido un empobrecimiento léxico.

7
https://gitlab.com/mlforcada/diversity

16
2.3. Evaluación humana

Por último, se llevó a cabo una evaluación humana análoga a la realizada en el estudio de
Ondoño-Soler y Forcada (2022). Con esto se pretendía constatar la hipótesis H2, es decir, si realmente
ese empobrecimiento léxico y la exacerbación de la predominancia del equivalente mayoritario
proviene de la falta de contexto de las oraciones, ya que es probable que el sistema tienda a escoger el
equivalente mayoritario por una falta de contexto que indique que otra opción sería más adecuada.
Esto se puede deber también a que los sistemas de TA solo tienen en cuenta el contexto de la oración
en sí, y no del resto del texto, por lo que en la encuesta realizada se les aportaba el mismo contexto que
el que obtenía la TA.

En primera instancia, para elegir los sustantivos que se iban a estudiar en esta evaluación se empleó
la entropía como un indicador de la riqueza de la distribución de la probabilidad de los diferentes
equivalentes posibles; estos cálculos matemáticos los elaboró mi tutor. Cuanto más alto es el valor de
la entropía, mayor diversidad de aparición de los diferentes equivalentes hay. Cuando la entropía es
baja quiere decir que la mayoría de apariciones se concentran en un mismo equivalente. En este
trabajo se emplea una entropía relativa, resultado de dividir la entropía obtenida por la máxima
posible, expresada como un porcentaje. En el Anexo 1 se encuentra más información sobre la entropía
y cómo se calcula.

Para la evaluación humana, se escogieron 4 sustantivos con una entropía relativa de la distribución
de la probabilidad alta. Dos de ellos mantenían esta distribución tanto en el corpus como en la TA
(food y area) y otros dos cuyos porcentajes de distribución de la probabilidad disminuía
considerablemente tras el proceso de TA (role y car). Seguidamente, se obtuvieron las primeras 10
oraciones en las que aparecían dichos sustantivos. A partir de esta orden se obtienen las oraciones en
las que aparece el sustantivo en inglés “word” (food) una única vez en cada segmento alineado con
cada uno de los posibles equivalentes de traducción en español “esp” y evitando todas aquellas
interferencias que se pudieran producir “avoid”. Igualmente, en esta orden no se encuentra
“avoidtarget” porque no se busca un equivalente de traducción concreto, sino que se espera
obtener cierta variedad.

word="[Ff]oods?";
avoid="([Mm]eal(s)?|[Gg]rocer(y|ies)|[Ll]unch(es)?|[Ee]ating(s)?|[Dd]inne
rs?|[Ff]oodstuff(s)?|[Ff]uel(s)?|[Ee]dible(s)?|[Nn]ourishment(s)?|[Dd]iet
s?|[Ff]eeding(s)?|[Ss]uppl(y|ies))";
esp="([Cc]omida(s)?|[Aa]limento(s)?|[Cc]omestible(s)?|[Aa]limentaci(ón|on
es))"; paste <(zcat train.filtrd-1500char.src.gz) <(zcat

17
train.filtrd-1500char.trg.gz) | egrep
"(^|[^[:alpha:]])"$word"([^[:alpha:]].*)?"$'\t' | egrep -v
"(^|[^[:alpha:]])"$word"[^[:alpha:]](.*[^[:alpha:]])?"$word"([^[:alpha:]]
.*)?"$'\t' | egrep $'\t'"(.*[^[:alpha:]])?"$esp"([^[:alpha:]]|$)" | egrep
-v
$'\t'"(.*[^[:alpha:]])?"$esp"[^[:alpha:]].*[^[:alpha:]]"$esp"([^[:alpha:]
]|$)" | egrep -v "(^|[^[:alpha:]])"$avoid"([^[:alpha:]].*)?"$'\t' | head
-10

Teniendo en cuenta el equivalente escogido por el sistema, se procedió a cambiar dicho equivalente
por uno distinto. En el caso de que la traducción fuera del equivalente mayoritario, se cambió por el
segundo más frecuente, y en caso de que se tratara de un equivalente menos frecuente, se cambió por
el equivalente mayoritario. Es decir, en el caso concreto de food, cuando la traducción producida por el
sistema era comida (primer equivalente) se cambió por alimentos (segundo equivalente) y viceversa.

Por último, 14 profesionales de traducción (3 estudiantes y 11 graduados) valoraron si el


equivalente escogido para esa frase era correcta en al menos un contexto que pudieran imaginar, sin
tener en cuenta la calidad o la corrección de la traducción del resto de la oración. De esta manera, se
pretende comprobar que este intercambio de equivalentes es posible a causa de la falta de contexto en
la oración, y que, por tanto, los cambios en la distribución de la probabilidad de los equivalentes no
son causados tanto por el sistema de TA, sino por la falta de contexto en la oración de entrada.

A continuación, se puede observar un ejemplo extraído del cuestionario.

Analiza la siguiente traducción de food:

EN: Q: Do we always re- name foods whenever another country doesn't do what we went them to
do?

ES: P: ¿Siempre le cambiamos el nombre a los alimentos cuando otro país no hace lo que
queremos que haga?

La traducción al español de la frase en inglés contiene una traducción de la palabra food.


¿Consideras que esa traducción sería correcta en al menos un contexto que se te pueda ocurrir?

Sí, puedo imaginar al menos un contexto en el que esta traducción sería correcta.
No, no puedo imaginar un contexto en el que esta traducción sería correcta.
Es una pregunta difícil, no puedo decidirme.

18
3. Resultados
A continuación, se explicarán los resultados obtenidos en ambos procesos. En primer lugar, se
estudiarán algunos casos a destacar de las estadísticas de aparición de los equivalentes en el corpus de
entrenamiento y en la traducción automática. Seguidamente, se analizarán los resultados obtenidos en
la encuesta realizada a los profesionales de traducción.

Tal y como se planteaba en la hipótesis H1, los sistemas de traducción automática tienden a la
exacerbación de la predominancia del equivalente mayoritario, lo que provoca que la distribución de
la probabilidad del resto de equivalentes disminuya a costa de aumentar la del principal. No obstante,
esto no siempre es culpa del sistema, ya que como se planteaba en la hipótesis H2, este
empobrecimiento es posible que se produzca por una falta de contexto del segmento original.

3.1. Corpus de entrenamiento y traductor automático

Tal y como se ha mencionado anteriormente, se ha calculado la entropía relativa de la distribución


observada en los equivalentes de los sustantivos en inglés para emplearla como un indicador de la
distribución de la probabilidad de los diferentes equivalentes; la entropía se ha dividido por la entropía
que tendría un reparto equitativo de probabilidad, que sería la máxima. Así, un alto porcentaje de la
entropía implica que la aparición de los diferentes equivalentes está repartida de manera más
equitativa, es decir, si el porcentaje de la entropía fuera 100 % en un caso en el que existen 4
equivalentes diferentes en 1 000 oraciones, cada equivalente aparecería 250 veces.

En la tabla 1 se pueden observar algunos de los sustantivos utilizados en el estudio junto con la
entropía relativa de la distribución de sus equivalentes tanto en el corpus como en la traducción
automática, y la diferencia entre ellos; en el Anexo 2 se puede ver la tabla completa con los 50
sustantivos. Tal y como se establecía en la hipótesis H1, para el 90 % de los sustantivos estudiados, en
la TA se produce una distorsión de la distribución de la probabilidad en comparación con el corpus tal
que el número de apariciones de aquellos equivalentes que no son el principal disminuyen. Este
porcentaje se puede observar en la última columna, entre los que destacan especialmente sustantivos
como car o role, cuyo porcentaje de diferencia es muy elevado. En las últimas filas de la tabla
destacan en gris los únicos 3 sustantivos para los cuales el valor de la entropía relativa ha aumentado
en el proceso de la TA. Sin embargo, también hay algunos casos en los que la entropía es 0 % desde el
principio, como ocurre en reservation; esto es porque un único equivalente abarca todas las
apariciones, posiblemente porque no se consideraron todos los posibles equivalentes. De igual
manera, también se puede observar casos en los que había un porcentaje bajo de entropía y tras el
proceso de TA este se convierte en 0, como es el caso de woman, lo que provoca de esta manera un
empobrecimiento léxico total.

19
Inglés Entropía relativa corpus Entropía relativa TA Diferencia

Car 57,43 % 19,32 % -38,12 %

Location 58,56 % 25,05 % -33,51 %

Role 57,97 % 30,90 % -27,07 %

Datum 22,33 % 2,36 % -19,97 %

Solution 16,74 % 0,00 % -16,74 %

Committee 42,85 % 31,98 % -10,87 %

Area 49,43 % 43,16 % -6,26 %

Child 49,08 % 44,11 % -4,97 %

Woman 4,75 % 0,00 % -4,75 %

Food 62,32 % 59,40 % -2,92 %

Reservation 0,00 % 0,00 % 0,00 %

Action 19,61 % 19,88 % 0,26 %

Body 10,92 % 12,05 % 1,13 %

Treatment 18,32 % 21,13 % 2,82 %

Tabla 1. Comparación de la distribución de la probabilidad de los diferentes equivalentes en el corpus de


entrenamiento y en la traducción automática y la diferencia entre ambos.

Por otro lado, aunque con una envergadura menor, en la tabla 2 se puede ver que en algunos casos
estos equivalentes minoritarios pueden llegar a aumentar su frecuencia de aparición en el proceso de
TA. Un claro ejemplo podría ser el caso de area, cuyo equivalente principal en el corpus era área,
seguido de zona, y en el proceso de TA se invierten los papeles, imponiéndose zona como el
equivalente mayoritario. También puede darse el caso de que en otros equivalentes minoritarios
cambie la distribución de la probabilidad, como sucede con role, donde el segundo equivalente con
más apariciones en el corpus, rol, pasa a ser el tercero en la TA, superado por función. Algo similar
sucede con la palabra car, cuyo segundo equivalente con más apariciones en el corpus es auto, pero
tras el proceso de traducción automática, este disminuye su frecuencia. Esto puede deberse a que los
textos recogidos en el corpus pueden proceder de diferentes lugares de habla hispana, en los que dicho
equivalente se emplea con más frecuencia. Por otro lado, en la TA es posible que se tienda a la
estandarización de la lengua, mostrando una tendencia hacia la variante de España.

Inglés Español Total Corpus Traducción Automática

20
Nº Aparición Porcentaje Nº Aparición Porcentaje

Area Área 1000 397 56,07 % 373 45,54 %

Area Zona 1000 233 32,91 % 380 46,40 %

Area Superficie 1000 21 2,97 % 19 2,32 %

Area Parte 1000 13 1,84 % 0 0,00 %

Area Esfera 1000 15 2,12 % 38 4,64 %

Car Auto 1000 175 23,62 % 30 3,55 %

Car Vehículo 1000 63 8,50 % 25 2,96 %

Car Coche 1000 486 65,59 % 788 93,14 %

Role Rol 1000 123 15,75 % 43 4,70 %

Role Papel 1000 565 72,34 % 812 88,74 %

Role Función 1000 88 11,27 % 60 6,56 %

Tabla 2. Aparición de algunos de los diferentes equivalentes de traducción al español de las palabras en inglés
area, car y role.

3.2. Evaluación humana

En la tabla 3 se recogen los resultados obtenidos en la encuesta realizada a los 14 profesionales del
ámbito de la traducción, 11 graduados y 3 estudiantes de último año. En esta evaluación, se les
preguntaba si podían imaginar al menos un contexto posible en el que las 40 traducciones que se
habían cambiado por otro un equivalente en español distinto al que se presentaba en la oración
traducida por el sistema. En el apartado 2.3., se puede observar una muestra extraída del cuestionario.
Se pueden observar, para varios porcentajes de mayoría de los encuestados, en cuántas oraciones
consideraban que la traducción con el equivalente intercambiado era correcta. Además, se puede ver
el número de frases con sus porcentajes.

Porcentaje de traductores de Frases con cambio de equivalente adecuado en ese contexto


acuerdo

21
Número de frases Porcentaje de frases

50 % o más 22 55 %

75 % o más 14 35 %

90 % o más 4 10 %

100 % 1 2,5 %

Tabla 3. Resultados de la evaluación humana de un grupo de 14 profesionales de la traducción sobre la


adecuación de los equivalentes de traducción en ese contexto que se habían cambiado por otros equivalentes
diferentes al que proporcionaba la traducción automática.

Una mayoría absoluta (es decir, más del 50 %) de los profesionales encuestados están de acuerdo en
que más de la mitad (el 55 %) de las oraciones en las que el equivalente producido por la TA se había
intercambiado seguían siendo correctas. Si se exigen mayorías más cualificadas, se observa que un
75 % (tres cuartas partes) o más opinan que 14 de las 40 oraciones tienen sentido en al menos un
contexto imaginable; hay 4 oraciones en la que el 90 % (uno de cada diez) o más de los encuestados
están de acuerdo, y únicamente hay 1 traducción en la que los 14 profesionales consideran correcto el
cambio.

De esta manera, puede verse que mayorías muy sólidas de las personas encuestadas aceptan
cambios que solo serían aceptables si el contexto no obliga al equivalente observado en el corpus, lo
que claramente indica una presencia clara de la falta de contexto mencionada en la hipótesis H2.
Asimismo, se establece que estas oraciones no contienen el contexto suficiente como para establecer
que el equivalente escogido es el único posible, por lo que se podría haber escogido otro.

22
4. Conclusiones
A través del estudio de 50 sustantivos ambiguos en inglés en oraciones extraídas del corpus de
entrenamiento del sistema de TA Helsinki-NLP/opus-mt-en-es, se ha podido comprobar que se
produce un empobrecimiento léxico por el cambio de la distribución de la probabilidad de los
equivalentes, ya que en términos generales se exacerba la predominancia del equivalente mayoritario.
No obstante, esta tendencia de los sistemas de TA a la sobregeneralización se debe en gran parte a la
falta de contexto de los segmentos. Inicialmente, se plantearon dos hipótesis: H1, en la que se
planteaba que los sistemas de TA tienden a la simplificación léxica y a la exacerbación de la
predominancia de los equivalentes mayoritarios, lo que provoca, por tanto, un empobrecimiento
léxico, y H2, en la que se postulaba que esta tendencia a escoger el equivalente mayoritario se debe
principalmente a la falta de contexto. Los resultados han demostrado que la H1 se cumple tras el
proceso de TA, disminuyendo considerablemente la riqueza de la distribución léxica. Asimismo, tras
la evaluación humana se puede considerar que una de las causas de este empobrecimiento léxico es la
falta de contexto.

Con este estudio no se pretende motivar a los traductores profesionales a que no utilicen estos
sistemas, sino que deben tener en cuenta la tendencia de los traductores automáticos a la
simplificación y sobregeneralización léxica para de esta manera abordarlos en la consiguiente
postedición. Además, en estos procesos de TA se suele observar cierta tendencia a pegarse al texto
original8, ya que los sistemas de TA no poseen las herramientas necesarias como para darle la vuelta o
reorganizar las oraciones del texto original de la misma manera que lo haría un traductor profesional.

Por otro lado, es necesario tener en cuenta que este estudio se ha realizado en el marco de un
trabajo de final de grado, por lo que su alcance es preliminar. Además, se dan algunas limitaciones
que se podrían solventar en futuras investigaciones.

En primer lugar, la lista de sustantivos del análisis se escogió manualmente consultando


diccionarios; para futuros estudios se podría desarrollar un categorizador gramatical para ampliar de
esta manera el estudio a otras categorías como pueden ser los adjetivos o los verbos. Asimismo, una
muestra de los 50 sustantivos ambiguos más frecuentes nos aporta una idea general, pero sería
recomendable ampliar dicha lista para obtener resultados más representativos. Igualmente, es posible
que al haberlos seleccionado de manera manual, no se hayan considerado todos los equivalentes de
traducción y las interferencias existentes, es decir, aquellas palabras tabú que se interponen en el
estudio para analizar la elección del equivalente, ver apartado 2.1. A través de un estudio profundo de
lingüística de corpus, se podría buscar una manera más eficaz de localizar estos equivalentes e
interferencias. Por último, este estudio se limita a la combinación lingüística español–inglés del TA
8
Este fenómeno es lo que Toral (2019) denomina posteditese.

23
Helsinki-NLP/opus-mt-en-es, de manera que se podría emplear la metodología establecida para
el futuro estudio de otros pares de lenguas e incluso otros sistemas de traducción automática.

24
Bibliografía
Bahdanau, Dzmitry; Kyunghyun Cho & Yoshua Bengio. (2015) “Neural machine translation by
jointly learning to align and translate.” 3rd International Conference on Learning Representations.
Versión electrónica: <https://arxiv.org/pdf/1409.0473>

Forcada, Mikel L.; Felipe Sánchez-Martínez & Juan Antonio Pérez. (2016). Manual de informática y
de tecnologías para la traducción. Alicante: Universidad de Alicante. Versión electrónica:
<http://hdl.handle.net/10045/53085>

Forcada, Mikel L. (2017). “Making sense of neural machine translation.” Translation spaces 6:2, pp.
291–309. Versión electrónica: <https://www.dlsi.ua.es/~mlf/docum/forcada17j2.pdf>

Forcada, Mikel L. (2019) “Understanding neural machine translation” [diapositivas]. Departamento


de Lenguajes y Sistemas Informáticos, Universidad de Alicante. Versión electrónica:
<https://www.slideshare.net/mlforcada/cairo-2019seminar>

Forcada, Mikel L. (2023) “Traducció automàtica neural” [diapositivas]. Departamento de Lenguas y


Sistemas Informáticos, Universidad de Alicante. Versión electrónica:
<https://www.slideshare.net/mlforcada/softcatalapdf>

Ondoño-Soler, Nerea & Mikel L. Forcada. (2022) “The Exacerbation of (Grammatical) Gender
Stereotypes in English–Spanish Machine Translation.” Tradumática, 20, pp. 177–196. Versión
electrónica: <http://hdl.handle.net/10045/132000>

Papineni, Kishore; Salim Roukos; Todd Ward, & Wei-Jing Zhu. (2002) “BLEU: A Method for
Automatic Evaluation of Machine Translation.” Proceedings of the 40th Annual Meeting of the
Association for Computational Linguistics, pp. 311–318. Versión electrónica:
<https://www.aclweb.org/anthology/P02-1040.pdf>

Pérez-Ortiz, Juan Antonio; Mikel L. Forcada & Felipe Sánchez-Martínez. (2022) “How neural
machine translation works.” En: Kenny, Dorothy (ed.) 2022. Machine translation for everyone:
Empowering users in the age of artificial intelligence. Berlín: Language Science Press. pp.
141–164.

Sánchez-Martínez, Felipe; Mikel Forcada & Miquel Esplà-Gomis. (2023) “Tecnologies de la


Traducció: Tècniques de traducció automàtica” [diapositivas]. Departament de Llenguatges i
Sistemes Informàtics, Universitat d’Alacant.

Toral, Antonio. (2019) “Post-editese: an Exacerbated Translationese.” En: Forcada, Mikel; Andy Way;
Barry Haddow & Rico Sennrich (eds.) 2019. Proceedings of Machine Translation Summit XVII:

25
Research Track. Dublín: European Association for Machine Translation. pp. 273–281. Versión
electrónica: <https://aclanthology.org/W19-6627>

Vanmassenhove, Eva; Dimitar Shterionov & Andy Way. (2019) “Lost in Translation: Loss and Decay
of Linguistic Richness in Machine Translation.” Proceedings of Machine Translation Summit
XVII: Research Track, pp. 222–232. Versión electrónica: <https://aclanthology.org/W19-6622/>

Vaswani, Ashish; Noam Shazeer; Niki Parmar; Jakob Uszkoreit; Llion Jones; Aidan N. Gomez;
Łukasz Kaiser & Illia Polosukhin. (2017) “Attention is all you need.” Advances in Neural
Information Processing Systems 30, 5998–6008. Versión electrónica:
<https://papers.neurips.cc/paper/7181-attention-is-all-you-need.pdf>

26
ANEXO 1
En este anexo se explica en profundidad la entropía y la manera de calcularla.

La entropía es un número real positivo y, en este caso, indica la cantidad de información (en bits)
necesaria para saber, para un ejemplo, qué equivalente se ha producido. Imaginamos que una palabra
en inglés tiene N equivalentes en español.

(1) Si todos aparecen más o menos el mismo número a veces, la entropía E es máxima; la distribución
es completamente aleatoria, y el valor de E es, de hecho, un número real B tal que N=2B (2 elevado a
B), es decir, B es el logaritmo en base 2 de N. Por ejemplo, si hay N=4 equivalentes, se necesitan B=2
bits, porque 2²=4. Si hay N=8 equivalentes, son necesarios B=3 bits. Si hay N=7 equivalentes, también
serían necesarios 3 bits, porque B=2,807…, etc.

(2) Si siempre aparece solo un equivalente y el resto no aparecen en absoluto, la entropía E es cero (la
mínima posible). Esto es porque, sin ninguna información, se sabrá siempre que el equivalente será el
único posible.

Cualquier otra distribución de la frecuencia de los equivalentes entre estas dos dará un valor entre 0 y
B; cuanto más cerca de B, más diversa; cuanto más cerca de cero, menos rica, más previsible; cuanto
más cerca de B, más plana, más rica.

Como el número de equivalentes N puede variar de un sustantivo a otro, una manera de representar la
dispersión es dividir la entropía E entre la entropía máxima posible B y expresarlo como porcentaje
entre 0% [completamente previsible] y 100% [completamente imprevisible].

¿Cómo se calcula la entropía E?

Primero se tienen que convertir las frecuencias absolutas observadas para cada equivalente a
frecuencias relativas, dividiendo por el total. Por ejemplo, si hay 5 equivalentes y aparecen 123, 234,
345, 456 y 567 veces (frecuencias absolutas), el total son 1725.

Las frecuencias relativas son: 123/1725=0,0713 [7,13%], 234/1725=0,1357 [13,57%], 0,2, 0,2643, y
0,3287.

La fórmula de la entropía tiene un sumando para cada equivalente, y cada sumando es la frecuencia
relativa del equivalente multiplicada por el logaritmo en base 2 de esta misma frecuencia relativa.
Como el número sale negativo, se le cambia el signo.

En este caso, da 2,16 aproximadamente. El valor de B, el logaritmo en base 2 de 5, es 2,32


aproximadamente. Si dividimos el primero por el segundo, nos da una diversidad del 93%.

27
En cambio, si la distribución concentra la frecuencia en el primer equivalente, por ejemplo, {1600,
100, 10, 10, 5}, el resultado es una entropía de 0,449 bits, y una diversidad del 19%.

28
ANEXO 2
En el presente anexo se puede encontrar la entropía relativa de la distribución de probabilidad de los
equivalentes de los 50 sustantivos del estudio.

Entropía relativa en el Entropía relativa en la


Inglés corpus TA Diferencia

Information 14,20 % 0,00 % -14,20 %

Datum 22,33 % 2,36 % -19,97 %

Year 1,24 % 1,17 % -0,07 %

Day 13,15 % 6,30 % -6,85 %

Business 38,64 % 29,63 % -9,01 %

Flight 0,00 % 0,00 % 0,00 %

Development 14,24 % 11,04 % -3,20 %

Product 0,67 % 0,00 % -0,67 %

Child 49,08 % 44,11 % -4,97 %

Body 10,92 % 12,05 % 1,13 %

Health 11,60 % 2,71 % -8,89 %

Thing 6,97 % 4,84 % -2,12 %

Woman 4,75 % 0,00 % -4,75 %

Company 44,18 % 37,31 % -6,87 %

Example 3,49 % 0,00 % -3,49 %

Area 49,43 % 43,16 % -6,26 %

Country 5,91 % 2,96 % -2,95 %

Person 2,63 % 0,78 % -1,84 %

Car 57,43 % 19,32 % -38,12 %

Law 12,85 % 10,23 % -2,62 %

Security 2,53 % 2,41 % -0,12 %

Energy 3,30 % 0,00 % -3,30 %

Council 15,81 % 13,25 % -2,56 %

29
Invention 17,42 % 1,89 % -15,52 %

Food 62,32 % 59,40 % -2,92 %

Member 13,66 % 6,38 % -7,28 %

Nation 23,47 % 10,50 % -12,96 %

Committee 42,85 % 31,98 % -10,87 %

Treatment 18,32 % 21,13 % 2,82 %

Holiday 27,01 % 17,65 % -9,35 %

Production 12,93 % 0,87 % -12,07 %

Problem 2,53 % 0,00 % -2,53 %

Activity 0,65 % 0,00 % -0,65 %

Article 3,40 % 1,36 % -2,04 %

Application 10,36 % 7,87 % -2,50 %

User 2,40 % 2,36 % -0,03 %

President 3,89 % 0,81 % -3,09 %

Device 8,55 % 1,43 % -7,12 %

Management 31,86 % 18,66 % -13,20 %

Method 1,95 % 0,00 % -1,95 %

Reservation 0,00 % 0,00 % 0,00 %

Policy 9,37 % 7,02 % -2,35 %

Visitor 12,21 % 1,15 % -11,05 %

Confidence 3,05 % 0,00 % -3,05 %

Role 57,97 % 30,90 % -27,07 %

Location 58,56 % 25,05 % -33,51 %

Web 19,64 % 16,33 % -3,32 %

Hour 14,79 % 13,55 % -1,24 %

Action 19,61 % 19,88 % 0,26 %

Solution 16,74 % 0,00 % -16,74 %

30

También podría gustarte