Uso de Expresiones Regulares para La Postedi MartinezQuereda Perez Fuensanta

USO DE
EXPRESIONES
REGULARES PARA LA
POSTEDICIÓN DE LA
TRADUCCIÓN
AUTOMÁTICA
Nombre del alumno: Fuensanta Martínez-Quereda Pérez
Nombre del grado: Traducción e Interpretación
Línea de Investigación: Tecnologías de la Traducción
Tutor: Felipe Sánchez Martínez
Fecha: 28/07/2021
1
Índice de contenidos
Resumen ........................................................................................................................................ 3
Abstract ......................................................................................................................................... 3
Zusammenfassung ......................................................................................................................... 4
1. Introducción .......................................................................................................................... 4
2. Estado de la cuestión ............................................................................................................. 5
2.1. La postedición ............................................................................................................... 5
2.2. Proceso de postedición .................................................................................................. 8
3. Herramientas usadas en la postedición................................................................................ 11
3.1. Entornos de traducción ..................................................................................................... 12
3.2. Herramientas complementarias ........................................................................................ 13
4. Expresiones regulares .......................................................................................................... 14
4.1. Definición y usos.............................................................................................................. 14
4.2. Lenguajes de las expresiones regulares ............................................................................ 15
4.3. Sintaxis de las expresiones regulares ............................................................................... 15
5. Uso de expresiones regulares para la postedición ............................................................... 19
6. Desarrollo de expresiones regulares para la postedición alemán-español........................... 22
7. Conclusiones ....................................................................................................................... 25
8. Anexos................................................................................................................................. 26
8.1. Anexo 1 ....................................................................................................................... 26
8.2. Anexo 2 ....................................................................................................................... 31
9. Referencias bibliográficas ................................................................................................... 33
2
USO DE EXPRESIONES REGULARES PARA LA POSTEDICIÓN DE LA
TRADUCCIÓN AUTOMÁTICA
Fuensanta Martínez-Quereda Pérez
Fmp30@alu.ua.es
Resumen
Este trabajo tiene como objetivo estudiar las expresiones regulares y su uso en tareas de
postedición de la traducción automática. Las expresiones regulares consisten en una secuencia
de caracteres que conforman un patrón de búsqueda y pueden usarse para llevar a cabo
sustituciones de forma eficiente. Como parte del trabajo se ha llevado a cabo una revisión del
estado de la cuestión sobre técnicas y estrategias para la postedición de la traducción
automática y sobre el uso de expresiones regulares en otras tareas relacionadas con la
traducción. Por último, se ilustra el uso de expresiones regulares para la postedición mediante el
desarrollo de expresiones regulares para la corrección de un texto traducido automáticamente.
Palabras clave: expresiones regulares, postedición, traducción automática
Abstract
The aim of this paper is to study regular expressions and their use in machine translation
post-editing tasks. Regular expressions consist of a sequence of characters that form a search
pattern and can be used to carry out substitutions efficiently. As part of the paper, a review of
techniques and strategies for machine translation post-editing and the use of regular
expressions in other translation-related tasks has been carried out. Finally, the use of regular
expressions for post-editing is illustrated by developing regular expressions for the correction of
a machine-translated text.
3
Keywords: regular expressions, post-editing, machine translation
Zusammenfassung
Das Ziel dieser Arbeit ist es, reguläre Ausdrücke und ihre Verwendung in der maschinellen
Nachbearbeitung von Übersetzungen zu untersuchen. Reguläre Ausdrücke bestehen aus einer
Folge von Zeichen, die ein Suchmuster bilden und zur effizienten Durchführung von
Ersetzungen verwendet werden können. Im Rahmen der Arbeit wurde ein Überblick über den
aktuellen Stand der Technik und Strategien für die Nachbearbeitung von maschinellen
Übersetzungen und die Verwendung von regulären Ausdrücken in anderen
übersetzungsbezogenen Aufgaben durchgeführt. Abschließend wird die Verwendung von
regulären Ausdrücken für die Nachbearbeitung anhand der Entwicklung von regulären
Ausdrücken für die Korrektur eines maschinell übersetzten Textes veranschaulicht.
Schüsselwörter: reguläre Ausdrïke, Nachbearbeitung, maschinelle Übersetzung
1. Introducción
La traducción se encuentra en evolución constante y, en los últimos años, el desarrollo de las
tecnologías, la globalización y la necesidad de traducir una mayor cantidad de contenido
destinado a su publicación, ha impulsado el desarrollo de las tecnologías de la traducción y en
especial de la traducción automática, es decir, aquella que lleva a cabo un ordenador sin la
intervención humana (Trados, 2021), dado que la traducción tradicional ya no era capaz
satisfacer la demanda (Casacuberta, 2009).
Gracias a este impresionante avance que ha experimentado la informática, la evolución de la
traducción automática ha ido de la mano con las metodologías de análisis de grandes volúmenes
de información, lo que ha permitido el desarrollo de enfoques basados en análisis estadísticos y
de redes neuronales (Tejeda Achondo, 2020). Esta combinación ha dado como resultado que las
traducciones resultantes de los sistemas que siguen este tipo de metodologías hayan mejorado
4
sensiblemente y por consiguiente la postedición haya cobrado a su vez una importancia mucho
mayor.
Para asegurar la calidad de las traducciones que resultan de dichos sistemas es necesaria la
intervención humana mediante la postedición (PE) de los textos, donde los posteditores
identifican y corrigen los errores de distinta naturaleza que han sido cometidos por el sistema de
traducción automática. Este proceso también puede ser llevado a cabo de forma semiautomática,
ya que existe la posibilidad de entrenar sistemas de traducción automática a partir de textos
traducidos automáticamente posteditados por profesionales (ISO, 2017).
Una de las herramientas más útiles que se pueden emplear durante el proceso de postedición son
las expresiones regulares, ya que, como veremos más adelante, son secuencias de caracteres que
nos permiten realizar búsquedas y reemplazos en un texto, tanto dentro de los entornos de
traducción, como en algunos editores de texto.
Al comienzo de este trabajo se llevará a cabo una revisión general de los trabajos previos,
técnicas y herramientas empleadas en la PE. A continuación, veremos más en detalle qué son las
expresiones regulares, cómo pueden emplearse estas en la postedición de la traducción
automática y en otras tareas distintas de la postedición y, por último, desarrollaremos
expresiones regulares para la postedición de un texto traducido del alemán al español mediante
un sistema de TA.
2. Estado de la cuestión
2.1. La postedición
Tomando como ejemplo la definición de la Organización Internacional de Normalización 18587
(ISO, Translations services - post-editing of machine translation output, 2017): ‘La postedición
se lleva a cabo sobre el resultado de la traducción automática con el propósito de comprobar su
exactitud y comprensión, mejorando el texto, haciendo que este sea más legible y corrigiendo
5
los errores’1. Si bien esta definición nos ofrece una idea de qué es la postedición, resulta
conveniente añadir otros aspectos como el “preservar la mayor cantidad posible del resultado de
la traducción automática”2 (Vasconcellos & Bostad, 1992) y el hecho de realizar esas
correcciones “atendiendo a unas guías específicas y criterios de calidad”3 (O'Brian, 2011). A
todo lo anterior, debemos incorporar otro aspecto a tener en cuenta, que es el propósito de las
traducciones, ya que según el objetivo que se persiga con estas, se llevará a cabo un proceso de
postedición distinto.
Por tanto, teniendo en cuenta las distintas definiciones de postedición (PE) a las que acabamos
de hacer referencia, podríamos decir que la postedición es una actividad que se lleva a cabo
sobre el resultado de una traducción automática para comprobar su exactitud y comprensión,
mejorando el texto, haciendo que este sea más legible y corrigiendo los errores intentando
realizar el menor número de cambios posible, atendiendo a una serie de guías de postedición,
criterios de calidad y al propósito de la traducción.
Ya en la década de los 80 podemos encontrar algunas referencias a la actividad de postedición
(PE), como la publicada por Wagner en 1985, en la revista Terminologie et Traduction, donde
define la postedición como la actividad que abarca tanto la corrección de textos pretraducidos,
como la traducción humana. Sin embargo, a pesar de ser una actividad reconocida desde esa
década, no comenzó a ser realmente consideraba como una nueva especialidad dentro del
mundo de la traducción hasta el año 2014, momento en el que la PE hizo su irrupción en los
foros profesionales con debates en Internet, cursos de formación y artículos en revistas del
sector (Sáchez Ramos & Rico Pérez, 2020). Este hecho se debió a la mejora de los sistemas de
TA y la calidad de sus traducciones, una mayor disponibilidad de recursos relacionados con la
TA, la expansión generalizada de esta y la incorporación de los sistemas de TA en los procesos
1
“Post-editing is performed on MT output for the purpose of checking its accuracy and
comprehensibility, improving the text, making the text more readable and correcting errors.”
2
“To preserve as much of the machine's output as possible.”
3
“The correction of row machine translated output by a human translator according to specific guidelines
and quality criteria.”
6
de traducción. De este modo, observamos que la postedición está íntimamente ligada al
desarrollo de la TA, ya que, al ser esta una actividad que se realiza sobre las traducciones
resultantes de dichos sistemas, su evolución se produce en consonancia con los cambios que
experimentan estos y la calidad de las traducciones que resultan de los mismos.
Hoy en día, muchas empresas y profesionales afirman que la TA es una herramienta del futuro
debido a la necesidad de una comunicación internacional y al hecho de que en los próximos
años aumentará la demanda de traductores que sean capaces de manejarla adecuadamente. Sin
embargo, a pesar de que la PE es muy necesaria hoy en día porque permite hacer frente a la
creciente demanda del mercado globalizado actual, surgen con ella también algunos
inconvenientes. Según investigaciones llevadas a cabo por Sergi Alvarez Vidal, Antoni Oliver y
Toni Badia y reflejadas en el artículo Post-editing for Professional Translators: Cheer or
Fear?, publicado en la revista Tradumática (Álvarez Vidal, Oliver, & Badla, 2020), existe una
gran escasez de formación específica para los futuros posteditores. Además, según encuestas
realizadas, los traductores manifiestan que “aunque admiten que la PE les ayuda a aumentar la
productividad y reducir el trabajo repetitivo, su mayor preocupación era que esta suponía una
barrera para la creatividad y hace a los traductores progresivamente más pasivos y perezosos”4
(LeBlanc, 2013). Los traductores opinan que las herramientas de PE no están optimizadas y que
la cantidad de ingresos recibida con la actividad de traducción y la de PE no difieren de forma
significativa y que, en algunos casos, afirman incluso que sus ingresos eran mayores con la
traducción que con la PE, sin embargo, mediante el uso de esta, les es posible abarcar un mayor
volumen de trabajo. Esta situación ha provocado que esta actividad no siempre tenga una
aceptación positiva entre los traductores y muchos se muestren reacios a usar estas
herramientas, lo cual también ralentiza el desarrollo de esta disciplina.
4
“Although translators admitted it helped increase productivity and reduced repetitive work, their main
concern was that it was a barrier for creativity and made translators increasingly passive and lazy.”
7
2.2. Proceso de postedición
Dado que, como se ha indicado, la postedición se considera una nueva especialización dentro
del mundo de la traducción, es importante señalar las características que la diferencian de la
actividad de revisión y de la propia traducción.
En primer lugar, la tarea de traducción difiere de la de postedición en que, mientras que los
traductores trabajan solo con un texto original y la traducción que realizan de este, el posteditor
trabaja con el TO, el resultado de la TA y el texto resultante tras la postedición y solo realiza la
edición y corrección del texto resultante de la TA.
La tarea de revisión se realiza sobre un texto traducido por otro traductor humano, mientras que
en la postedición se edita y corrige un texto resultante de un sistema de TA. Por consiguiente, el
revisor y el posteditor se enfrentan a errores de distinta naturaleza. El primero deberá tratar
cuestiones tales como errores de omisión, tratamiento de las cifras, números y fechas, nombres
y apellidos, formato, consistencia terminológica, cohesión del texto, uso de sinónimos, erratas y
estilo. Es decir, errores que pueden cometerse de manera puntual. El posteditor, sin embargo,
podrá encontrar un mismo error de forma recurrente a lo largo del texto porque trabaja sobre el
resultado de un sistema de TA. La tarea de este estará determinada, además de por las
exigencias del cliente en cuanto al nivel de calidad que debe presentar el texto resultante, por lo
que, dependiendo del objetivo de la traducción y el encargo, aplicará un tipo de PE u otra, cuya
diferencia veremos a continuación.
Dentro de la PE, el estándar ISO distingue dos tipos diferentes que se emplean dependiendo del
propósito de la traducción y el encargo realizado por el cliente: PE completa y PE rápida o
ligera. En primer lugar, la PE completa (full post-editing) que, según esta misma fuente, se
define como un nivel de postedición en el que el resultado debe ser preciso, comprensible y
estilísticamente adecuado, con una sintaxis, gramática y puntuación correctas, cuyo objetivo es
producir un resultado que no se distinga de la traducción humana, aunque se recomienda al
8
poseditor utilizar la mayor parte posible del resultado de la TA5. Este tipo de PE está
relacionada con la traducción para la diseminación, es decir, aquella en la que se hace uso de
sistemas de traducción automática para producir traducciones de suficiente calidad para ser
publicadas y en la mayoría de los casos, el resultado de la TA debe ser posteditado (Oliver,
2016).
Por otro, la PE rápida (light post-editing) está relacionada con la traducción de uso interno y de
carácter perecedero. El objetivo que se persigue con esta es que el lector se haga una idea del
contenido del texto, por lo que se realizan cambios mínimos y no se atiende a cuestiones
estilísticas. Es decir, que “la PE rápida convierte el resultado bruto de la TA en un texto
comprensible y utilizable, pero no adecuado desde el punto de vista lingüístico o estilístico”6
(DePalma, 2019) . Este tipo de postedición está relacionada con la traducción automática con
fines de asimilación, es decir, una traducción en la que no se requiere que el texto meta sea
completamente correcto a efectos de sintaxis, semántica y gramática, sino que más bien urge la
inmediatez por obtener la traducción. “Se trata de traducciones efímeras, esto es que no se
requiere que perduren en el tiempo, ya que se utilizan únicamente para el momento de ser
leídas” (Francés Oltra, 2018). Por este motivo, cuando hablamos de traducción para la
asimilación, no compensa contratar los servicios de un traductor profesional.
Así pues, mientras la PE rápida suele aplicarse en aquellos casos en los que los textos están
destinados al uso interno, es decir, que no están pensados para ser publicados, la PE completa
suele emplearse para textos divulgativos, en cuyo caso es imprescindible valorar si es rentable
emplear TA y PE o contratar a un traductor profesional que realice la traducción desde cero, ya
que en esta modalidad solo se deben realizar los cambios que sean absolutamente necesarios y
5
“On this level of post-editing, the output shall be accurate, comprehensible and stylistically adequate,
with correct syntax, grammar and punctuation. The aim of this leve lof post-editing is to produce an
output wich is indistinguishable from human translation output. Nevertheless, it is reommended that post-
editor use as much of the MT output as possible.”
6
“Light post-editing converts raw MT output into understandable and usable, but not linguistically or
stylistically perfect.”
9
no se atiende a cuestiones de estilo, siempre y cuando estas no afecten al propósito de las
traducciones.
Cuando la PE se lleva a cabo en el ámbito profesional, son necesarias una serie de pautas a
seguir para que todos los posteditores lleven a cabo los cambios de forma coordinada. Estas
pautas se denominan guías de postedición. Generalmente, las empresas que ofrecen servicios de
PE desarrollan sus propias guías, pero todas deben reflejar qué segmentos deben ser
posteditados, qué tiempo se va a dedicar a la PE, qué tipo de correcciones se deben realizar y
qué nivel de calidad se espera de la PE.
Dado que en cada guía de PE se reflejan formas distintas de proceder, vamos a tomar como
referencia el volumen 4 de la obra A Comparative Study of Post-editing Guidelines (Hu &
Cadwell, 2016) en el que se realizó un análisis comparativo de algunas de las guías de PE rápida
y completa más destacadas: TAUS (2016), Fianagan & Christensen (2014), O’brien (2010),
Mesa-Lao (2013) y Densmer (2014).
Mediante la comparación de estas guías se observó que en la postedición rápida todas las
propuestas valoran la exactitud del mensaje y la corrección de la semántica mediante una ligera
postedición, mientras que, a la gramática, sintaxis y estilo no se les da demasiada importancia.
O'Brien y Mesa-Lao creen que no es necesario invertir demasiado tiempo en investigar la
terminología incorrecta, mientras que Densmer opina que esta debe ser coherente. TAUS,
Flanagan y Christensen y O'Brien sostienen que las correcciones ortográficas deben aplicarse
con reglas básicas y el texto debe adaptarse a la cultura de destino. Si la frase es comprensible o
correcta, la mayoría de las propuestas indican que no se debe llevar a cabo una reestructuración.
Como observaciones adicionales, O'Brien añade que se espera poca calidad de la postedición
rápida y, por otro lado, Densmer hace hincapié en los errores inducidos por la máquina y en las
alternativas de traducción.
Con respecto a la postedición completa, TAUS y Densmer esperan que la calidad no difiera con
respecto a la traducción humana y destacan la importancia del buen estilo. Al contrario que
10
O'Brien y Mesa-Lao, que no están de acuerdo con la necesidad de prestar mucha atención al
mismo, ya que esperan que la calidad tras la postedición completa sea media y no igual a la
traducción humana. Dicho aspecto sigue siendo muy discutido hoy en día debido a su influencia
directa sobre el coste y productividad de la postedición.
Las guías de PE completa atienden a los aspectos de precisión, semántica y cultura en mayor
medida que las guías de PE rápida. A diferencia de estas últimas, la mayoría de las guías de PE
completa exigen que la terminología, la gramática, la puntuación, la sintaxis y especialmente la
adaptación del texto a la cultura de destino sean correctas, así como la puntuación, la sintaxis y
el formato.
Así pues, mediante la realización de este estudio comparativo, se concluyó que las guías de PE
presentan numerosas coincidencias, especialmente las de PE rápida, mientras que entre las guías
de PE completa se aprecian diferencias en lo que se refiere a requisitos de estilo y a la calidad
esperada del texto.
3. Herramientas usadas en la postedición
Actualmente, apenas hay programas y/o herramientas en el mercado destinadas únicamente a la
postedición. Esta se lleva a cabo directamente mediante el uso de las herramientas de traducción
asistida por ordenador (TAO), las cuales no han experimentado cambios esenciales en sus
presentaciones en los últimos 25 años, o, en todo caso, las innovaciones han tenido un escaso
impacto en el proceso traductor (Sánchez-Gijón, 2016).
Entre las características que se consideran más útiles para la PE podemos destacar la posibilidad
de que puedan verse de forma simultánea el texto original y su traducción y el hecho de poder
personalizar la visualización de los distintos paneles. Otro aspecto importante es la preservación
del formato de los archivos originales (Nunes Vieira & Specia, 2011) . La posibilidad de
consultar glosarios especializados y los controles de calidad integrados, así como el acceso a
recursos léxicos externos y la disponibilidad de correctores ortográficos y gramaticales o de
11
estilo, son características también importantes para facilitar las tareas de postedición y bastante
comunes en los entornos de traducción actuales (Eisele et al., 2009; Nunes Vieira y Specia,
2011; Vié et al., 2011; Zetzsche, 2012).
Tomando como referencia el artículo Catálogo de Herramientas para la posedición (Flórez,
Catálogo de herramientas para la posedición, 2012) vamos a exponer algunas de las
herramientas de las que se dispone en la actualidad para llevar a cabo la tarea de postedición. En
primer lugar, cabe señalar varios entornos de traducción, entre los que se encuentran Déjà Vu,
MemoQ Translator Pro y SDL Trados Studio como opciones de pago y Virtaal, MateCAT y
Omega T de código fuente abierto.
3.1. Entornos de traducción
Los entornos de traducción con licencia de pago nombrados incluyen funcionalidades comunes
como la integración de Google Translate, la posibilidad de realizar búsquedas y reemplazos
globales, corrector ortográfico, opción de autocompletar y llevar a cabo controles de calidad.
Déjà Vu permite, además, la posibilidad de reparar las coincidencias parciales mediante TA y el
procesamiento por lotes (programas cuya ejecución no precisa de la interacción con el usuario y
que se emplean usualmente para agilizar tareas repetitivas), al igual que MemoQ. Este a su vez
incluye la posibilidad de llevar a cabo controles de calidad, los cuales también pueden realizarse
con SDL Trados, que además de las funciones ya nombradas, integra Systran, SDL BeGlobal,
SDL Enterprise Translation Server y la posibilidad de acceder a recursos léxicos externos.
Por su parte, los entornos de traducción de código fuente abierto ofrecen funcionalidades muy
diversas. Por su parte, Vitaal incluye varias funciones presentes en los entornos de traducción de
pago como la posibilidad de usar Google Translate, acceder a recursos lingüísticos externos,
realizar búsquedas y reemplazos globales, autocompletar, corrector ortográfico y llevar a cabo
controles de calidad. Además, permite editar archivos TMX y TBX y el uso de otros traductores
automáticos como Microsoft Translate, Apertium y Moses (traducción automática estadística).
MateCAT, sin embargo, solo integra los traductores Moses y MyMemory, pero ofrece
12
autocorrección a partir de la retroalimentación proporcionada por los usuarios y re-
entrenamiento dinámico a partir de las correcciones. En OmegaT existe la posibilidad de usar
también los traductores Apertium y Google Translate, además de Belazar y cuenta con corrector
ortográfico y lingüístico basado en reglas. En este entorno de traducción también es posible
gestionar el procesamiento por lotes y, como funcionalidad a destacar, encontramos su interfaz
para crear e integrar scripts, que en algunos casos pueden usarse para llevar a cabo controles de
calidad.
Por otro lado, cabe señalar la existencia Apertium Advanced Web Interface, un sistema de
traducción que posee interfaz para pre y postedición, además de permitir el uso de una memoria
TMX (local o en la web) durante la traducción, llevar un registro de los cambios realizados y
exportar los resultados en el formato original y como memoria TMX, entre otras.
3.2. Herramientas complementarias
Además de las herramientas a las que acabamos de hacer referencia, también existen
algunas complementarias que integran interfaz para la postedición. Entre ellas
encontramos Language Studio Pro, que ofrece la posibilidad de configurar intraducibles y
PET, que permite comparar traducciones de diferentes sistemas, definir restricciones,
como el tiempo de postedición, e indicadores de esfuerzo personalizables. Por último,
merecen especial mención Kodos y RegexBuddy, las cuales presentan como función
especial una interfaz para poder crear y probar expresiones regulares, siendo la primera
de ellas de código fuente abierto y la segunda, de pago.
En última instancia, merecen mención algunas herramientas generalmente usadas para
llevar a cabo la localización de software (como CATALYST y Pasolo), así como también
varios editores de texto (como EditPad Pro, Notepad++ y UltraEdit) que tiene integrada la
herramienta de búsqueda y reemplazo y permiten el uso de expresiones regulares.
13
4. Expresiones regulares
4.1. Definición y usos
En la actualidad hay que lidiar con el procesamiento de una gran cantidad de textos y la acción
de filtrar determinados datos que buscamos en ellos puede llegar a suponer un problema y es ahí
donde entran en juego las expresiones regulares, ya que, mediante su uso, resulta más sencillo
encontrar lo que buscamos.
Las expresiones regulares o regex, llamadas así por la contracción de su denominación inglesa
regular expressions, son patrones de caracteres utilizados para la búsqueda y la coincidencia
automátizadas7 (Windham, 2014). Dichos patrones se emplean para procesar texto de manera
potente, flexible y eficiente. Las expresiones regulares pueden añadir, eliminar, aislar y,
generalmente, multiplicar, ensamblar y desmembrar todo tipo de texto y datos con el apoyo de
la herramienta concreta que se utilice. Con ellas es posible comprobar si una secuencia coindice
con una expresión de búsqueda, encontrar caracteres en una secuencia, reemplazar
subsecuencias en una secuencia que coincida con una expresión regular y extraer los archivos de
textos, entre otras.
Como acabamos de ver, las expresiones regulares son una herramienta muy versátil que puede
usarse para realizar diversas tareas en distintas áreas y, en lo que respecta a la traducción, estos
patrones de caracteres no solamente pueden ser de utilidad durante la tarea de postedición, como
veremos más adelante, sino que también pueden emplearse para preeditar textos, modificar
glosarios u otros materiales para la traducción y durante el proceso de corrección y optimización
de las traducciones, más concretamente para llevar a cabo los controles de calidad y el
tratamiento de etiquetas.
7
“Character patterns used for automated searching and matching.”
14
4.2. Lenguajes de las expresiones regulares
Las expresiones regulares son un lenguaje que puede estar escrito en diferentes dialectos y, si
bien los principios básicos de todos ellos suelen ser siempre los mismos, cada uno de esos
dialectos aporta algo distinto y siguen evolucionando.
Tomando como referencia el primer capítulo de la obra Understanding and Using Regular
expressions (Nagy, 2018) se pueden destacar los siguientes tipos de dialectos para las
expresiones regulares: BRE, ERE, EMACS, VIM y PCRE
• BRE (Basic Regular Expressions) fue el dialecto con el que comenzaron a
estandarizarse las expresiones regulares dentro del estándar POSIX 1003.2, el cual se
utiliza en los editores Ed y Sed, así como en el comando Grep.
• ERE (Extended Regular Expressions) fue la sintaxis con la que se produjo la primera
gran evolución de las expresiones regulares. Se emplea en Egrep y Notepad++, entre
otros.
• SRE (Simple Regular Expressions), el cual fue desaprobado en favor de BRE.
• EMACS y VIM son editores que han desarrollado sus propios dialectos sobre la base de
ERE.
• PCRE (Perl Compatible Regular Expressions): es algo más complejo porque funciona
con unas normas completamente diferentes al resto de dialectos, sin embargo, resulta
más sencillo de leer. En él se basan la mayoría de los lenguajes de programación, cada
uno con sus propias abreviaturas y diferencias. Entre dichos lenguajes se incluyen PHP,
JavaScript, Java, C #, C ++, Python, R, Perl hasta la versión 5 y más.
4.3. Sintaxis de las expresiones regulares
Ahora que ya sabemos qué son las expresiones regulares y los distintos dialectos en los que se
pueden escribir en función de la herramienta que utilicemos, vamos a ver cómo formularlas, qué
15
caracteres las componen y las funciones que cumple cada uno con sus respectivos ejemplos.
Para ello, tomaremos como referencia el segundo capítulo de Understanding and Using Regular
expressions, centrado en la sintaxis de las expresiones regulares.
Para empezar, una expresión regular puede ser simplemente una letra o palabra o estar escrita
dentro de unos caracteres de barra inicial y barra final /regex/. En algunos lenguajes como
JavaScript, en lugar de las barras de inicio y final, se deben emplear las comillas simples ‘regex’
y, en el caso de PHP y Python, se emplearían las comillas “regex”.
Dentro de la expresión regular encontramos caracteres literales (letras mayúsculas y minúsculas,
números y algunos símbolos) y metacaracteres. Los caracteres literales insertados dentro de la
expresión regular coinciden consigo mismos, es decir, si escribimos /r/, nos señalará todas las r
que se encuentren en el texto o, en aquellos casos en los que existan simplificaciones en la
ejecución, solo se mostraría la primera r que la expresión encuentre dentro de cada serie o
palabra, entendiendo de esta forma que, al encontrar una coincidencia, ya no es necesario
señalar las demás.
Algunos símbolos también se consideran caracteres literales en la mayoría de dialectos, por
ejemplo: ! , % , = y _. Por el contrario, existen otros símbolos que no son considerados como
caracteres literales en casi ningún dialecto, sino como metacaracteres. Este es el caso de:
., *, ^, $ y []. La función que cumplen estos metacaracteres es la de indicar una operación de
forma similar a como lo hace una palabra clave en un lenguaje de programación.
A continuación, con el objetivo de simplificar la explicación sobre los metacaracteres y las
funciones que cumple cada uno, se expone una tabla (Institute, 2020) donde se reflejan los
comunes a la mayoría de los dialectos empleados para las expresiones regulares acompañados
de ejemplos.
Metacaracter Descripción Ejemplo
. Concuerda con caracteres individuales. x.y.z concuerda con una cadena de
16
caracteres como x1y0z o xaybz.
[] Contiene caracteres individuales y [xyz] concuerda con cadenas de
rangos de valor que deben concordar caracteres que contienen x, y o z.
^ Concuerda con información inicial [^abc] concuerda cadenas de
cuando está al inicio de la expresión. caracteres que no incluyen ninguna
Cuando está dentro de corchetes y combinación de a, b y c. Las
seguida de caracteres, niega los cadenas de caracteres que
caracteres que siguen. coincidirían incluyen bat y bar,
pero no cab. ^[xyz] concuerda con
cadenas de caracteres que inician
con x, y o z.
- Indica un rango de valores a [1–5] concuerda con cadenas de
concordar. caracteres como 12345 o 26589,
Nota: el rango debe estar entre pero no 6789.
corchetes
? Los caracteres anteriores o rangos de Sept? concuerda con Sept y
valores son una parte opcional de la septiembre, pero no diciembre.
expresión que se debe concordar.
También actúa como cuantificador que
indica 0 o 1 veces.
+ Los caracteres anteriores o los rangos [0–9]+ concuerda con 1, 11, 456 y
de valores pueden concordar una o así sucesivamente.
más veces.
*
Los caracteres anteriores o los rangos 12*3 concuerda con 1223 y 123,
de valores pueden concordar cero o pero no con 223 ni 23.
más veces.
() Contiene un grupo de expresiones y (cat) concuerda con cadenas de
17
valores. caracteres como categoría y
concatenar, pero no cart
(carretilla).
\ Permite que se utilice un metacaracter \+ permite que se reconozca el
como carácter literal. signo de suma como tal.
$ Hace que concuerde la información [123]$ concuerda cadenas de
con base en el último carácter. caracteres que terminan con 1, 2 o
Representa el final de la cadena de 3.
caracteres o el final de la línea, si se
utiliza el modo multi-línea. No
representa un carácter en especial sino
una posición.
| Concuerda una frase u ortografía I|internacional concuerda con
alternativa. Internacional e internacional.
! Indica qué caracteres no se incluyen en c(a!b) concuerda con cat (gato) o
la coincidencia. can (lata) pero no cab (taxi).
{n} Indica un número determinado de abc{2} coincide con una cadena
coincidencias. que tiene ab seguido de 2 c.
También existen abreviaturas generales que proporcionan accesos directos para rangos de
valores:
Abreviatura Descripción
\a Cualquier carácter alfanumérico (a–zA–Z0–9)
\b Espacio en blanco
\c Cualquier carácter alfabético (a–zA–Z)
\d Cualquier dígito decimal (0-9)
18
\h Cualquier dígito hexadecimal
\n Nueva línea
\q Una cadena de caracteres entre comillas
\w Una palabra simple ([a–zA–Z]+)
\z Un número entero ([0–9]+)
5. Uso de expresiones regulares para la postedición
Como hemos visto anteriormente, las expresiones regulares se emplean con diversos fines
dentro tanto en otras áreas como en distintas actividades relacionadas con la traducción, pero
veamos ahora cómo pueden ayudarnos concretamente durante la tarea de postedición.
Las expresiones regulares se emplean en la mayoría de las herramientas CAT para mejorar las
prestaciones de las funciones de los controles de calidad, aunque, como se ha comentado en el
apartado de herramientas para la postedición, también encontramos las opciones de búsqueda y
reemplazo con posibilidad de uso de regex en la mayoría de las herramientas usadas para la
localización de software y varios editores de texto.
Mediante el uso de expresiones regulares se pueden identificar los errores lingüísticos más
complejos y repetitivos y sustituirlos por el texto correcto en el resultado de la TA. Con ellas
podemos realizar búsquedas y reemplazos terminológicos, buscar y reemplazar patrones de
texto indeseados o filtrar los segmentos que contengan determinados patrones de texto, entre
otras posibilidades. De esta forma podemos automatizar y acelerar considerablemente el proceso
de postedición.
Entre los errores más repetitivos de la TA que pueden automatizarse mediante el uso de
expresiones regulares se encuentran el uso incorrecto de mayúsculas y minúsculas, errores de
puntuación (como guiones o signos diacríticos), errores a nivel terminológico, adición u
omisión de palabras o errores de formato, como los espacios en blanco (KantanMT, 2013).
19
Veamos a continuación qué expresiones regulares podríamos usar para corregir algunos de estos
errores de forma eficiente. Para ello, tomaremos como referencia algunos ejemplos de los
artículos Regular Expressions: An Introduction for Translators (Schiaffino, 2021) y Automating
MT post-editing using regular expressions (Guzmán, 2017).
Si estuviésemos empleando una herramienta como MemoQ y quisiésemos buscar durante un
control de calidad las letras mayúsculas y minúsculas que difieren en el texto de origen y el
texto meta, podríamos usar el siguiente par de expresiones regulares: ^[A-Z] (que
introduciríamos en source) y ^[a-z] (que pondríamos en target). El símbolo (^) al principio de la
expresión regular señala el comienzo de una cadena o segmento. A continuación, aparecen dos
conjuntos de letras entre paréntesis separadas por un guion que define exactamente el conjunto
de caracteres dentro del rango. El primer conjunto es el rango de todas las letras mayúsculas y el
segundo conjunto marca el rango de todas las letras minúsculas.
Para encontrar todos los segmentos en los que la puntuación en el texto meta no coincide con la
del texto original, podríamos usar las expresiones \.$ en source y [^.]$ en target. Estas
expresiones encuentran todos los pares de segmentos que terminan con un punto en el texto de
origen, pero no en el de destino. En la primera expresión, el "$" señala el final de una cadena o
segmento y la barra invertida (\) seguida de "." indica que lo que se busca son los puntos. En la
segunda expresión, (^) indica negación, por lo que [^.] indica "cualquier carácter que no sea un
punto". Por lo tanto, [^.]$ encontrará todos los segmentos que no terminen en un punto.
También podemos usar esta expresión para buscar otros signos de puntuación.
Uno de los problemas de puntuación más frecuentes a los que deben enfrentarse los posteditores
cuando se revisa una TA del alemán o inglés al español es la coma que precede a und y and. En
ambas lenguas anglosajonas la preposición debe ir precedida de dicha coma, mientras que en
español no debe aparecer coma antes de esta preposición en la mayoría de los casos. Para
solventar este problema, podríamos emplear, por ejemplo, un editor de texto como Notepad++
y poner la siguiente expresión regular en search: ,( y\b). Con ella, el editor buscará todas las
20
comas que precedan a un espacio en blanco seguido de “y” y esta a su vez preceda a un espacio
en blanco, ya que, como hemos visto en la sección anterior “\b” es una abreviatura que indica
“espacio en blanco”. Una vez realizado este paso, colocamos la expresión $1 en replace para
eliminar la coma que precede al grupo indicado porque en este caso el símbolo del dólar
representa posición y con el 1 indicamos el grupo entre paréntesis. De este modo, la coma
desaparece porque indicamos que en su lugar se sitúe una “y” respetando los espacios en blanco.
Las expresiones regulares también nos permiten buscar términos u aproximaciones de estos, así
como realizar búsquedas en las que se puedan incluir dos o más términos.
Por ejemplo, si tuviésemos que realizar la postedición de un texto en el cual se han utilizado
varios sinónimos para traducir una misma palabra del texto original, podríamos utilizar una
expresión regular sencilla para detectar esos casos al mismo tiempo, sin tener que buscarlos uno
a uno. Para ello, solo tendríamos que escribir los sinónimos en la opción de búsqueda que nos
proporciona nuestra herramienta de traducción y separarlos entre sí mediante el signo “|”, que es
el metacaracter que representa concordancias con frases o grafías alternativas. Ejemplo:
“móvil|celular”. Del mismo modo, también podríamos buscar de esta forma un término que
pueda encontrarse con mayúscula o minúscula inicial. En este caso, pondríamos “T|término” y
la expresión regular buscaría las coincidencias tanto como con “Término”, como “término”.
También podemos buscar otras grafías alternativas de un mismo término, como podría ser el
caso de “va(ll|y)a”. Mediante esta expresión, indicamos a la expresión regular que busque las
coincidencias con las grafías valla y vaya al mismo tiempo. O, en el caso de que tuviésemos,
por ejemplo, el caso de post-edición y postedición, podríamos usar la expresión regular “post[ -
]?edición” para encontrar las coincidencias con estas dos grafías. El conjunto entre corchetes
representa que estamos buscando un espacio o un guion y el signo de interrogación posterior es
un cuantificador que indica a la expresión regular cuántas veces debe coincidir el elemento o
carácter precedente, que en el caso del signo de interrogación significa "0 o 1" veces. Por tanto,
21
la expresión buscará post seguido de un espacio, un guion o nada (debido al efecto del
cuantificador).
Mediante el uso de expresiones regulares, también es posible llegar a solventar problemas a
nivel sintáctico o incluso gramatical, aunque este tipo de regex necesita de un examen más
minucioso de los textos y suelen tener una mayor complejidad.
6. Desarrollo de expresiones regulares para la postedición
alemán-español
A continuación, vamos a desarrollar algunas expresiones regulares para el par de lenguas
alemán-español. Para ello, pondremos como ejemplo algunos textos de temática actual en
alemán y usaremos los traductores automáticos en línea DeepL y Google Translate para
traducirlos al español y proponer regex que corrijan los errores que presentan los resultados de
la TA. La herramienta escogida para llevar a cabo la tarea de postedición del texto resultante de
la TA al español será Notepad++ por ser un editor de texto de código fuente abierto y su
facilidad de uso con respecto a otras herramientas.
Pongamos por caso que queremos traducir la siguiente noticia publicada en el noticiero alemán
Tagesschau sobre las inundaciones que están teniendo lugar recientemente en Alemania:
https://www.tagesschau.de/newsticker/liveblog-hochwasser-105.html#Pegel-in-Passau-steigen--
-Polizei-schleppt-vorsorglich-Autos-ab (Anexo 1).
Para ello usaremos el traductor automático DeepL y realizaremos la postedición sobre el
resultado de la TA, eliminando los errores que presente.
Al analizar el resultado de la TA (anexo 1) para detectar errores, encontramos que DeepL
traduce las fechas dejándolas separadas por puntos como en la lengua original cuando en
español deben emplearse las barras. Este error es muy común en la traducción del alemán al
español y realizar el trabajo de postedición a mano en este caso sería muy tedioso, puesto que se
22
trata de un error muy repetitivo. Por este motivo, vamos a desarrollar una expresión regular que
nos agilice la tarea.
En alemán, al igual que en español, las fechas se escriben poniendo primero el día, seguido del
mes y por último el año. Teniendo en cuenta este hecho, tenemos que buscar un número entero
compuesto por cuatro o dos dígitos (año) después de un punto. Este punto tendrá que ir a su vez
precedido por un número entero de uno dos dígitos (mes), que deberá estar situado detrás de
otro punto al que precede otro número entero de uno o dos dígitos (día).
Para ejecutar la regex copiamos el resultado de la TA y lo copiamos en Notepad++ y
presionamos las teclas Ctrl + F para abrir la opción de búsqueda y pondríamos en search:
(^\d{1,2}(?=\.))\.(\d{1,2}(?=\.))\.(\d{2,4})
En el primer grupo entre paréntesis (^\d{1,2}(?=\.)), usamos ^ para indicar la posición al
principio de la cadena, \d para indicar que debe coincidir con un dígito entre 0 y 9, {1,2} indica
el número de veces que deben aparecer los dígitos (en este caso una o dos veces porque los días
vas de 1 a 31). Añadimos (?=\.), que significa que ese dígito además debe ir seguido del carácter
literal del punto. Luego colocamos la barra y el punto para indicar que después de ese número
hay un punto.
En el segundo grupo (\d{1,2}(?=\.)) volvemos a hacer exactamente lo mismo de antes y en el
último grupo indicamos que después del segundo carácter literal del punto haya un dígito entre
el 0 y el 9 que pueda aparecer 2 o 4 veces, puesto que los años pueden aparecer en las fechas
solo con los dos últimos dígitos o con el año entero, que serían 4 cifras.
Ahora que ya tenemos localizadas las fechas, pondremos en replace la siguiente expresión para
sustituir los puntos por las barras:
$1/$2/$3. Aquí el símbolo del dólar indica posición. De esta forma estamos diciendo que lo que
queremos es que entre los grupos arriba indicado, se escriba una barra en lugar de un punto.
23
En este mismo texto también podemos observar otro error recurrente en el resultado de la TA:
Uhr se ha traducido como hrs. Lo correcto en español es poner h, ya que se trata de un símbolo
y los símbolos carecen de plural.
Si bien es cierto que la secuencia hrs no coincide con ninguna otra que pueda contener una
palabra en español y podría reemplazarse fácilmente en cualquier editor de texto con una
herramienta de búsqueda y reemplazo simple sin necesidad de crear una expresión regular,
veamos cómo podría corregirse este error con una regex que también pudiese servirnos para
corregir otros términos erróneos que pudiesen colocarse tras el formato de la hora para traducir
Uhr.
Teniendo en cuenta que la cadena hrs estará situada después de un número entero de dos
dígitos, seguido de dos puntos, otro número de dos dígitos y un espacio en blanco, colocamos en
search la siguiente expresión: (\d{2}(?=\:))\:(\d{2}(?=\b))\b (hrs). El primer grupo entre
paréntesis, \d indica que se busque una cifra y el 2 entre llaves indica que dicha cifra debe estar
compuesta dos dígitos (horas), después especificamos con (?=\:) que el la cifra de dos dígitos
anterior debe ir seguida de dos puntos, en el segundo grupo volvemos a especificar lo mismo,
pero el número de dos cifras, que aquí representará a los minutos, debe ir seguido de un espacio
en blanco en lugar de dos puntos. Finalmente, dejamos un espacio y colocamos la cadena hrs
entre paréntesis para poder sustituirla, ya que lo que hacen los paréntesis es marcar un grupo
específico.
A continuación ponemos en replace: $1\:$2 h para indicar que el grupo 1 ($1) siga estando
separado del grupo 2 ($2) por dos puntos, que después de estos siga habiendo un espacio, pero
después de este haya una h, en lugar de hrs.
Supongamos ahora que queremos traducir del alemán al español una carta como la del anexo 2,
un correo electrónico o incluso una obra en la que se presenta un recopilatorio de textos
pertenecientes al género epistolar. En alemán, el saludo se coloca en la primera línea, se acaba
con una coma y se comienza a escribir el contenido de la carta en la siguiente línea y con
24
minúscula inicial. En español, por el contrario, el saludo se acaba con dos puntos al final de la
línea y se comienza a escribir en la siguiente línea con mayúscula inicial.
Empleamos el traductor automático de Google para traducir la carta del anexo 2 y observamos
que transfiere a la lengua meta las normas ortográficas de la lengua de origen, es decir, deja la
coma y la minúscula inicial.
Vamos a ver cómo podríamos agilizar el proceso de postedición de este error mediante una
expresión regular en caso de que tuviésemos que modificarlo en un extenso número de cartas
traducidas. Para ello, podríamos emplear la siguiente expresión regular: (^.*)\,(\r\n)(\w). En
primer grupo, con el símbolo ^ indicamos posición al comienzo de una línea. El punto busca
coincidencia con cualquier carácter y * que indica buscar coincidencia con el carácter anterior
entre cero y un número ilimitado de veces, tantas como sea posible. Con \, especificamos que se
busque el carácter literal de la coma. A continuación, creamos otro grupo dentro del que estén \r
para indicar que busque el retorno de carro y \n para el salto de línea. Después indicamos que se
busque cualquier carácter literal dentro de paréntesis para poder crear un grupo para el
reemplazo.
Para sustituir ahora la coma por los dos puntos y cambiar la letra inicial a mayúscula en
Notepad++ usaríamos la siguiente expresión en el apartado replace: $1\:$2\u$3. Con $1
indicamos el primer grupo sin cambios tras el que deberá a parecer el carácter literal de los dos
puntos \:. Después el grupo dos, que permanece sin cambios como el primero y posteriormente
\u$3. Con \u indicamos que el carácter literal que aparezca en el grupo 3 sea escrito en
mayúscula.
7. Conclusiones
A pesar de que la postedición es una actividad que se realiza desde hace décadas y que cada vez
es más demandada debido a la mejora de los sistemas de traducción automática y la
globalización, en el mercado apenas hay aún herramientas exclusivamente destinadas a este fin,
25
como hemos podido observar en el apartado de herramientas para la postedición. A este hecho
se suma la falta de formación específica para posteditores, lo cual da lugar a que estos deban
aprender por sus propios medios cómo sacar partido a las herramientas TAO para emplearlas
durante la postedición, teniendo que acudir en ocasiones a herramientas externas para
implementar sus funciones o, dependiendo del caso, usarlas directamente como primera
herramienta en lugar de acudir a los entornos de traducción. Entre estas herramientas
complementarias encontramos las expresiones regulares que, como hemos visto, pueden servir
de gran ayuda para llevar a cabo la postedición e incluso otras tareas relacionadas con la
traducción de forma mucho más rápida, sobre todo cuando hablamos de grandes cantidades de
texto que presentan errores sistemáticos y repetitivos.
Por tanto, si bien las expresiones regulares pueden llegar a ser de gran utilidad, también son una
herramienta que requiere de estudio y práctica al principio, ya que el lenguaje que se emplea
para su desarrollo es algo complejo y deben ser precisas. De lo contrario, pueden llegar a
ralentizar el proceso o dar incluso más trabajo, puesto que resulta fácil cometer errores y hacer
modificaciones indeseadas que sea necesario corregir posteriormente.
8. Anexos
8.1. Anexo 1
Texto de original del noticiario alemán Tagesschau:
Hochwasser in Deutschland++ Mindestens 110 Tote im Raum Ahrweiler ++
Stand: 18.07.2021 07:36 Uhr
Die Koblenzer Polizei rechnet damit, dass allein in Ahrweiler und Umgebung
mindestens 110 Menschen ums Leben gekommen sind. Die niederländischen
Behörden wollen die Schleusen der Rur in Roermond nicht öffnen. Die
Ereignisse im Liveblog.
26
Polizei: 110 Tote in Ahrweiler und Umgebung
Katastrophenfall in Oberbayern ausgerufen
Bahnstrecke in Sächsischer Schweiz gesperrt
Scholz kündigt Soforthilfe für Flutopfer von mehr als 300 Millionen Euro an
Gebirgsbach nahe Oberstdorf durch Holzmassen gefährlich angestaut
18.7.2021 • 07:36 Uhr
Pegel in Passau steigen - Polizei schleppt vorsorglich Autos ab
Im bayerischen Passau steigen die Wasserstände der Flüsse stündlich weiter an. Die Polizei schleppte vorsorglich Autos an Parkplätzen an
der Donau ab, wie eine Sprecherin sagte. Anwohner hätten trotz Hochwasserwarnungen versäumt, ihre Fahrzeuge umzuparken. "Wenn wir
sie nicht abschleppten, dann schwimmen die Dinger bis Österreich", sagte die Polizeisprecherin. Der Pegel der Donau war nach Angaben des
Hochwassernachrichtendienstes im Laufe des Samstags um fast zwei Meter auf 7,80 Meter gestiegen. Der Wasserstand der Inn stieg in den
vergangenen zwölf Stunden von 3,30 auf 5,40 Meter.
18.7.2021 • 05:32 Uhr
Polizei: 110 Tote in Ahrweiler und Umgebung
Bei der Flutkatastrophe sind allein in und um Ahrweiler mindestens 110 Menschen ums Leben gekommen. Dies teilt das Polizeipräsidium in
Koblenz mit. Mindestens 670 Menschen wurden verletzt. Es sei zu befürchten, dass sich die Zahl der Todesopfer und Verletzten noch
erhöhe. Die Polizei sei die ganze Nacht mit vielen Kräften im Ort im Einsatz gewesen. Zahlreiche Straßen im Ahrtal blieben weiterhin
gesperrt.
18.7.2021 • 03:32 Uhr
Gebirgsbach nahe Oberstdorf durch Holzmassen gefährlich angestaut
27
Der heftige Regen hat in den Allgäuer Alpen nahe Oberstdorf in einem Tal zu einem bedrohlichen Anschwellen eines Baches geführt. Im
Stillachtal habe sich durch querliegendes Holz das Wasser gefährlich angestaut, sagte der Kommandant der Oberstdorfer Feuerwehr, Peter
Vogler. Sollte sich diese natürlichen Sperre plötzlich lösen, könne es eine Flutwelle in Richtung Oberstdorf geben.
Die Feuerwehr stelle zum Schutz Betonbarrieren beim Langlaufstadion südlich des Ortskerns von Oberstdorf auf. Sie sollen mögliche
Wassermassen umleiten. Rund 60 Feuerwehrleute seien im Einsatz. Die Feuerwehr versuche, durch Abpumpen von Wasser den Druck zu
nehmen. Schweres Gerät wie Bagger könne man aber nicht an der Staustelle einsetzen.
18.7.2021 • 03:23 Uhr
Städte und Gemeinden fordern Reform des Bevölkerungsschutzes
Nach der Flutkatastrophe im Westen Deutschlands fordert der Städte- und Gemeindebund eine grundlegende Reform des
Bevölkerungsschutzes. "Die Katastrophe zeigt einmal mehr, dass wir den zivilen Bevölkerungsschutz neu, besser und nachhaltiger aufstellen
müssen", sagte der Hauptgeschäftsführer Gerd Landsberg den Zeitungen der Funke Mediengruppe.
Das Bundesamt für Bevölkerungsschutz und Katastrophenhilfe müsse verstärkt und die Frühwarnsysteme verbessert werden. Auch die
Eigenvorsorge müsse gefördert werden. So müsse jeder Haushalt über ein batteriebetriebenes Radio verfügen. Das richtige Verhalten in
Gefahrensituationen, wie das Abstellen von Strom und Gas, das Nichbetreten von Kellerräumen und das Vorhalten von Lebensmittelreserven
müsse Standard werden.
18.7.2021 • 01:29 Uhr
Mindestens ein Todesopfer durch Fluten in oberbayerischem Kreis
Durch das Hochwasser ist eine Person in Berchtesgaden ums Leben gekommen. Das bestätigte eine Sprecherin des Landratsamts
Berchtesgadener Land dem BR. Bei einem weiteren Todesfall in Bischofswiesen steht der direkte Zusammenhang noch nicht fest.
Traducción de la noticia con DeepL del alemán al español:
Inundaciones en Alemania
++ Al menos 110 muertos en la zona de Ahrweiler ++
28
Estado: 18.07.2021 07:36 hrs
La policía de Coblenza espera que al menos 110 personas hayan muerto sólo en Ahrweiler y sus
alrededores. Las autoridades holandesas no quieren abrir las compuertas del Rur en Roermond.
Los eventos en el liveblog.
Policía: 110 muertos en Ahrweiler y alrededores
Se declara la emergencia en la Alta Baviera
Línea ferroviaria cerrada en la Suiza sajona
Scholz anuncia una ayuda de emergencia de más de 300 millones de euros para las víctimas de
las inundaciones
Arroyo de montaña cerca de Oberstdorf peligrosamente represado por masas de madera
18.7.2021 - 07:36 hrs
Sube el nivel del agua en Passau - la policía retira los coches por precauciónEn Passau, Baviera,
el nivel de los ríos sigue subiendo cada hora. La policía retiró los coches en los aparcamientos
del Danubio como medida de precaución, dijo una portavoz. Los residentes no habían movido
sus vehículos a pesar de las advertencias de inundación. "Si no los remolcamos, las cosas
flotarían hasta Austria", dijo la portavoz de la policía. El nivel del Danubio había subido casi
dos metros hasta los 7,80 metros a lo largo del sábado, según el servicio de noticias sobre
inundaciones. El nivel del agua de la posada subió de 3,30 a 5,40 metros en las últimas doce
horas. 18.7.2021 - 05:32 hrs
Policía: 110 muertos en Ahrweiler y sus alrededoresSólo en Ahrweiler y sus alrededores han
muerto al menos 110 personas a causa de las inundaciones. Así lo informó la jefatura de policía
de Coblenza. Al menos 670 personas resultaron heridas. Se teme que el número de víctimas
29
mortales y heridos aumente. La policía había estado de servicio toda la noche con muchas
fuerzas en la zona. Muchas carreteras del valle del Ahr permanecieron cerradas.
18.7.2021 - 03:32 hrs
Arroyo de montaña cerca de Oberstdorf peligrosamente represado por masas de maderaLas
fuertes lluvias han provocado la peligrosa crecida de un arroyo en un valle de los Alpes de
Allgäu, cerca de Oberstdorf. En el valle de Stillachtal, la madera que yace transversalmente ha
represado peligrosamente el agua, dijo Peter Vogler, comandante del cuerpo de bomberos de
Oberstdorf. Si esta barrera natural se aflojara repentinamente, podría producirse una ola de
inundación en dirección a Oberstdorf.Los bomberos han colocado barreras de hormigón en el
estadio de cross-country al sur del centro de Oberstdorf para protegerse. Se supone que desvían
posibles masas de agua. Unos 60 bomberos están de servicio. Los bomberos intentan aliviar la
presión bombeando agua. Sin embargo, en el lugar de la presa no se pueden utilizar equipos
pesados, como excavadoras.
18.7.2021 - 03:23 hrs
Ciudades y municipios piden una reforma de la protección civilTras la catástrofe de las
inundaciones en el oeste de Alemania, la Asociación de Ciudades y Municipios pide una
reforma fundamental de la protección civil. "La catástrofe demuestra una vez más que tenemos
que reorganizar la protección civil de una manera nueva, mejor y más sostenible", dijo Gerd
Landsberg, Director General, a los periódicos del Funke Mediengruppe.La Oficina Federal de
Protección Civil y Asistencia en caso de Catástrofe debe ser reforzada y los sistemas de alerta
temprana mejorados. También hay que promover las precauciones personales. Por ejemplo,
todos los hogares deben tener una radio a pilas. El comportamiento correcto en situaciones de
peligro, como apagar la electricidad y el gas, no entrar en los sótanos y mantener las reservas de
alimentos, debe convertirse en norma.
1 8.7.2021 - 01:29 hrs
30
Al menos una víctima mortal por las inundaciones en el distrito de Alta BavieraUna persona ha
muerto en Berchtesgaden como consecuencia de las inundaciones. Una portavoz de la oficina
del distrito de Berchtesgadener Land lo confirmó a BR. En el caso de otra muerte en
Bischofswiesen, aún no se ha establecido la conexión directa.
8.2. Anexo 2
Texto original de la carta en alemán:
Sehr geehrte Frau Martínez-Quereda Pérez,
in regelmäßigen Abständen begehen wir die Küchen und Bäder in den
Wohngemeinschaften und Apartments unserer Studentenwohnheime, um deren Zustand und
einen eventuellen Bedarf an Reparaturen festzustellen. Nur so können wir für Sie und Ihre
Nachmieter einen dauerhaft guten Zustand der Räume gewährleisten.
Die Begehung in Ihrem Wohnheim wird am 05.02.2020, von 08 - 15 Uhr von oben
beginnend erfolgen.
Wir weisen Sie daraufhin, dass Sie uns als Mieter*in im Studentenwohnheim den Zugang
nach Ankündigung während der üblichen Geschäftszeit auch in Ihrer Abwesenheit
ermöglichen müssen. Ein Ersatztermin ist leider nicht möglich.
Wird der Zugang verweigert oder erschwert, so haftet der/die Mieter*in für alle aus der
unterlassenen Prüfung entstandenen Schäden bzw. für die Kosten eines Ersatzeinsatzes.
Wir bitten um Verständnis und Ihre Unterstützung!
Ihr Studentenwerk Leipzig
Mit freundlichen Grüßen
Karsten Zimmerman
31
Traducción de la carta con Google Translate de alemán a español:
Estimada Sra. Martínez-Quereda Pérez,
inspeccionamos las cocinas y los baños de los apartamentos compartidos y los apartamentos
de nuestras residencias de estudiantes a intervalos regulares para determinar su estado y
cualquier necesidad de reparación. Esta es la única forma en que podemos garantizar un
buen estado permanente de las habitaciones para usted y sus nuevos inquilinos.
La inspección en su dormitorio se llevará a cabo el 5 de febrero de 2020, de 8 a.m. a 3 p.m.
comenzando desde arriba.
Queremos señalar que tú, como inquilino de la residencia de estudiantes, debes darnos
acceso durante el horario laboral habitual, incluso en tu ausencia. Desafortunadamente, no
es posible una fecha alternativa.
Si se niega el acceso o se dificulta, el inquilino es responsable de todos los daños resultantes
de la falta de verificación o de los costos de reemplazo.
¡Le pedimos su comprensión y apoyo!
Tu Unión de Estudiantes de Leipzig
Con los mejores deseos
Karsten Zimmerman
32
9. Referencias bibliográficas
Álvarez Vidal, S., Oliver, A., & Badla, T. (2020). Post-editing for Professional Translators:
Cheer of Fear. Tradumàtica, 49-59.
Assosiation, A. T. (2021). The ATA Chronicle. Obtenido de https://www.ata-
chronicle.online/highlights/regular-expressions-an-introduction-for-translators/
Casacuberta, F. (2009). Human interaction for high-quality machine translation.
Communications of the ACM, 135-138.
DePalma, D. (2019). Post-editing in practice. tcworld, -.
Flórez, S. (2012). catálogo de herramientas para la posedición. Tradumàtica, 220.
Flórez, S. (2012). Catálogo de herramientas para la posedición. Tradumàtica, 219-229.
Francés Oltra, N. (06 de 06 de 2018). Repositorio Institucional de la Universidad de Alicante.
Obtenido de http://hdl.handle.net/10045/76833
Guzmán, R. (2017). Automating MT post-editing. Multiligual, 49-52.
Hu, K., & Cadwell, P. (2016). A Comparative Study of Post-editing Guidelines. En Proceedings
of the 19th Annual Conference of the {E}uropean Association for Machine Translation
(págs. 34206—353). Dublin, Ireland.
Institute, E. S. (1 de 7 de 2020). ArcGIS Desktop. Obtenido de
https://desktop.arcgis.com/es/arcmap/latest/extensions/data-reviewer/metacharacters-
used-to-build-regular-expressions.htm
ISO, I. S. (2017). Translation Services - Post-editing of machine translation output-
requirements. International Standard ISO , 14.
ISO, I. S. (2017). Translations services - post-editing of machine translation output.
International Standard ISO, 5.
33
KantanMT. (3 de 12 de 2013). Kantan MT Blog. Obtenido de
https://kantanmtblog.com/2013/12/03/automatic-post-editing/
LeBlanc, M. (2013). Translators on Translation Memory (MT): Results of an Ethnographic
Study in Three Translation Agencies and Services. The International Journal for
Translation & Interpreting Research, 537-56.
Nagy, Z. (2018). Regex Quick Syntax Reference: Understanding and using regular expressions.
Berlin, Germany: Apress.
Nunes Vieira, L., & Specia, L. (2011). A Review of Translation Tools from a Post-Editing
Perspective. Jour.
O'Brian, S. (2011). Towards predicting post-editing productivity. Springer, 197-225.
Oliver, A. (2016). Universitat Oberta de Catalunya. Obtenido de
http://openaccess.uoc.edu/webapps/o2/bitstream/10609/79008/9/Traducci%C3%B3n%2
0y%20tecnolog%C3%ADas%2C%20herramientas%2C%20procesos%20y%20recursos
_M%C3%B3dulo%204_La%20traducci%C3%B3n%20autom%C3%A1tica.pdf
Sáchez Ramos, M. d., & Rico Pérez, C. (2020). Traducción Automática. Conceptos clave,
procesos de evalución y técnicas de posedición. En Traducción Automática (pág. 74).
Alcalá de Henares, Madrid: Comares.
Sánchez-Gijón, P. (2016). La posedición: hacia una definición competencial del perfil y una
descripción multidimensional del fenómeno. Barcelona, España: SENDEBAR.
Schiaffino, R. (2021). The Ata Chronicle. Obtenido de Regular Expressions: An Introduction
for Translators: https://www.ata-chronicle.online/highlights/regular-expressions-an-
introduction-for-translators/
34
Stankevičiūtė, G., Kasperavičienė, R., & Horbačauskienė, J. (2017). Issues in machine
translation : a case of mobile apps in the Lithuanian and English language pair.
International journal on language, literature and culture in education, 75-88.
Tejeda Achondo, I. D. (20 de 1 de 2020). http://openaccess.uoc.edu. Obtenido de
http://openaccess.uoc.edu/webapps/o2/bitstream/10609/108607/6/idtaTFM0120memori
a.pdf
Trados. (2021). Trados. Obtenido de https://www.trados.com/es/solutions/machine-
translation.html
Vasconcellos, M., & Bostad, D. A. (1992). Computers in translation. A practical appraisal. En J.
Newton. Londres: Routledge; N.º 1 edición.
Windham, K. M. (2014). Introduction to Regular Expressions in SAS. Cary, NC: SAS Institute
Inc.
Zetzsche, J. (2012). MT Post-Editing Made Easy. The Tool Box.
35

Uso de Expresiones Regulares para La Postedi MartinezQuereda Perez Fuensanta

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Uso de Expresiones Regulares para La Postedi MartinezQuereda Perez Fuensanta

Cargado por

Copyright:

Formatos disponibles

USO DE

Nombre del alumno: Fuensanta Martínez-Quereda Pérez

Nombre del grado: Traducción e Interpretación

Línea de Investigación: Tecnologías de la Traducción

Tutor: Felipe Sánchez Martínez

2. Estado de la cuestión ............................................................................................................. 5

2.1. La postedición ............................................................................................................... 5

2.2. Proceso de postedición .................................................................................................. 8

3. Herramientas usadas en la postedición................................................................................ 11

3.1. Entornos de traducción ..................................................................................................... 12

3.2. Herramientas complementarias ........................................................................................ 13

4. Expresiones regulares .......................................................................................................... 14

4.1. Definición y usos.............................................................................................................. 14

4.2. Lenguajes de las expresiones regulares ............................................................................ 15

4.3. Sintaxis de las expresiones regulares ............................................................................... 15

5. Uso de expresiones regulares para la postedición ............................................................... 19

6. Desarrollo de expresiones regulares para la postedición alemán-español........................... 22

8.1. Anexo 1 ....................................................................................................................... 26

8.2. Anexo 2 ....................................................................................................................... 31

9. Referencias bibliográficas ................................................................................................... 33

Fuensanta Martínez-Quereda Pérez

postedición de la traducción automática. Las expresiones regulares consisten en una secuencia

estado de la cuestión sobre técnicas y estrategias para la postedición de la traducción

automática y sobre el uso de expresiones regulares en otras tareas relacionadas con la

desarrollo de expresiones regulares para la corrección de un texto traducido automáticamente.

Palabras clave: expresiones regulares, postedición, traducción automática

Nachbearbeitung von Übersetzungen zu untersuchen. Reguläre Ausdrücke bestehen aus einer

Übersetzungen und die Verwendung von regulären Ausdrücken in anderen

übersetzungsbezogenen Aufgaben durchgeführt. Abschließend wird die Verwendung von

Ausdrücken für die Korrektur eines maschinell übersetzten Textes veranschaulicht.

Schüsselwörter: reguläre Ausdrïke, Nachbearbeitung, maschinelle Übersetzung

La traducción se encuentra en evolución constante y, en los últimos años, el desarrollo de las

tecnologías, la globalización y la necesidad de traducir una mayor cantidad de contenido

destinado a su publicación, ha impulsado el desarrollo de las tecnologías de la traducción y en

satisfacer la demanda (Casacuberta, 2009).

Gracias a este impresionante avance que ha experimentado la informática, la evolución de la

de información, lo que ha permitido el desarrollo de enfoques basados en análisis estadísticos y

ya que existe la posibilidad de entrenar sistemas de traducción automática a partir de textos

traducidos automáticamente posteditados por profesionales (ISO, 2017).

traducción, como en algunos editores de texto.

expresiones regulares, cómo pueden emplearse estas en la postedición de la traducción

automática y en otras tareas distintas de la postedición y, por último, desarrollaremos

Tomando como ejemplo la definición de la Organización Internacional de Normalización 18587

se lleva a cabo sobre el resultado de la traducción automática con el propósito de comprobar su

la traducción automática”2 (Vasconcellos & Bostad, 1992) y el hecho de realizar esas

correcciones “atendiendo a unas guías específicas y criterios de calidad”3 (O'Brian, 2011). A

sobre el resultado de una traducción automática para comprobar su exactitud y comprensión,

criterios de calidad y al propósito de la traducción.

Ya en la década de los 80 podemos encontrar algunas referencias a la actividad de postedición

TA y la calidad de sus traducciones, una mayor disponibilidad de recursos relacionados con la

TA, la expansión generalizada de esta y la incorporación de los sistemas de TA en los procesos

experimentan estos y la calidad de las traducciones que resultan de los mismos.

debido a la necesidad de una comunicación internacional y al hecho de que en los próximos

Toni Badia y reflejadas en el artículo Post-editing for Professional Translators: Cheer or

la cantidad de ingresos recibida con la actividad de traducción y la de PE no difieren de forma

herramientas, lo cual también ralentiza el desarrollo de esta disciplina.

del mundo de la traducción, es importante señalar las características que la diferencian de la

actividad de revisión y de la propia traducción.

edición y corrección del texto resultante de la TA.

en la postedición se edita y corrige un texto resultante de un sistema de TA. Por consiguiente, el

revisor y el posteditor se enfrentan a errores de distinta naturaleza. El primero deberá tratar

diferencia veremos a continuación.

propósito de la traducción y el encargo realizado por el cliente: PE completa y PE rápida o