Está en la página 1de 4

<www.medtrad.org/panacea.

htm> Reseas

El corpus tcnic del IULA: corpus textual especializado


plurilinge
Teresa Cabr y Carme Bach*

Institut Universitari de Lingstica Aplicada: Bwana- La herramienta que permite acceder a los datos del corpus
Net: Programa dexplotaci del corpus tcnic de lIULA. a travs de Internet es BwanaNet, que puede encontrarse en la
<brangaene.upf.es/bwananet/index.htm>. Corpus textual pgina principal de la web del IULA (<www.iula.upf.edu>), en
especializado en cinco idiomas (cataln, espaol, ingls, el apartado denominado Portal de recursos del IULA.
francs y alemn), con instrucciones de ayuda e interfaz
de consulta en tres idiomas (cataln, espaol e ingls) 2. Los textos
El corpus del IULA, como se ha dicho, contiene textos
escritos en cinco lenguas diferentes (cataln, castellano, ingls,
1. Presentacin francs y alemn) de las reas de especialidad de economa,
El Instituto Universitario de Lingstica Aplicada (IULA) es derecho, medio ambiente, medicina e informtica, adems de
un centro de la Universidad Pompeu Fabra, de Barcelona, documentos paralelos sobre estas materias. Cada una de las
dedicado a la investigacin y a la formacin de postgrado. reas fue estructurada en diferentes subreas por un especia-
Fue creado en 1993 y organizado desde su creacin por M.a lista, a fin de que los textos pudieran recuperarse con mayor
Teresa Cabr.1 El IULA se organiza en grupos de investiga- precisin temtica. Vase a continuacin cmo est estructu-
cin: Lxico, Terminologa y discurso especializado (Grupo rada el rea de la medicina:
IULATERM, que acoge la Lingstica Computacional), Lexi-
cografa (Grupo INFOLEX), Variacin lingstica (Grupo Anatoma (AN)
UVAL), Documentacin y edicin digital (Grupo DIGIDOC)
Organismos (OR)
y tres laboratorios: OBNEO (Observatorio de Neologa), LATEL
(Laboratorio de Tecnologas Lingsticas) y el Laboratorio de Enfermedades (MA)
Lingstica Forense.
Desde 1993 hasta la actualidad, el proyecto Corpus ha sido Productos qumicos y frmacos (PQ)
el proyecto de investigacin comn en el que han participado Tcnicas y equipamientos analticos,
todos los miembros del IULA. Recopila textos escritos en diagnsticos y teraputicos (TE)
cinco lenguas diferentes (cataln, castellano, ingls, francs y
alemn) de las reas de especialidad de la economa, el dere- Psiquiatra y psicologa (PS)
cho, el medio ambiente, la medicina y la informtica. El corpus
Ciencias biolgicas (CB)
comprende adems documentos paralelos, con el objetivo de
facilitar estudios de traduccin. A su vez, el corpus multilinge Ciencias fsicas (CF)
del IULA cuenta con un subcorpus de lengua general, extrado
de la prensa de gran difusin y constituido como corpus con- Antropologa, educacin, sociologa
trastivo. y fenmenos sociales (FS)
El objetivo de este corpus es facilitar el anlisis de los da- Tecnologa, industria, agricultura (TI)
tos lingsticos a fin de poder establecer las leyes que rigen el
comportamiento de cada lengua en cada rea. Sus destinata- Humanidades (HU)
rios son los investigadores y todos los usuarios que requieran
Informacin cientfica (IC)
consultas sobre los mbitos de especialidad tratados. De la
explotacin del corpus se han derivado estudios de carcter Grupos nominales (GN)
terminolgico, discursivo, morfolgico, sintctico, neolgico
o traductolgico. Para facilitar la explotacin de los datos, el Planificacin y gestin sanitaria (GS)
IULA ha desarrollado una serie de herramientas de explo- Asesor: Toni Valero
racin. Una muestra de estas herramientas son un extractor
automtico de neologa, un detector automtico de termino-
loga, un alineador de textos, un alimentador de diccionarios, 3. Tratamiento de los textos
etc. De hecho, este corpus es el soporte principal de las acti- El procesamiento de los textos del corpus sigue los siguien-
vidades de investigacin y docencia de nuestro instituto. tes pasos:

*Instituto Universitario de Lingstica Aplicada, Universidad Pompeu Fabra de Barcelona (Espaa).


Direccin para correspondencia: teresa.cabre@upf.edu.

Panace@. Vol. V, n.o 16. Junio, 2004 173


Reseas <www.medtrad.org/panacea.htm>

a) Fase de seleccin de los textos El corpus de medicina incluye un subcorpus de genoma


Los especialistas en cada materia seleccionan aquellos tex- humano, elaborado por el grupo Iulaterm, que contiene 945 000
tos que consideran pertinentes y los clasifican temticamente palabras en cataln, 1 447 000 en espaol y 1 119 000 en ingls.
dentro de una estructuracin del dominio previamente consen- Los datos en relacin con el corpus paralelo de las
suada por especialistas de la materia. parejas lingsticas ms significativas cataln-espaol, cataln-
ingls, espaol-ingls, se presentan en el cuadro 2.
b) Fase de anotacin y registro de la informacin del
documento Cataln Cataln Espaol
rea
Los documentos se marcan de acuerdo con el estndar espaol ingls ingls
SGML y siguiendo las directrices marcadas por el Corpus
Derecho 460 000 12 000 57 000
Encoding Standard (CES) de la iniciativa EAGLES. Poste-
riormente se registra la informacin documental de los textos Economa 600 000 250 000 283 000
(autor, ttulo, edicin, pginas seleccionadas, subdominio al
cual pertenece, idiomas en que ese mismo documento se en- Medio
214 000 213 000 144 000
cuentra en el corpus...). ambiente
Informtica 28 000 - 300 000
c) Fase de procesamiento lingstico
El procesamiento lingstico de los documentos est auto- Medicina 118 000 40 000 640 000
matizado y consta de un preproceso, a travs del cual se tratan Total . . . 1 420 000 515 000 1 424 000
lingsticamente aquellas entidades que admiten una deteccin
automtica previa al anlisis morfolgico (fechas, nmeros,
Cuadro 2. Nmero de palabras en corpus paralelos por mbito
locuciones, nombres propios, abreviaturas...), un anlisis mor- y parejas de lenguas.
folgico, mediante el cual se lematizan todas las palabras de los
documentos y se les da una o ms etiquetas morfolgicas, de Finalmente, los datos del corpus de contraste se muestran
acuerdo con los etiquetarios morfosintcticos diseados en el en el cuadro 3.
IULA, y una posterior desambiguacin lingstica y estadsti-
ca, de forma que a cada palabra le acabe correspondiendo un
rea Cataln Espaol Total
solo lema y una sola etiqueta.

d) Almacenamiento en una base de datos textual General 1 526 000 3 230 000 4 756 000
Finalmente, cuando ya cada palabra tiene el lema y la ca-
tegora gramatical que le corresponde, los textos se almacenan Cuadro 3. Nmero de palabras en el corpus de lengua general.
en una base de datos textual, que contiene toda la informacin
que se ha generado sobre el documento. 5. Disponibilidad del corpus
El resultado de todo el proceso de tratamiento de los textos La consulta del corpus del IULA se realiza va Internet a
puede consultarse actualmente en lnea en <brangaene.upf. travs de BwanaNet, una interfaz desarrollada en el IULA. El
es/bwananet/index.htm>. Corpus Tcnico del IULA (CT-IULA) est indexado con un
paquete de herramientas desarrolladas por el Institut fr Mas-
4. Estado actual chinelle Sprachverarbeitung, de la Universidad de Stuttgart
El corpus del IULA contiene actualmente ms de 22 mi- (Corpus Workbench). El IULA ha desarrollado la herramienta
llones de palabras, con la siguiente distribucin por mbito que permite la interrogacin del CT-IULA en lnea (<brangae-
temtico y lengua. ne.upf.es/bwananet/index.htm>).

rea Cataln Espaol Ingls Francs Alemn Total

Derecho 1 463 000 2 085 000 431 000 44 000 16 000 4 039 000

Economa 1 776 000 1 091 000 274 000 78 000 27 000 3 246 000

Medio ambiente 1 506 000 1 062 000 599 000 230 000 429 000 3 826 000

Informtica 655 000 1 227 000 338 000 194 000 83 000 2 497 000

Medicina 2 619 000 4 077 000 1 555 000 27 000 198 000 8 476 000

Total . . . 8 019 000 9 542 000 3 197 000 573 000 753 000 22 084 000

Cuadro 1. Nmero de palabras por lengua y mbito.

174 Panace@. Vol. V, n.o 16. Junio, 2004


<www.medtrad.org/panacea.htm> Reseas

Las consultas pueden hacerse bien sobre la totalidad del cor- 3) Concordancia simple
pus, bien sobre un subcorpus determinado a elegir (conjunto de do- Permite interrogar sobre un lema o forma concreta, as
cumentos, documentos de un mismo subdominio...). De momento, como escoger el contexto de aparicin completo o parcial.
hay que hacer consultas por cada lengua, pero en la actualidad se
est desarrollando una herramienta que permita hacer bsquedas 4) Concordancia estndar
multilinges y que estar disponible a finales de este ao. Permite la bsqueda de hasta doce unidades diferentes. Las
interrogaciones pueden hacerse sobre la forma, el lema y/o la
6. Posibilidades actuales de bsqueda categora morfolgica de forma combinada.
Una de las utilidades de los corpus etiquetados es que se Puede escogerse el tipo de contexto que se desee para los
pueden efectuar bsquedas por atributos. En el caso de nues- resultados, los elementos textuales sobre los cuales se quiere
tro corpus, disponemos de los atributos palabra, lema y hacer la bsqueda y el nivel de informacin que se quiere en el
categora morfolgica, de modo que podemos hacer bs- resultado (formas, lemas o categoras morfolgicas).
quedas a travs de cada uno de ellos y con todas sus posibles Ejemplo: buscamos apariciones del lema enfermedad se-
combinaciones. guido de un adjetivo calificativo, en documentos de medicina.
BwanaNet ofrece cinco posibilidades de interrogacin: El resultado de esta bsqueda sera:

1) Bsqueda por unidades fuera de contexto y rasgos enfermedad indica que la


Permite generar una lista de formas, lemas o categoras mor- patolgicos. La congnita alteracin est
folgicas del subcorpus escogido. Debe especificarse la frecuen- y especificidad, enfermedades como la
cia mnima de aparicin de elementos que nos interese listar. Esta pudiendo ocurrir degenerativas demencia, con
opcin de bsqueda no se activa si se selecciona todo el corpus. fenmeno se enfermedades Los pulmones
acenta en algunas pulmonares resuenan a
2) Bsqueda por frecuencias
La opcin de frecuencias solo est disponible cuando la arteria femoral enfermedades y el vaso es
seleccin se hace sobre todo el corpus. Permite generar dos es propensa a arteriales accesible
tipos de informacin: a) lista de frecuencias de formas, lemas En algunos enfermedad del miocardio
o etiquetas sobre todo el corpus seleccionado, y b) lista de pacientes, una grave da lugar
frecuencias sobre secuencias de formas, lemas o categoras
renal crnica: enfermedades o secundarias
morfolgicas de todo el corpus escogido.
pielonefritis. Las primarias del intersticio
Ejemplo: queremos saber cules son las preposiciones ms
frecuentes que aparecen despus del verbo hacer, con una La artritis enfermedad . En conclusin,
frecuencia mnima de dos apariciones. El resultado sera: reumatoide es una evolutiva diremos
De hipertensin enfermedad soplo cardaco,
858 23,64% hacer de
arterial y de coronaria orgnico o
797 21,96% hacer en
512 14,11 hacer con 5) Concordancia compleja
440 12,12% hacer a Este tipo de bsqueda es la que ofrece ms posibilidades
390 10,75% hacer por de interrogacin en el corpus tcnico del IULA. Esta facilidad
299 8,24% hacer para se debe a que permite utilizar buena parte de la potencialidad
63 1,74% hacer mediante del lenguaje de interrogacin CQP. Con esta opcin se podrn
47 1.30% hacer sobre hacer, adems de las que ya se podan hacer en la concordancia
44 1,21% hacer sin estndar, interrogaciones sobre un nmero ilimitado de unida-
43 1,18% hacer desde des, interrogaciones sobre todos los tipos de combinaciones
34 0,94% hacer entre de formas, lemas y/o categoras, clculos de frecuencias sobre
26 0,72% hacer hasta formas, lemas o categoras, etctera.
12 0,33% hacer segn Para especificarlo en la bsqueda hay que hacerlo de la
10 0,28% hacer ante manera siguiente:
10 0,28% hacer hacia
8 0,22% hacer bajo Bsqueda de Expresin
8 0,22% hacer cerca de
6 0,17% hacer tras Una forma concreta [word = ejemplos]
6 0,17% hacer acerca de Un lema [lemma = ejemplo]
4 0,11% hacer contra
Una categora morfolgica [pos = N.*]
4 0,11% hacer por medio de
2 0,06% hacer incluso [lemma=ser & !(word= soy|
Opciones combinadas
2 0,06% hacer frente a word= somos) & pos=V.*]
2 0,06% hacer a cambio de

Panace@. Vol. V, n.o 16. Junio, 2004 175


Reseas <www.medtrad.org/panacea.htm>

Ejemplo: En un subcorpus de anatoma, buscamos todas visin anterior 35


las combinaciones de nombre comn con adjetivo, ordenadas membrana plasmtico 34
por frecuencia, con la intencin de encontrar posibles adjetivos
glndula tiroides 34
con valor especializado que coocurran con distintos nombres
confiriendo valor especializado a la unidad polilxica. El re- parte superior 34
sultado de la bsqueda sera: sistema inmunitario 33
ganglio linftico 31
lnea medio 69
sistema nervioso 31
clula eucariota 68
miembro superior 30
cara anterior 63
tubo digestivo 56 Esta es slo una muestra parcial de los resultados que
pared abdominal 47 pueden obtenerse con BwanaNet, pues la bsqueda compleja
permite explotar ntegramente el corpus etiquetado y lematiza-
cara posterior 46
do del IULA. Para finales del ao en curso (2004) est previsto
lateral 38 adems que sea operativo el acceso multilinge a los datos.
clula folicular 36
Notas
pared torcico 35 1
Han participado como responsables de reas de trabajo: Carme Bach
plexo braquial 35 y Jordi Vivaldi.

Hierbas, plantas, animales..., lengua y traduccin (y II)


Enrique Bernrdez
Universidad Complutense de Madrid (Espaa)

Vimos en el ltimo nmero de Panace@ (pg. 5) el error histrico al que nos llevaba traducir el ingls corn como maz sin
pensar ms que en (parte de) la equivalencia lxica. Pero no son stos los nicos errores con los que nos encontramos y de
los que, con frecuencia, ni nos damos cuenta. Sucede con los nombres de plantas y de animales, sobre todo aves y peces.
Los diccionarios no suelen ser demasiado tiles, porque su funcin no es proporcionar informacin sobre el hbitat, la forma
de vida y dems detalles interesantes de plantas y animales. Podemos encontrar en uno, por ejemplo, que el aleman Eiche
puede ser tanto encina como roble (ambos son Quercus en la denominacin cientfica). La nica posibilidad de decidir bien
es conocer suficientemente ambos rboles para identificar las diferencias, sean de hbitat (en los Alpes son ms frecuentes
los robles, pese a lo que se tradujo en una novela alemana) o de cualquier otra caracterstica. El traductor tendr que fami-
liarizarse con el nombre de la planta, del ave o el pez, aunque a lo mejor la primera entrada del diccionario fuese la correcta;
pero es imprescindible asegurarse, para no situar en el fro norte escandinavo un pajarito de nuestros campos estivales o para
evitar que un pez de ro aparezca bogando feliz por el ocano ndico. Habr que echar mano, por tanto, no solo de enciclo-
pedias, sino tambin de guas especializadas en estos seres, de los que, en general, nunca sabemos suficiente. Muchas veces
habremos de trabajar a partir de la denominacin cientfica, que es lo nico seguro a ciencia cierta. Incluso en una traduccin
tuve que optar por usar esos nombres cientficos (del estilo de Myrica gale y Espidia tormentosa) para traducir nombres
ingleses de hierbas norteamericanas inexistentes en espaol corriente; solucin imposible, ciertamente, si se hubiera tratado
de una novela, por ejemplo. Claro que a veces surgen problemas aun ms curiosos. Nada ms fcil, por ejemplo, que traducir
el ingls robin: es un petirrojo (o pechicolorado); pero resulta que en Inglaterra y Espaa es un simptico y huidizo pajarillo,
mientras en Norteamrica tiene un tamao mucho mayor, camina frecuentemente por el suelo sin miedo a las personas y en
realidad no est emparentado con el europeo, pues es una especie de tordo o mirlo, aunque con plumas rojas en el pecho.
Cmo traducir, entonces? Petirrojo no sera opcin adecuada para el pjaro norteamericano, porque nos producira quiz
una impresin completamente distinta a la realidad, y podra dar lugar a confusiones con otras referencias en el texto (en el
supuesto, claro, de que sepamos reconocer en nuestros parques a un bonito pajarito como petirrojo). Como el traductor no
puede saberlo siempre todo, la solucin es: mucho ojo y a buscar confirmacin!

Reproducido con autorizacin de El Trujamn,


del Centro Virtual Cervantes (<cvc.cervantes.es/trujaman/>).

176 Panace@. Vol. V, n.o 16. Junio, 2004