htm> Reseas
Institut Universitari de Lingstica Aplicada: Bwana- La herramienta que permite acceder a los datos del corpus
Net: Programa dexplotaci del corpus tcnic de lIULA. a travs de Internet es BwanaNet, que puede encontrarse en la
<brangaene.upf.es/bwananet/index.htm>. Corpus textual pgina principal de la web del IULA (<www.iula.upf.edu>), en
especializado en cinco idiomas (cataln, espaol, ingls, el apartado denominado Portal de recursos del IULA.
francs y alemn), con instrucciones de ayuda e interfaz
de consulta en tres idiomas (cataln, espaol e ingls) 2. Los textos
El corpus del IULA, como se ha dicho, contiene textos
escritos en cinco lenguas diferentes (cataln, castellano, ingls,
1. Presentacin francs y alemn) de las reas de especialidad de economa,
El Instituto Universitario de Lingstica Aplicada (IULA) es derecho, medio ambiente, medicina e informtica, adems de
un centro de la Universidad Pompeu Fabra, de Barcelona, documentos paralelos sobre estas materias. Cada una de las
dedicado a la investigacin y a la formacin de postgrado. reas fue estructurada en diferentes subreas por un especia-
Fue creado en 1993 y organizado desde su creacin por M.a lista, a fin de que los textos pudieran recuperarse con mayor
Teresa Cabr.1 El IULA se organiza en grupos de investiga- precisin temtica. Vase a continuacin cmo est estructu-
cin: Lxico, Terminologa y discurso especializado (Grupo rada el rea de la medicina:
IULATERM, que acoge la Lingstica Computacional), Lexi-
cografa (Grupo INFOLEX), Variacin lingstica (Grupo Anatoma (AN)
UVAL), Documentacin y edicin digital (Grupo DIGIDOC)
Organismos (OR)
y tres laboratorios: OBNEO (Observatorio de Neologa), LATEL
(Laboratorio de Tecnologas Lingsticas) y el Laboratorio de Enfermedades (MA)
Lingstica Forense.
Desde 1993 hasta la actualidad, el proyecto Corpus ha sido Productos qumicos y frmacos (PQ)
el proyecto de investigacin comn en el que han participado Tcnicas y equipamientos analticos,
todos los miembros del IULA. Recopila textos escritos en diagnsticos y teraputicos (TE)
cinco lenguas diferentes (cataln, castellano, ingls, francs y
alemn) de las reas de especialidad de la economa, el dere- Psiquiatra y psicologa (PS)
cho, el medio ambiente, la medicina y la informtica. El corpus
Ciencias biolgicas (CB)
comprende adems documentos paralelos, con el objetivo de
facilitar estudios de traduccin. A su vez, el corpus multilinge Ciencias fsicas (CF)
del IULA cuenta con un subcorpus de lengua general, extrado
de la prensa de gran difusin y constituido como corpus con- Antropologa, educacin, sociologa
trastivo. y fenmenos sociales (FS)
El objetivo de este corpus es facilitar el anlisis de los da- Tecnologa, industria, agricultura (TI)
tos lingsticos a fin de poder establecer las leyes que rigen el
comportamiento de cada lengua en cada rea. Sus destinata- Humanidades (HU)
rios son los investigadores y todos los usuarios que requieran
Informacin cientfica (IC)
consultas sobre los mbitos de especialidad tratados. De la
explotacin del corpus se han derivado estudios de carcter Grupos nominales (GN)
terminolgico, discursivo, morfolgico, sintctico, neolgico
o traductolgico. Para facilitar la explotacin de los datos, el Planificacin y gestin sanitaria (GS)
IULA ha desarrollado una serie de herramientas de explo- Asesor: Toni Valero
racin. Una muestra de estas herramientas son un extractor
automtico de neologa, un detector automtico de termino-
loga, un alineador de textos, un alimentador de diccionarios, 3. Tratamiento de los textos
etc. De hecho, este corpus es el soporte principal de las acti- El procesamiento de los textos del corpus sigue los siguien-
vidades de investigacin y docencia de nuestro instituto. tes pasos:
d) Almacenamiento en una base de datos textual General 1 526 000 3 230 000 4 756 000
Finalmente, cuando ya cada palabra tiene el lema y la ca-
tegora gramatical que le corresponde, los textos se almacenan Cuadro 3. Nmero de palabras en el corpus de lengua general.
en una base de datos textual, que contiene toda la informacin
que se ha generado sobre el documento. 5. Disponibilidad del corpus
El resultado de todo el proceso de tratamiento de los textos La consulta del corpus del IULA se realiza va Internet a
puede consultarse actualmente en lnea en <brangaene.upf. travs de BwanaNet, una interfaz desarrollada en el IULA. El
es/bwananet/index.htm>. Corpus Tcnico del IULA (CT-IULA) est indexado con un
paquete de herramientas desarrolladas por el Institut fr Mas-
4. Estado actual chinelle Sprachverarbeitung, de la Universidad de Stuttgart
El corpus del IULA contiene actualmente ms de 22 mi- (Corpus Workbench). El IULA ha desarrollado la herramienta
llones de palabras, con la siguiente distribucin por mbito que permite la interrogacin del CT-IULA en lnea (<brangae-
temtico y lengua. ne.upf.es/bwananet/index.htm>).
Derecho 1 463 000 2 085 000 431 000 44 000 16 000 4 039 000
Economa 1 776 000 1 091 000 274 000 78 000 27 000 3 246 000
Medio ambiente 1 506 000 1 062 000 599 000 230 000 429 000 3 826 000
Informtica 655 000 1 227 000 338 000 194 000 83 000 2 497 000
Medicina 2 619 000 4 077 000 1 555 000 27 000 198 000 8 476 000
Total . . . 8 019 000 9 542 000 3 197 000 573 000 753 000 22 084 000
Las consultas pueden hacerse bien sobre la totalidad del cor- 3) Concordancia simple
pus, bien sobre un subcorpus determinado a elegir (conjunto de do- Permite interrogar sobre un lema o forma concreta, as
cumentos, documentos de un mismo subdominio...). De momento, como escoger el contexto de aparicin completo o parcial.
hay que hacer consultas por cada lengua, pero en la actualidad se
est desarrollando una herramienta que permita hacer bsquedas 4) Concordancia estndar
multilinges y que estar disponible a finales de este ao. Permite la bsqueda de hasta doce unidades diferentes. Las
interrogaciones pueden hacerse sobre la forma, el lema y/o la
6. Posibilidades actuales de bsqueda categora morfolgica de forma combinada.
Una de las utilidades de los corpus etiquetados es que se Puede escogerse el tipo de contexto que se desee para los
pueden efectuar bsquedas por atributos. En el caso de nues- resultados, los elementos textuales sobre los cuales se quiere
tro corpus, disponemos de los atributos palabra, lema y hacer la bsqueda y el nivel de informacin que se quiere en el
categora morfolgica, de modo que podemos hacer bs- resultado (formas, lemas o categoras morfolgicas).
quedas a travs de cada uno de ellos y con todas sus posibles Ejemplo: buscamos apariciones del lema enfermedad se-
combinaciones. guido de un adjetivo calificativo, en documentos de medicina.
BwanaNet ofrece cinco posibilidades de interrogacin: El resultado de esta bsqueda sera:
Vimos en el ltimo nmero de Panace@ (pg. 5) el error histrico al que nos llevaba traducir el ingls corn como maz sin
pensar ms que en (parte de) la equivalencia lxica. Pero no son stos los nicos errores con los que nos encontramos y de
los que, con frecuencia, ni nos damos cuenta. Sucede con los nombres de plantas y de animales, sobre todo aves y peces.
Los diccionarios no suelen ser demasiado tiles, porque su funcin no es proporcionar informacin sobre el hbitat, la forma
de vida y dems detalles interesantes de plantas y animales. Podemos encontrar en uno, por ejemplo, que el aleman Eiche
puede ser tanto encina como roble (ambos son Quercus en la denominacin cientfica). La nica posibilidad de decidir bien
es conocer suficientemente ambos rboles para identificar las diferencias, sean de hbitat (en los Alpes son ms frecuentes
los robles, pese a lo que se tradujo en una novela alemana) o de cualquier otra caracterstica. El traductor tendr que fami-
liarizarse con el nombre de la planta, del ave o el pez, aunque a lo mejor la primera entrada del diccionario fuese la correcta;
pero es imprescindible asegurarse, para no situar en el fro norte escandinavo un pajarito de nuestros campos estivales o para
evitar que un pez de ro aparezca bogando feliz por el ocano ndico. Habr que echar mano, por tanto, no solo de enciclo-
pedias, sino tambin de guas especializadas en estos seres, de los que, en general, nunca sabemos suficiente. Muchas veces
habremos de trabajar a partir de la denominacin cientfica, que es lo nico seguro a ciencia cierta. Incluso en una traduccin
tuve que optar por usar esos nombres cientficos (del estilo de Myrica gale y Espidia tormentosa) para traducir nombres
ingleses de hierbas norteamericanas inexistentes en espaol corriente; solucin imposible, ciertamente, si se hubiera tratado
de una novela, por ejemplo. Claro que a veces surgen problemas aun ms curiosos. Nada ms fcil, por ejemplo, que traducir
el ingls robin: es un petirrojo (o pechicolorado); pero resulta que en Inglaterra y Espaa es un simptico y huidizo pajarillo,
mientras en Norteamrica tiene un tamao mucho mayor, camina frecuentemente por el suelo sin miedo a las personas y en
realidad no est emparentado con el europeo, pues es una especie de tordo o mirlo, aunque con plumas rojas en el pecho.
Cmo traducir, entonces? Petirrojo no sera opcin adecuada para el pjaro norteamericano, porque nos producira quiz
una impresin completamente distinta a la realidad, y podra dar lugar a confusiones con otras referencias en el texto (en el
supuesto, claro, de que sepamos reconocer en nuestros parques a un bonito pajarito como petirrojo). Como el traductor no
puede saberlo siempre todo, la solucin es: mucho ojo y a buscar confirmacin!