Está en la página 1de 49

n 115-S

noviembre/diciembre de 2009

Suplemento
VIII Jornada de AETER
Terminologa, ontologas y

multilingualidad

Algunas experiencias de la

integracin de ontologas en
proyectos de terminologa

GUADALUPE AGUADO DE CEA


EcoLexicon. Tesoro visual sobre

medio ambiente

DUFIE, Diccionario de

11

MARA ROSA CASTRO PRIETO

unidades fraseolgicas inglsespaol: una ayuda para la


traduccin de unidades polilxicas

El diseo de aplicaciones

terminolgicas: los extractores de


terminologa

Do-it-yourself IT for

Terminology o experiencias de
bricolaje informtico en la
elaboracin de diccionarios
terminolgicos

El English-Spanish Accounting

22

PEDRO A. FUERTES-OLIVERA

42

CHELO VARGAS SIERRA

Terminologa aplicada basada en

corpus

37

SILVIA MOLINA

15

ROSA ESTOP BAGOT

Dictionary: un diccionario de
internet para traductores

34

MERC LORENTE CASAFONT

29

XAVIER GMEZ GUINOVART

En este suplemento, que puntoycoma publica de manera excepcional, se renen las contribuciones presentadas en la VIII Jornada de la Asociacin Espaola de Terminologa (AETER), que se celebr el
21 de noviembre de 2008 en la Escuela Tcnica Superior de Ingenieros de Caminos de la Universidad Politcnica de Madrid con el ttulo Modelos, recursos y aplicaciones informticas para la terminologa. En la
pgina web de AETER <http://www.aeter.org/home.asp> se ofrece informacin sobre las actividades de la
asociacin.

noviembre/diciembre de 2009

n 115-S

Terminologa, ontologas y multilingualidad1


GUADALUPE AGUADO DE CEA
Universidad Politcnica de Madrid, Ontology Engineering Group
Guadalupe.aguado@upm.es

Introduccin1

para la indizacin y recuperacin de la informacin en entornos especializados. Para estos


fines, las relaciones que se contemplan, por
regla general, son las de equivalencia, las jerrquicas y las asociativas. Los documentalistas, junto con los ingenieros del conocimiento,
han dado grandes pasos para poder intercambiar la informacin disponible en sus bibliotecas en el entorno de la web. Es decir, el objetivo es disear modelos, lenguajes y herramientas que permitan representar el conocimiento
y poder acceder a l a travs de la web. Para
ello se ha adoptado el sistema SKOS, Simple
Knowledge Organization System, cuyo objetivo
es facilitar la publicacin de los datos necesarios para los documentalistas lo que se conoce como lenguajes controlados para su
uso en la web semntica.

a terminologa entendida como la descripcin y organizacin de los conceptos de un


dominio de conocimiento, las relaciones entre
los conceptos y los trminos o las definiciones
que denotan esos conceptos estn presentes en
diferentes mbitos. Esta organizacin conceptual y la correspondiente manifestacin lingstica, grfica, formal o icnica de los conceptos pueden adoptar formas diferentes en
los recursos que se utilizan en reas como la
biblioteconoma y los sistemas de gestin documental, o en las ontologas, como base de la
web semntica2 y otros sistemas de representacin de conocimiento en inteligencia artificial. Entre los recursos ms habituales que, de
una u otra forma, representan el conocimiento
de un dominio, estn los tesauros, los vocabularios controlados, los lexicones, las redes semnticas y las ontologas. Lgicamente, la
organizacin en estos recursos est influida
por los principios de ordenacin semntica
que cada comunidad cientfica considera ms
relevantes para sus fines. Sin entrar a detallar
cada uno de ellos, es conveniente que de forma somera veamos qu alcance tienen.

En cambio, en lingstica y en procesamiento de lenguaje natural (PLN), un tesauro es un


repertorio lexicogrfico que agrupa las unidades lxicas segn su significado, ya sea similar
o relacionado. En la actualidad, WordNet3 se
utiliza como tesauro en lnea y, sin pretenderlo
y sin que haya sido ese su objetivo, se ha convertido prcticamente en un estndar, a juzgar
por la cantidad de trabajos de investigacin
que lo toman como base o modelo para sus
estudios o aplicaciones. De ah que muchos
usuarios lo consideren un tesauro; otros, en
cambio, una base de datos lxica, por ejemplo,
los creadores; y otros, como Hirst, un conjunto
de ambas: WordNet, the on-line English thesaurus and lexical database [...] (Hirst 1999: 628). No
faltan quienes estiman que es ms bien una
red semntica ya que recoge diferentes tipos
de relaciones, no solamente las jerrquicas

En biblioteconoma, se entiende por tesauro


una herramienta documental que se emplea

Este trabajo se ha desarrollado dentro del proyecto


NeOn (FP6-027595), del VI Programa Marco,
<http://www.neon-project.org>. El modelo que aqu se
propone se ha realizado por el Grupo de Ingeniera
Ontolgica de la Universidad Politcnica de Madrid
(OEG) y han participado, por orden alfabtico, Guadalupe Aguado, Mauricio Espinoza, Asuncin GmezPrez y Elena Montiel-Ponsoda, en colaboracin con
Wim Peters, de la Universidad de Sheffield.

T. Berners-Lee / J. Hendler / O. Lassila, The Semantic


Web, <http://www.w3.org/2001/sw/>, Scientific American, mayo 2001.

<http://poets.notredame.ac.jp/cgi-bin/wn>.

n 115-S

noviembre/diciembre de 2009

(hiperonimia, hiponimia), sino tambin las


relaciones de meronimia, holonimia, sinonimia y antonimia.

esta organizacin, podremos distinguir entre


un cuadro PINTADO_POR un artista y un
RETRATO_DE un artista, obtener informacin
sobre los cuadros que un determinado autor
ha pintado en un periodo de tiempo determinado y que se encuentren en un museo concreto.

Los lenguajes controlados o vocabularios


controlados, que son subconjuntos del lenguaje natural cuya finalidad es reducir la ambigedad y la complejidad, adquieren gran relevancia en relacin con determinadas herramientas para el procesamiento y generacin de
lenguaje natural, o la traduccin automtica.

Desde esta perspectiva, las ontologas ofrecen un enorme atractivo para los terminlogos, cuyo trabajo se dirige a identificar los
conceptos y sus relaciones y encontrar los trminos que denotan esos conceptos dentro de
un campo de conocimiento. Pero hacer una
ontologa no es tarea fcil. Se requiere, adems
de conocimiento del dominio que se vaya a
modelar, una destreza informtica para manejar las herramientas de construccin de ontologas y conocimientos de los lenguajes de
ontologas, como OWL5. Por ello, dado que el
sustrato de la web semntica son las ontologas, el nmero de ontologas crece constantemente y uno de los objetivos es precisamente
su reutilizacin. Ahora bien, pese a que se
pueden encontrar en la web ms de mil ontologas, casi el 98 % son monolinges y, de
ellas, el 70 % est en ingls. Esto implica que el
porcentaje de ontologas multilinges alcanza
el 2 %.

Por ltimo, una ontologa4, palabra que ha


traspasado las fronteras de la filosofa para
asentarse con fuerza en el mbito de la web
semntica, es una representacin conceptual,
inteligible tanto para el usuario como para la
mquina, cuyo principal cometido es compartir el conocimiento del mundo real o de un
determinado dominio, y que este conocimiento est identificado de forma inequvoca. Los
componentes de una ontologa son los conceptos (denominados tambin clases), como objetos, eventos, procesos, mtodos; las propiedades (que incluyen las caractersticas intrnsecas
y extrnsecas de los conceptos y las relaciones
entre conceptos, como subclase de, parte de,
etc.); los axiomas, que son siempre verdaderos, son los enunciados sobre los conceptos y
sus relaciones; y, finalmente, las instancias,
que son las entidades u objetos del mundo
real. Una de las ventajas que aportan las ontologas frente a otros modelos de representacin de conocimiento es la capacidad de inferir
este conocimiento. Por ejemplo, una ontologa
sobre arte podra incluir clases como Pintor,
Cuadro, Estilo o Museo, y relaciones como autor
de un cuadro, pintores pertenecientes a un estilo artstico u obras localizadas en un museo. Un
programa que navegue por una red de este
tipo puede reconocer las distintas unidades de
informacin, obtener datos especficos o razonar sobre relaciones complejas. A partir de

La multilingualidad en las ontologas


Aun as, cada da es ms frecuente encontrar
instituciones y organismos que requieren ontologas multilinges, como la Organizacin
Mundial de la Salud (OMS)6 o la Organizacin
de las Naciones Unidas para la Agricultura y
la Alimentacin (FAO) 7. La FAO, adems de
manejar informacin en las seis lenguas oficia-

En filosofa, es la parte de la metafsica que trata del


ser en general y sus propiedades transcendentales.

Web Ontology Language: <http://www.w3.org/TR/owlfeatures/>.

<http://www.who.int>.

<http://www.fao.org/>. La FAO est actualmente participando como Caso de Uso en el proyecto NeOn (FP6027595), del VI Programa Marco. Para ms informacin,
puede
consultarse
<http://www.neonproject.org>.

noviembre/diciembre de 2009

n 115-S

les (ingls, francs, espaol, rabe, chino y


ruso) dispone de recursos en ms de quince
lenguas en las que tambin ha de facilitar la
informacin actualizada. Al igual que otras
instituciones, la FAO ha manifestado su inters por estructurar e integrar en ontologas
toda esa ingente cantidad de informacin que
tiene en sus glosarios, tesauros y bases de datos, con el fin de facilitar soluciones giles,
consensuadas y multilinges sobre los problemas relativos a las reas de su competencia.

de una ontologa a la lengua y cultura de una


comunidad (Surez-Figueroa / Gmez-Prez
2008).
Este trabajo no pretende resolver el problema de la multilingualidad en todos los posibles sistemas de representacin del conocimiento, sino que trata de aportar una solucin
para dotar de multilingualidad a las ontologas. Para ello, hemos propuesto enlazar las
ontologas de dominio con un modelo lingstico, denominado LIR (Linguistic Information
Repository), que est diseado a su vez como
una ontologa, cuyas caractersticas ms relevantes son, por un lado, que proporciona un
conjunto de datos lingsticos completo y a la
vez complementario para localizar los componentes de una ontologa a una lengua y cultura determinadas y, por otro, permite el acceso unificado al conjunto de datos multilinges.
Este proceso de localizacin se lleva a cabo
automticamente mediante la herramienta
LabelTranslator, desarrollada tambin dentro
del proyecto NeOn y que se explica ms abajo.

Esta integracin supone hacer frente a los


problemas derivados de las diferencias culturales que se reflejan en las manifestaciones
lingsticas, ya que, a veces, las lenguas disponen de trminos muy precisos para describir y modelar diferentes partes del mundo
real, mientras que otras carecen de ellos y se
han de servir de nombres genricos o de explicaciones. Son muchas las situaciones que se
pueden mencionar, pero sirvan como ejemplo
los diferentes nombres que existen en tailands para referirse al arroz segn el estado de
coccin: khao dip (arroz no cocinado), khao suk
(arroz cocinado), khao niew (arroz meloso),
khao chao (arroz seco). Para la FAO, todas estas
categoras son necesarias, as como los equivalentes y sus definiciones en las dems lenguas.

Antes de describir ambos componentes,


veamos qu implica la localizacin de ontologas y qu otros enfoques se han seguido en
diferentes proyectos.

Dentro del proyecto NeOn, dedicado al desarrollo colaborativo de ontologas, se ha visto


la necesidad de dotar de multilingualidad a
las ontologas. Con este fin, una de las actividades propuestas en NeOn es la localizacin
de ontologas8, entendida como la adaptacin

Principales modalidades en localizacin de


ontologas

a) capa lxica, formada por los caracteres y


smbolos que constituyen la codificacin,
que puede ser ASCII, Unicode, etc.;

Cuando se habla de localizar ontologas, hay


que tener en cuenta las diferentes capas que
estn presentes en una ontologa. Tomando
como base una terminologa lingstica, pueden mencionarse, segn Barrasa (2007), las
siguientes capas:

El trmino localizacin, tambin conocido por la


combinacin alfanumrica L10n, ha adquirido carta de
ciudadana en informtica y se emplea para denotar
las actividades de traduccin y adaptacin de un programa a una lengua y cultura determinada. Este proceso de adaptacin afecta no solo a las unidades lingsticas, sino tambin a las unidades de programacin
(cdigo, interfaces, direccin de la escritura, etc.). El
trmino se opone generalmente a internacionalizacin (i18n), que es el proceso seguido en el diseo de
una aplicacin de software de manera que, al adaptarse

b) capa sintctica, que se ocupa de la estructura y combinacin de caracteres, es decir de

a una lengua concreta, se eviten el mayor nmero de


cambios posibles en el diseo.

n 115-S

noviembre/diciembre de 2009

a) Los datos multilinges se incluyen en el


metamodelo de la ontologa de dominio
mediante las propiedades rdfs:label y
rdfs:comment, propias del lenguaje de ontologas RDF(S) 10 . De esta forma se puede
asociar una etiqueta (label) y un comentario
o descripcin (comment) en lenguaje natural
a cualquier clase o relacin de la ontologa.
Es decir, generalmente se incluye la etiqueta que, segn ISO TC 37 639 (en, es, fr, de,
etc.), indica la lengua, y el trmino o una
explicacin en esa lengua. Esta opcin de
modelado es la ms habitual en la comunidad ontolgica para obtener una ontologa
multilinge, pues permite asociar tantas
etiquetas (en diferentes lenguas) como sea
necesario (ver figura 1)11. Esto quiere decir
que la localizacin se lleva a cabo en la capa
terminolgica, ya que los conceptos de la
ontologa se expresan con trminos (etiquetas) en distintas lenguas. Sin embargo, en
este caso se presupone la total sinonimia
entre los trminos de las diferentes lenguas,
algo que es muy difcil, y adems la canti-

la sintaxis. En el mbito de las ontologas,


esta sintaxis est reflejada en los lenguajes
de representacin como RDF(S), OWL, etc.;
c) capa de representacin del conocimiento,
que refleja el paradigma seguido en la representacin de la ontologa: marcos, redes
semnticas, lgica descriptiva, etc.;
d) capa terminolgica, formada por los trminos que designan los elementos de la ontologa;
e) capa conceptual relativa a las decisiones de
conceptualizacin, tales como la expresividad, la granularidad, la perspectiva, etc.;
f) capa pragmtica, que se ocupa de la interfaz, o disposicin del modelo de acuerdo
con las necesidades del usuario.
Siguiendo esta clasificacin por capas, puede decirse que la capa terminolgica, la conceptual y la pragmtica son las que estn presentes en la localizacin de ontologas. Veamos ahora, de forma resumida9, los enfoques
ms utilizados en la modelizacin de la multilingualidad en las ontologas:

Figura 1

En Aguado / Montiel-Ponsoda / Ramos (2007) se encuentra una versin ms completa y detallada.

10

Resource Description Framework Schema.

11

Figuras extradas de Montiel-Ponsoda (2009).

noviembre/diciembre de 2009

n 115-S

quiere la conceptualizacin en diferentes


lenguas, y la dificultad de establecer las correspondencias exactas. Ahora bien, tiene
como ventaja la posibilidad de mantener las
especificidades de cada lengua, por lo que
resulta un modelo ms adecuado para los
campos de conocimiento que son muy dependientes de una cultura, como el mbito
jurdico, siempre que no se incorporen muchas lenguas, pues las correspondencias seran ms difciles.

dad de informacin que se incluye es limitada. En cambio, tiene la ventaja de que


puede ser el modelo ms adecuado para
dominios tcnicos muy especializados y
aceptados en diferentes lenguas, en los que
no suele haber diferencias culturales.
b) Correspondencia de conceptualizaciones
en distintas lenguas. En este caso (figura 2),
cada lengua representa la realidad acorde
con sus caractersticas, y las distintas ontologas se relacionan entre s mediante una
interlingua que permite representar el conjunto de conceptos comunes. Es el caso de
EuroWordNet (Vossen 2004). El problema
ms importante es el gran esfuerzo que re-

c) Por ltimo, la tercera modalidad (figura 3)


es asociar el metamodelo de la ontologa
con un modelo lingstico multilinge. El
modelo lingstico puede ser una base de
Figura 2

Figura 3

n 115-S

noviembre/diciembre de 2009

LIR (Linguistic Information Repository)

datos (como en Genoma-KB 12 o en Oncoterm13). En este caso, la capa conceptual y


terminolgica se mantienen por separado y
la localizacin se hace nicamente en la capa terminolgica. El trabajo desarrollado
por el grupo IULATERM se explica con
mayor detalle en este mismo suplemento.

Como ya se ha dicho, el LIR est organizado


como una ontologa y toda la informacin lingstica que recoge est centrada en la clase
LexicalEntry como se ve en la figura 4. La clase
LexicalEntry se considera una unidad dotada
de forma, Lexicalization, y significado, Sense, en
una lengua dada. Gracias a la relacin hasVariant se reflejan las variantes terminolgicas
intralinges correspondientes a un mismo
concepto. Por ejemplo, la relacin hasVariant
nos dira que FAO es la sigla correspondiente
al trmino Food and Agriculture Organization y
que ambas representan el mismo concepto. La
clase Language permite hacer bsquedas de
entradas lxicas en una lengua determinada y
mostrar al usuario nicamente las entradas
existentes en dicha lengua. La clase PartOfSpeech evita la repeticin de la categora gramatical en cada una de las lexicalizaciones. La
clase Sense representa el significado intensional dentro de una lengua dada y se manifiesta
a travs de la clase Definition, en lenguaje natural. Por tanto, en s misma, Sense es una clase
vaca que adquiere su verdadero valor mediante la Definition. Al mantener los significados en el modelo lingstico independientes
de los conceptos de la ontologa, LIR permite
recoger las especificidades culturales que, de
alguna manera, se alejan del concepto representado en la ontologa. Por otra parte, Lexicalization est relacionada con a) Source, con el
fin de preservar la fuente de donde se extrae la
Definition; b) Note, para poder incluir informacin complementaria relativa al uso de un
trmino en una lengua; y c) UsageContext, que
aporta informacin sobre los posibles contextos en los que aparece un trmino dentro de
una lengua. Asimismo se recogen las posibles
equivalencias semnticas intralingsticas mediante hasSynonym o hasAntonym e interlingsticas gracias a hasTranslation, aunque somos conscientes de la dificultad de lograr
equivalentes exactos en diferentes lenguas.
Finalmente, el LIR est unido a la ontologa

Atendiendo a estas tres modalidades, puede decirse que el LIR es un enfoque hbrido, ya
que su objetivo es, por un lado, asociar informacin multilinge a ontologas monolinges,
al igual que lo hacen Genoma-KB y Oncoterm,
aunque en nuestro caso con el fin primordial
de localizarlas de forma automtica. Por otra
parte, la conceptualizacin de la informacin
lingstica, como una ontologa en OWL
(Montiel-Ponsoda / Peters 2008), lo acerca ms
a las nuevas propuestas que tratan de enlazar
la informacin lingstica con las ontologas
de dominio (Buitelaar et alii 2006, Cimiano et
alii 2007).
Conviene tener en cuenta tambin que el
punto de partida es diferente. En el caso del
LIR se parte de la existencia de ontologas y lo
que se pretende es facilitar la incorporacin e
integracin del conocimiento lingstico y, al
mismo tiempo, mediante el LabelTranslator, se
localiza la ontologa en la lengua meta de forma automtica. Adems, la comunidad a la
que va destinada la ontologa que se ha localizado tambin es distinta, pues en Genoma-KB
y Oncoterm los destinatarios pueden ser traductores, mediadores lingsticos y, sin duda,
cualquier persona interesada en esos temas,
mientras que en el caso que presentamos aqu,
los destinatarios sern, generalmente, los posibles usuarios de ontologas e ingenieros de
conocimiento, as como todos aquellos que
trabajen en representaciones de conocimiento
lingstico cuyo objetivo sea el intercambio de
datos en formato electrnico.

12

<http://genoma.iula.upf.edu:8080/genoma/index.jsp>.

13

<http://www.ugr.es/~oncoterm/>.

noviembre/diciembre de 2009

n 115-S

producidos por las diferencias culturales. Por


otro lado, se mantiene tambin la informacin
morfosintctica y lxica pertinente para los
fines perseguidos. En resumen, el LIR no pretende ser un lexicn con equivalentes en diferentes lenguas, sino facilitar la asociacin del
conocimiento lingstico multilinge al conocimiento conceptual representado en la ontologa.

mediante la clase OntologyElement de OWL,


con lo que queda garantizada la asociacin del
conocimiento lingstico a los componentes de
la ontologa.
En resumen, como ya se ha apuntado, lo
que diferencia al LIR de los dems enfoques
son tanto los objetivos y los destinatarios como
el tipo de informacin lingstica que se asocia
a los componentes de la ontologa. Es decir,
por un lado, las clases que componen el LIR
cubren la posibilidad de representar tanto las
diferentes variantes terminolgicas intralinges e interlinges, como las variantes conceptuales y los vacos en las conceptualizaciones

Una vez explicado el modelo lingstico


que facilita la inclusin de la multilingualidad
en las ontologas, veamos ahora la herramienta que permite llevar a cabo este proceso, el
LabelTranslator (Espinoza et alii 2008).

Figura 4

n 115-S

noviembre/diciembre de 2009

Label Translator (LT)

mente la misma ontologa en la lengua meta y,


al mismo tiempo, se actualiza dicha informacin en el LIR. Si los recursos consultados contienen otro tipo de informacin lingstica como definiciones, categora gramatical, etc., estos datos tambin se almacenarn en el LIR y se
podrn consultar mediante la interfaz que se
puede ver en la figura 5.

El LabelTranslator localiza ontologas automticamente en tres lenguas, ingls, espaol y


alemn, y est preparado para que, en el futuro, puedan incluirse ms. LT inicia su actuacin seleccionando una ontologa o los componentes de esta que se pretenden localizar;
esta ontologa puede importarse de los repositorios de la red o tomarse de cualquier otro
sitio. A continuacin, LT accede directamente
a diversos recursos lingsticos multilinges
para buscar el equivalente lxico (Wiktionary14, IATE15) o a recursos de traduccin disponibles en la red (GoogleTranslate16, Babelfish17).
Una vez obtenidos los equivalentes en la lengua meta para los componentes de la ontologa que se han seleccionado previamente, es
decir, parte de la ontologa o toda ella, LT contrasta el sentido adecuado de cada etiqueta
consultando EuroWordNet (EWN 18 ), u otros
repositorios de ontologas como Watson 19 y
Swoogle 20 , que tienen indexadas muchas de
las ontologas disponibles en la red. Este proceso es necesario para contextualizar el trmino, ya que en el proceso de desambiguacin se
tiene en cuenta tambin el contexto de la ontologa. LT obtiene una lista de candidatos y
elige siempre la primera opcin en la lista de
candidatos posibles. En ltimo extremo, es el
usuario quien valida la opcin seleccionada.
En otras palabras, cada trmino adquiere un
determinado valor dependiendo de la presencia de otros en la ontologa. Por ejemplo, al
traducir cabo, el sistema selecciona corporal,
si la ontologa pertenece al mbito militar, y
cape si estamos modelando el mbito geogrfico. Como resultado, se obtiene automtica-

14

<http://www.wiktionary.org/>.

15

<http://iate.europa.eu>.

16

<http://translate.google.com/#>.

17

<http://babelfish.yahoo.com/>.

18

El uso de EWN se hace mediante licencia.

19

<http://watson.kmi.open.ac.uk/WatsonWUI/>.

20

<http://swoogle.umbc.edu/>.

Ahora bien, si las ontologas corresponden


a dominios muy especializados no es fcil encontrar recursos lingsticos disponibles que
sean fiables, con lo que el proceso se hace mucho ms complejo. Queda, pues, camino por
recorrer en la confeccin de recursos terminolgicos on-line que puedan ayudar en estas
tareas.
Reflexiones finales
Como ya se ha mencionado, son muchas las
iniciativas que han manifestado gran inters
por disponer de ontologas y, en muchos casos, por que sean multilinges, pero, dado que
este trabajo se publica fundamentalmente para
una comunidad de traductores, creo conveniente presentar unas reflexiones finales.
Un primer problema que, pese a los esfuerzos realizados por diferentes comunidades y
organismos de estandarizacin (W3C, ISO),
queda an por resolver es la falta de uniformidad terminolgica utilizada en cada representacin de conocimiento ya que esta suele
estar, de alguna manera, mediatizada por la
comunidad investigadora en la que se va a
utilizar. De ah que se sigan manteniendo a
veces las asimetras semnticas que, en principio, las ontologas tratan de resolver. Esto, sin
duda, dificulta el intercambio de informacin,
que es uno de los objetivos ms importantes
en la sociedad del siglo XXI y hacia donde van
orientados muchos de los trabajos en el mbito
de las tecnologas de la informacin.
No obstante, es conveniente tener en cuenta
que hasta ahora, pese a que algunas ontologas
estn ms orientadas a la traduccin, como es

noviembre/diciembre de 2009

n 115-S

Figura 5

BUITELAAR, P. / M. SINTEK / M. KIESEL (2006), A


Multilingual/Multimedia Lexicon Model for
Ontologies, en Y. SURE / J. DOMINGUE eds. The
Semantic Web: Research and Applications, 3rd European Semantic Web Conference ESWC 2006,
Budva, Montenegro.

el caso de Mikrokosmos, el objetivo principal


de la mayora de ellas no ha sido la traduccin,
sino la interaccin entre diferentes sistemas
basados en el conocimiento, as como la comparticin de informacin en la web semntica,
procedente de fuentes diversas.

CIMIANO, P. / P. HASSE / M. HEROLD / M. MANTEL /


P. BUITELAAR (2007), LexOnto: A Model for
Ontology Lexicons for Ontology-based NLP,
en Proceedings of OntoLex'07, 6th International
Semantic Web Conference, ISWC+ASWC 2007, Busan, Corea del Sur.

Finalmente, creo importante sealar que el


punto de mira en todos estos trabajos ha de
centrarse en constatar si el modelo seleccionado es til para la finalidad que se persigue y si
funciona correctamente dentro del contexto
para el que fue diseado. El modelo aqu presentado se ha desarrollado teniendo in mente
estas premisas.

ESPINOZA, M / A. GMEZ-PREZ / E. MENA (2008),


Enriching an Ontology with Multilingual Information, 333-347 en S. BECHHOFER / M.
HAUSWIRTH / J. HOFFMANN / M. KOUBARAKIS
eds. The Semantic Web: Research and Applications,
5th European Semantic Web Conference, ESWC
2008, Springer Verlag.

Referencias
AGUADO DE CEA, G. / E. MONTIEL-PONSODA / J. C.
RAMOS GARGANTILLA (2007), Multilingualidad
en una aplicacin basada en el conocimiento,
77-98 en Procesamiento del Lenguaje natural, n 38.

FELLBAUM, Ch. (1988), WordNet: An Electronic Lexical Database, MIT Press.


ISO TC 37/SC2 639 (2009), Codes for the Representation of Names of Languages.

BARRASA, J. (2007), Modelo para la definicin automtica de correspondencias semnticas entre ontologas
y modelos relacionales [tesis doctoral], UPM,
Madrid.

MONTIEL-PONSODA, E. / W. PETERS coords. (2008),


Multilingual and Localization Support for Ontologies. NeOn Project Deliverable 2.4.2.

10

n 115-S

noviembre/diciembre de 2009

tology Engineering Terminology, 8th International


Conference on Terminology and Knowledge
Engineering (TKE2008), Copenhague.

MONTIEL-PONSODA, E. (2009), Ontology Localization: a Key Issue in the Semantic Web of the Future, en G. WOTJAK / V. IVANOVA / E. TABARES
PLASENCIA eds. Translatione via facienda. Festschrift fr Christiane Nord zum 65. Geburtstag.
Homenaje a Christiane Nord en su 65 cumpleaos. Peter Lang, Frankfurt.

VOSSEN, P. (2004), EuroWordNet: a Multilingual


Database of Autonomous and Language Specific Wordnets Connected via an Inter-LingualIndex, en IJL 17/2 (Semi-special issue on multilingual databases).

SUREZ-FIGUEROA, M. C. / A. GMEZ-PREZ (2008),


First Attempt towards a Standard Glossary of On-

EcoLexicon. Tesoro visual sobre medio ambiente


MARA ROSA CASTRO PRIETO
Universidad de Granada
mcastro@ugr.es

1. Introduccin

2. EcoSistema

Entre los aos 2003 y 2006 se ha desarrollado


el proyecto PuertoTerm estructuracin del
conocimiento y generacin de recursos terminolgicos en ingeniera de puertos y costas,
gracias a una colaboracin entre nuestro grupo y el Grupo de Puertos y Costas del Centro
Andaluz de Medio Ambiente. Este proyecto
deriv en el proyecto MarcoCosta marcos de
conocimiento multilinge en la gestin integrada de zonas costeras, elaborado durante
los aos 2007-2008. Tiene su continuacin en
EcoSistema Espacio niCO de SIStemas de
informacin ontolgica y TEsaurus sobre el
Medio Ambiente, cuyo plazo de ejecucin
comienza en 2009 y acaba en 2011.

l grupo de investigacin LexiCon1 Lexicografa contrastiva: aplicaciones a la traduccin, de la Universidad de Granada, se


constituy en el ao 1994. En estos quince
aos de andadura ha trabajado en diversas
reas temticas del mbito cientfico-tcnico y,
desde el ao 2003, se ha centrado en el mbito
medioambiental.
En las pginas que siguen presentaremos
una herramienta terminolgica integrada en
una plataforma informtica que permite acceder a la informacin recopilada, mostrndola
desde una perspectiva interactiva, y por lo
tanto ms enriquecedora, y menos lineal de lo
que habitualmente ofrecen otras aplicaciones.

Como es bien sabido, una de las cuestiones


que ms preocupa en Terminologa es el modo de representacin de los conceptos, de
modo que los usuarios legos tanto si son
mediadores en la comunicacin como si acceden desde un primer estadio del conocimiento alcancen el significado de una manera
sencilla y reciban el conocimiento deseado.
Mientras que la representacin del concepto

El Grupo LexiCon est integrado por: Pamela Faber


Bentez (Investigadora Principal), Mara Rosa Castro
Prieto, Mercedes Garca de Quesada, Catalina Jimnez
Hurtado, Linus Jung, Pilar Len Araz, Clara Ins
Lpez Rodrguez, Carlos Francisco Mrquez Linares,
Silvia Montero Martnez, Antonio Moreno Ortiz,
Chantal Prez Hernndez, Juan Antonio Prieto Velasco,
Arianne Reimerink, Bryan Robinson Fryer, Claudia
Seibel, Jos A. Senso, Maribel Tercedor Snchez, Jos
Manuel Urea Gmez-Moreno y Miguel Vega Expsito.

11

noviembre/diciembre de 2009

n 115-S

visual y tridimensional de este campo de conocimiento.

se ha sistematizado lingsticamente, no ha
ocurrido lo mismo con la informacin grfica.
Y a pesar de que se reconoce el valor de esta,
no suele tener un tratamiento coherente y
adolece de la falta de reflexin necesaria en
aspectos como la relacin entre texto e ilustracin, la representacin conceptual mediante imgenes o el papel que desempea la ilustracin en la creacin de modelos mentales
(Prieto Velasco 2008).

Los contenidos de la aplicacin estn organizados sobre lo que hemos denominado Macroestructura Medioambiental Environmental Event (Faber et alii 2005), que consiste en
un conjunto organizado de marcos especializados en el que, a su vez, cada uno contiene
un sistema de conceptos relacionados, de tal
manera que la sola utilizacin de uno de ellos
activa toda la red conceptual.

EcoLexicon es un recurso terminolgico fruto de los dos ltimos proyectos de investigacin realizados, un proyecto I+D financiado
por el Ministerio de Ciencia y Tecnologa y un
proyecto de excelencia financiado por la Junta
de Andaluca, adems de ser punto de arranque de EcoSistema. A partir de un extenso
banco de imgenes y de los datos codificados,
extrados de un corpus de textos trilinge en
origen del mbito de la Ingeniera de Puertos y
Costas y posteriormente ampliado al terreno
medioambiental, se ha construido una representacin conceptual modular, dinmica,

La articulacin bsica de la Macroestructura Medioambiental (EE) se construye en torno


a un proceso dinmico iniciado por un agente
(natural o humano), que afecta a un tipo de
paciente (entidad medioambiental) y produce
un resultado (ya sea otra entidad modificada o
un efecto medioambiental). De manera perifrica, se han incluido otras categoras que representan los instrumentos, las disciplinas y
los procedimientos de anlisis utilizados en
este dominio, tal y como se puede apreciar en
la figura 1.

Figura 1. Representacin de la Macroestructura Medioambiental (Environmental Event)

12

n 115-S

noviembre/diciembre de 2009

3. Aplicacin EcoLexicon

realizarse bsquedas en modo monolinge o


trilinge, tal y como puede apreciarse en la
parte superior derecha de la figura 2. Si el
usuario introduce un trmino de bsqueda en
cualquiera de las tres lenguas, obtendr una
red compuesta por el primer nivel de representacin asociado al concepto y sus trminos
equivalentes. Al colocar el ratn sobre cualquiera de los conceptos, se podr visualizar su
correspondiente definicin y, al hacer clic sobre cualquiera de ellos, una nueva red, nicamente conceptual, se desplegar en dos niveles. De este modo tan sencillo, a partir del trmino de consulta, se crea un rbol de significados que es posible ir recorriendo y ampliando con la ayuda del ratn.

El recurso que se ha generado se denomina


EcoLexicon y es un tesauro visual sobre el medioambiente creado sobre el programa
Thinkmap <http://www.visualthesaurus.com>.
Este programa ofrece la posibilidad de elaborar un diccionario semntico, que crea campos
de significado en una plataforma interactiva.
Ya en la aplicacin, y a partir de la Macroestructura (EE), el usuario puede acceder a
distintos niveles de conocimiento a travs de
diferentes formas de representacin. Las relaciones globales incluidas en la macroestructura reflejan el dinamismo de las principales
macrocategoras, pues, por una parte, debido
al fenmeno de la multidimensionalidad, los
conceptos presentan mltiples aspectos desde
los que ser clasificados; y, por otra parte, la
interaccin entre las tres macrocategoras necesita relaciones conceptuales ms complejas
que las tradicionales. Partiendo de esta afirmacin, los conceptos pueden pertenecer a
una o varias categoras y subcategoras, puesto
que, por ejemplo, segn el proceso al que se
vean expuestos, pueden ser paciente y resultado. A esto hay que aadir que, adems, se
pueden relacionar a niveles ms especficos al
margen de la macroestructura. Por ello, la
aplicacin muestra distintas redes conceptuales vinculadas a cada concepto a travs de las
relaciones jerrquicas clsicas lgicas (genrico-especficas) y ontolgicas (parte-todo), y las
no jerrquicas, tales como: funcin, material,
ubicacin, instrumento, etc., propias del mbito de especialidad.

Si observamos la figura 2, podemos apreciar que a la derecha de cada red conceptual


aparecen tres secciones: una lingstica, en la
que se muestran los trminos asociados a cada
concepto en las tres lenguas objeto de estudio
y que se completa con informacin morfosintctica y contextual, que se activa al hacer clic
con el ratn en cada uno de los trminos; otra
consagrada a los recursos grficos que han
sido incluidos segn la informacin contenida
en la definicin; y, por ltimo, una seccin
conceptual, de carcter ontolgico, en la que
aparecen reflejados los dominios y subdominios de la Macroestructura Medioambiental
(EE) a los que pertenece cada concepto.
4. Conclusin
A travs de la recogida, manipulacin y organizacin de informacin conceptual, lingstica y grfica, los contenidos de la herramienta
EcoLexicon cubren las necesidades comunicativas y cognitivas de diferentes tipos de usuario,
como estudiantes, investigadores, traductores,
redactores tcnicos e, incluso, expertos en la
materia.

Al mismo tiempo que se muestra la organizacin conceptual subyacente al rea, la aplicacin tambin puede ser consultada desde el
concepto nicamente representado por la
denominacin espaola o desde el trmino
espaol, ingls y alemn. Es decir, pueden

13

noviembre/diciembre de 2009

n 115-S

Figura 2. Niveles de conocimiento de EcoSistema

5. Referencias bibliogrficas
PRIETO VELASCO, Juan Antonio (2008), Informacin
grfica y grados de especialidad en el discurso cientfico-tcnico: un estudio de corpus [tesis doctoral]
ISBN: 9788469139400.

EcoLexicon. Tesauro visual sobre medio ambiente:


<http://manila.ugr.es/visual/> [consulta 29.6.2009].
FABER, P. / C. MRQUEZ LINARES / M. VEGA
EXPSITO (2005), Framing Terminology: A Process-Oriented Approach, en Pour une traductologie proactive. Colloque international du 50e anniversaire de Meta, Meta 50.4.

Thinkmap. Visual Thesaurus: <http://www.visual


thesaurus.com/> [consulta 29.6.2009].

14

n 115-S

noviembre/diciembre de 2009

El diseo de aplicaciones terminolgicas: los extractores de terminologa


ROSA ESTOP BAGOT
Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra
rosa.estopa@upf.edu

1. Introduccin

l campo del diseo de aplicaciones terminolgicas, durante dcadas, se restringi a


la elaboracin de diccionarios, lxicos y vocabularios especializados. A partir de los aos
ochenta, en cambio, la actividad profesional
motiv una diversificacin de las aplicaciones:
surgieron nuevas necesidades relacionadas
con la terminologa a las que haba que responder con recursos adecuados. Estas nuevas
necesidades terminolgicas de actividades
como la traduccin especializada, la gestin de
documentacin, el acceso a grandes cantidades de informacin y los avances en la tecnologa informtica sobre todo de la microinformtica fueron los detonantes del
cambio conceptual que sufri la prctica terminolgica. La nueva situacin profesional de
finales de siglo motiv una nueva nocin de
aplicacin terminolgica: ya no se trataba solo
del diseo lexicogrfico, sino tambin de la
creacin de sistemas y programas que gestionasen terminologa con finalidades muy diversas.

En este nuevo escenario profesional entendemos por aplicacin terminolgica todo recurso
lingstico que intenta dar respuesta a necesidades lingsticas y/o cognitivas en el marco
de la informacin y de la comunicacin especializadas. Bajo este nuevo paraguas, las aplicaciones terminolgicas pueden ser muy diversas, y su diversidad es consecuencia de un
cmulo de factores:

Son diversas las necesidades sociales: difusin del conocimiento especializado, nuevas tecnologas de la informacin y de la
comunicacin, facilidad de intercambio de
la informacin y de la comunicacin, cre-

cimiento exponencial del conocimiento especializado.


Son varios los mbitos profesionales que se
interesan por la terminologa: documentacin, lingstica, traduccin, interpretacin,
divulgacin, enseanza, planificacin lingstica, informtica, lexicografa, revisin,
edicin, etc.
No son uniformes los contextos socioculturales: sociedades monolinges, bilinges,
plurilinges, sociedades ms o menos industrializadas, con tradicin en trabajos
terminolgicos, ms o menos prximas de
las grandes potencias, etc.
Mltiples son las actividades profesionales
relacionadas con la terminologa: traducir
asistidamente, traducir automticamente,
generar automticamente memorias de traduccin, interpretar, elaborar diccionarios
generales y especializados, vocabularios,
glosarios, bases de datos, bancos terminolgicos, elaborar tesaurus, clasificaciones,
ontologas, indizar informacin, recuperar
informacin, redactar y revisar textos especializados, ensear discurso especializado,
ensear lenguas extranjeras para finalidades especficas, divulgar el conocimiento
especializado, estandarizar internacionalmente, planificar la lengua, normalizar una
lengua, tratar automticamente el lenguaje
natural, analizar lingsticamente corpus
especializados, etc.
Y tambin son distintos los recursos que se
tienen a disposicin: recursos tanto del
equipo de trabajo de la aplicacin como de
sus usuarios.

Las listas de trminos, glosarios, diccionarios, terminologas, bases de datos, clasificaciones, tesaurus, ontologas, resolucin de

15

noviembre/diciembre de 2009

n 115-S

gicas. Segn este principio, cada trabajo en


concreto adopta una estrategia en funcin de
unas necesidades terminolgicas concretas
(actividad profesional, contexto, temtica,
objetivos, elementos implicados y recursos
disponibles).

consultas puntuales, sistemas informticos


complejos como traductores automticos y
asistidos, programas de resolucin de conflictos, extractores de terminologa, resumidores
automticos, herramientas de ayuda al trabajo
terminolgico, etc., son ejemplos de aplicaciones en las que el trabajo en terminologa es
central o, en algunos casos, objeto de un mdulo complementario. Incluso en la aplicacin
terminolgica ms prototpica el vocabulario especializado se contemplan una multiplicidad de diccionarios en funcin de las necesidades profesionales concretas (diccionarios
especializados monolinges, monolinges con
equivalencias, multilinges, de aprendizaje,
para el pblico general, para traductores, para
indicar textos, etc.), que se deben corresponder
con un proceso de trabajo tambin mltiple.
La pluralidad de aplicaciones es tambin el
correlato de una manera concreta de entender
la terminologa. En el modelo de la Teora comunicativa de la Terminologa (Cabr 1999),
por ejemplo, se conciben las aplicaciones como
el resultado de un proceso de construccin
lgica entre teora, metodologa y mtodos. En
este modelo terico, pues, es pertinente la distincin lgica entre teora, metodologa, mtodo y aplicacin, pues se sostiene la adecuacin
de las aplicaciones a cada contexto de uso distinto y cada aplicacin requiere unas estrategias de trabajo concretas.

El xito de una aplicacin, y el de una aplicacin terminolgica, pasa por el respeto al


Principio de adecuacin, principio que condiciona todas las decisiones que durante el proceso de elaboracin se deben tomar. No debemos olvidar que una aplicacin es exitosa si
resulta til para sus usuarios. Y el uso se consigue si la aplicacin es adecuada a las necesidades de quienes la van a usar. Lo que sucede
a menudo es que los autores de las aplicaciones no delimitan con precisin los usuarios
potenciales de una aplicacin y lo que es peor
no conocen exactamente sus necesidades en
relacin a la terminologa. Existen escasos estudios de necesidades terminolgicas por colectivos o actividades profesionales (Estop
1999, Snchez-Gijn 2004).
El Principio de adecuacin adems nos
conduce a la necesidad de discriminar el resultado para que se adecue a las necesidades
terminolgicas de una actividad; lo que no
implica hacer tantas aplicaciones como necesidades, sino a la multifuncionalidad de las
aplicaciones.
3. Los extractores de terminologa

2. El Principio de adecuacin

El reconocimiento de las unidades terminolgicas de un texto especializado, conocido como vaciado terminolgico, se considera una de
las fases bsicas de todo trabajo en que se requiera terminologa (elaboracin de diccionarios, vocabularios, glosarios especializados,
bases de datos terminolgicos, bases de conocimiento, tesauros, ontologas, preparacin de
traducciones, indizacin de textos, construccin de correctores ortogrficos, etc.). Pero si
bien es una tarea central, al mismo tiempo no
es una tarea nada simple, sino que requiere
mucho tiempo sobre todo cuando se mani-

Cualquier producto el diseo de sillas, gafas, coches, ordenadores, juguetes, etc. se


debera adecuar siempre a las necesidades que
tienen sus usuarios potenciales. En el caso de
productos lingsticos ese principio no debera
ser una excepcin. La realidad, en cambio, es
que muchas veces no se ha tenido, y no se tiene, en consideracin. En el marco de la TCT el
Principio de la adecuacin adecuacin a los
principios tericos y tambin adecuacin a la
situacin comunicativa de uso es el eje vertebrador de todas las aplicaciones terminol-

16

n 115-S

noviembre/diciembre de 2009

resmenes, etc. Y son muy tiles sobre todo


cuando se trata de manejar grandes volmenes de datos. As podemos acordar que sus
principales logros son:

pulan volmenes de informacin importantes y rigor en la aplicacin de criterios de


reconocimiento. En la prctica existe el riesgo
de convertirse en una tarea poco sistemtica,
subjetiva y, por consiguiente, los resultados
pueden ser heterogneos e incluso poco tiles.

1) velocidad de aplicacin,
2) aplicacin sistemtica de criterios de
reconocimiento,
3) cobertura casi total en relacin a los criterios de reconocimiento1.

A finales de la dcada de los ochenta, con la


finalidad de ganar sobre todo rapidez y tambin sistematicidad, se concibi el primer extractor automtico de terminologa, TERMINO
1988 (David / Plante 1991), que pretenda automatizar la fase de vaciado manual de todo
trabajo terminolgico. La heterogeneidad de
los resultados entre diferentes vaciados manuales no es solo una cuestin de tiempo ni de
sistematicidad, sino tambin de concepcin
terica de lo que es la terminologa, de lo que
debe ser un extractor; seguramente por esto
los extractores de terminologa despus de
veinte aos de trabajo no son todava satisfactorios para el usuario.

Pero despus de tres dcadas desde la creacin de los primeros extractores de terminologa, la pregunta obligada no se refiere a los
logros sino al uso: Por qu hay pocos profesionales que los usan? La respuesta a esta
cuestin puede resumirse en los dos puntos
siguientes:
Hay muchas unidades en el texto que no
son seleccionadas por los extractores y,
que, en cambio, transmiten un significado especializado y que el usuario hubiera podido remarcar (trminos monolxicos, formas latinas taxonmicas, trminos polilxicos en los que uno de los
constituyentes es un nmero, siglas, etc.:
'diagnstico', 'R. conorii', 'cultivo', 'inoculacin', 'fibroblastos L. 929', 'sensibilidad', 'IFI').
Hay unidades que los extractores seleccionan que los usuarios no hubieran incluido en su vaciado manual, muchas
porque no son unidades terminolgicas,
aunque algunos segmentos pueden ser
discursivamente especializados ('utilizacin de clulas VERO', 'manera independiente', 'presencia de anticuerpos es-

Un extractor de terminologa se puede definir como un programa que permite extraer


unidades terminolgicas a partir de un corpus.
Generalmente los extractores de terminologa
no generan una lista de unidades terminolgicas, sino que proponen una lista de candidatos
a trmino que el usuario debe validar manualmente. Los extractores de terminologa se
aplican a corpus textuales. Teniendo en cuenta
estas caractersticas podemos precisar la definicin inicial: los extractores de terminologa
son, pues, programas informticos que proponen candidatos a unidades terminolgicas a
partir de un tratamiento automtico de un
corpus de textos especializados.
Los extractores son tiles para la recuperacin de informacin, para la recopilacin de
unidades terminolgicas a partir de corpus y
de esta manera facilitan la elaboracin de un
diccionario terminolgico o de una base de
datos, o la alimentacin de memorias de traduccin o la perfeccin de correctores ortogrficos; tambin son aplicables en la indexacin
automtica de textos o en la generacin de

17

Hemos dicho que la cobertura es casi total y no total,


porque existe lo que hemos llamado silencio intrnseco
a los parmetros de bsqueda (Estop 1999, 2009), que
es difcil todava hoy de tratar. El silencio intrnseco
afecta aproximadamente a entre el 10 % y el 5 % de las
unidades del texto. Las causas de este tipo de silencio
en los extractores que utilizan conocimiento lingstico
son bsicamente tres: errores de desambiguacin, superposicin de trminos, trminos escondidos discursivamente.

noviembre/diciembre de 2009

n 115-S

mltiples y sobre todo se valen de una ontologa lxica (aunque el problema de desambiguacin semntica recae entonces en la elaboracin de una ontologa), como YATE (Vivaldi,
2002). Cabe sealar, no obstante, que estos
resultados se obtienen solo en reas muy estructuradas lxicamente como es la medicina o
la biomedicina.

pecficos IgM', 'finalidad de distinguir',


'infeccin actual', etc.), otras porque no
son pertinentes para su actividad.
Constatadas estas dos observaciones, parece lgico preguntarse por qu ocurren desajustes entre los vaciados manuales y los vaciados
automticos. Diversos son los problemas pendientes todava para que el uso sea rentable
para el profesional; estos retos pueden resumirse en:

La diversidad de las unidades especializadas (por lo que se refiere a su naturaleza, categora gramatical y estructura) que se usan en
los textos especializados conduce a pensar que
el objeto de un nuevo concepto de extractor
tiene que abarcar todas las unidades de significacin especializada de un texto y no solo las
unidades terminolgicas polilxicas. Por eso
creemos que estas afirmaciones se podran
reconsiderar porque, aunque sea cierto que las
unidades lxicas simples son bastante idiosincrsicas y muy polismicas (y, consiguientemente, es difcil discriminar lingsticamente
cundo una unidad simple se utiliza con un
sentido especializado o con uno general),
dentro de las unidades monolxicas hay diferentes clases de palabras derivadas, compuestas, abreviadas que presentan algunas
peculiaridades formales en las que los extractores, como aquellos de los que ya se sirven
algunos como Yate, se podran basar para detectar gran parte de los trminos monolxicos.
Los extractores que ya detectan unidades monolxicas es obvio que disminuyen el silencio,
pero generan ms problemas de ruido. Las
unidades monolxicas son mucho ms polismicas que las polilxicas y uno de sus sentidos puede ser general ('circulacin' versus 'circulacin sangunea'; 'base', 'clave', 'anillo',
'aguja', 'clavo', etc.); y por lo tanto es mucho
ms difcil la desambiguacin de una unidad
lxica especializada.

definicin del objeto de bsqueda,


estrategias utilizadas no discriminantes,
poca adecuacin a las necesidades
terminolgicas reales.
3.1. La definicin del objeto de trabajo
La mayora de extractores de terminologa son
muy restrictivos en relacin al objeto: se suelen centrar en la deteccin de las unidades terminolgicas polilxicas (UTP), de categora gramatical nominal, pues son las unidades ms
prototpicas y las ms frecuentes de los textos
especializados, y adems son las que presentan caractersticas morfosintcticas ms explcitas que facilitan su extraccin.
En los textos, en cambio, hay muchas unidades monolxicas con significado especializado, de distinta categora gramatical, que
podemos denominar silencio extrnseco al
extracto porque la mayora de las veces no son
objeto de extraccin del programa. El silencio
extrnseco, causado por la definicin misma
del objeto del sistema de extraccin automtica, puede afectar a un 48 % de las unidades
que son unidades especializadas de un texto.
Pero es el ruido, en general, el principal caballo de batalla de los diseadores de extractores basados en conocimiento lingstico (sobre
todo si se basan en patrones morfosintcticos).
Entre el 45 % y el 75 % de los candidatos propuestos por estos programas se tienen que
rechazar. Hay extractores que ofrecen unos
resultados mejores pero utilizan estrategias

3.2. El vaciado terminolgico modelo


Cuando analizamos un vaciado manual de un
especialista nos damos cuenta de que hay
otras unidades que no son nominales ni refe-

18

n 115-S

noviembre/diciembre de 2009

ca, que en el fondo se presupone que es percibida cognitivamente, requerida profesionalmente y utilizada operativamente por cualquier colectivo profesional de forma homognea. Por lo tanto, parece obvio que en el diseo de un extractor las preguntas siguientes
son obligatorias: Para qu se utilizar este
extractor?; cul ser su contexto prototpico
de uso?

renciales que suelen estar marcadas. Qu


debe hacer un extractor? seguir basndose
solo en la unidad lxica nominal o ampliar su
objeto de extraccin a otras unidades que
hemos denominado USE (unidades de conocimiento especializado) (Estop 1999)?
Sabemos qu tipo de unidades tienen significado especializado en los textos? Qu vaciado manual deben tener como modelo los
extractores de terminologa para medir su eficacia? Muchas veces se ha dicho que el especialista es el que poda realizar un vaciado ms
fiel de las unidades terminolgicas de un texto, pero hemos comprobado que no hay dos
especialistas que coincidan en sus vaciados
Existe realmente el vaciado modelo? Cul es
el vaciado manual prototpico?

4. Las necesidades
distintos profesionales

terminolgicas

de

Para mostrar que no todos los profesionales


necesitan ni el mismo nmero ni el mismo tipo
de unidades con significado especializado, nos
basaremos en una prueba experimental (Estop 1999) que consisti en dar un mismo texto de medicina a cuatro colectivos profesionales diferentes para que realizaran un vaciado
de las unidades con significacin especializada
pertinentes para una actividad profesional
concreta.

3.3. La adecuacin a las necesidades de una


actividad profesional
La explicacin principal que hay detrs del
escaso uso que los profesionales hacen de los
extractores radica, segn mi opinin, en la
adecuacin de estos extractores a un contexto
de uso determinado. As, cuando los extractores han sido diseados para una actividad
concreta en un contexto de trabajo definido,
los extractores se han integrado en la cadena
de trabajo del profesional por ejemplo
LEXTER (Bourigault 1994). En cambio
cuando el extractor no contempla quines son
sus usuarios o se pretende que se use para
todo tipo de actividades sin haberlas tenido
en cuenta en su diseo su uso es escaso por
poco prolfico. As pues, el verdadero problema es no contar con los intereses reales de los
usuarios. Los intereses terminolgicos de los
usuarios no siempre estn explcitos: muchas
veces desconocemos para qu se ha pensado
que se utilicen e incluso en qu contextos se
suelen utilizar realmente los extractores. Muy
pocos autores de aplicaciones se han planteado cul debe ser la unidad de trabajo; se presupone que realizar una aplicacin terminolgica significa partir de la unidad terminolgi-

Seleccionamos tres profesionales de cuatro


colectivos de usuarios especialistas, documentalistas, traductores especializados y termingrafos-lingistas prototpicamente relacionados con las siguientes cuatro actividades profesionales: transmisin del conocimiento especializado, indexacin de textos especializados, traduccin de textos especializados y
elaboracin de diccionarios especializados.
El corpus de vaciado se extrajo de la obra
de referencia Medicina interna de Farreras y
Rozman (1997). En concreto, los profesionales
vaciaron el texto Enfermedades infecciosas
por Ricketsia, constituido por 10 069 ocurrencias. Se trata de un documento escrito por especialistas para especialistas o aprendices de
especialista, de nivel de especializacin alto.
Los datos de este experimento corroboran
que las unidades de significacin especializada pertinentes para una actividad no lo son
para otra, afirmacin que est totalmente de
acuerdo con el principio vertebrador de la

19

noviembre/diciembre de 2009

n 115-S

extractor con una nica opcin de resultados


(una sola lista de candidatos independientemente de cul sea la aplicacin) y pretender
que sirva para el trabajo en terminologa en
general, pues esta pretensin hace que en la
realidad no se utilicen. A partir de los vaciados manuales de diversos colectivos, como los
que hemos llevado a cabo, se pueden establecer perfiles de necesidades terminolgicas
en relacin a corpus de textos especializados.
Perfiles que permitiran disear un extractor
con mltiples salidas. Salidas que seran ms
adecuadas a las necesidades reales que implicaran la generacin de diversas listas de candidatos a trminos, cada una pertinente a un
contexto de uso. En el fondo se tratara de disear a partir de un mismo corpus textual una
especie de coleccin de gold standards adecuados a necesidades profesionales distintas. Est
claro que nosotros solo hemos querido mostrar la diversidad de necesidades con un pequeo experimento; se necesitaran estudios
de necesidades ms completos, con poblaciones mayores, para poder acabar de perfilar
estos patrones-modelo de necesidades terminolgicas.

metodologa de la Teora Comunicativa de la


Terminologa propuesta por M. Teresa Cabr
(Cabr 1999): el Principio de la adecuacin
comunicativa, del que hemos hablado al inicio
del texto, por el que las aplicaciones terminolgicas deben adecuarse a los principios tericos y a la situacin comunicativa de uso. Veamos, empero, los resultados de la prueba con
ms detalle.
Los resultados de los vaciados (Estop
1999, 2001) reforzaron la idea de que cada colectivo tiene un criterio propio de seleccin de
unidades y esta diversidad de criterios comporta una diversidad de unidades en relacin a:
a) la naturaleza de la unidad,
b) la categora gramatical,
c) la estructura de la unidad,
d) el nmero de unidades seleccionadas,
e) la admisin de variacin denominativa,
f) la frecuencia de uso.
El experimento mostr que la finalidad profesional condiciona la pertinencia de una unidad de significacin especializada. Cada colectivo realiza una mirada distinta a las unidades
terminolgicas (y, en general, a las unidades
de significacin especializada) de un texto. La
pertinencia de una unidad depende de la actividad profesional que se realice. As, para la
transmisin del conocimiento especializado
las unidades pertinentes son unidades que
vehiculan conocimiento especializado; para la
indexacin de textos, unidades representativas
del contenido del texto que permiten identificarlo lo ms unnimemente posible; para la
traduccin especializada, unidades que pueden presentar problemas de traduccin; y,
finalmente para la elaboracin de diccionarios
especializados las unidades ms pertinentes
son unidades lingsticas con significado especializado representativas del mbito u objeto del conocimiento sobre el que se realiza el
diccionario.

5. Vas de trabajo
En el campo de las aplicaciones terminolgicas
y en concreto de los extractores de terminologa todava falta camino por recorrer para llegar al vaciado terminolgico esperado. Es necesario seguir investigando y trabajar para
facilitar al usuario la seleccin final de unidades con significado especializado, ofreciendo
informacin diversa sobre los candidatos y
teniendo en cuenta sus necesidades profesionales. Los estudios se pueden plantear en las
tres lneas siguientes:
- trabajar para afinar los resultados de las
unidades terminolgicas propuestas: reducir el ruido y el silencio (discriminar y clasificar los candidatos);
- trabajar para afinar los resultados de las
otras unidades de significacin especiali-

Todas estas consideraciones nos llevan a la


conclusin de que no se puede construir un

20

n 115-S

noviembre/diciembre de 2009

Computational Terminology. Benjamins, msterdam / Filadelfia.

zada que incluye el texto: reducir el silencio (discriminar y clasificar los candidatos);
- trabajar para adecuar los resultados a los
perfiles de necesidades de las distintas tareas profesionales que requieren terminologa.

DAVID, S. / P. PLANTE (1991), Le progiciel


TERMINO: de la necessit dune analyse morphosyntaxique pour le dpouillement terminologique des textes, 71-88 en Procedings of the
Montreal Colloquium Les industries de la Langue :
perspectives des annes 1990, 1.

Estos retos pasan por un primer peldao: el


trabajo emprico, que implica conocer las necesidades profesionales de las actividades que
requieren trabajar en terminologa.

ESTOP, R. (1999), Extracci de terminologia: elements


per a la construcci dun SEACUSE (Sistema
dExtracci Automtica de Candidats a Unitats de
Significaci Especialitzada) [tesis doctoral], IULA,
Universitat Pompeu Fabra, Barcelona.

Bibliografa

ESTOP, R. (2001), Les units de signification spcialises: largissant l'objet du travail en terminologie, 217-237 en Terminology, 7.2, msterdam / Filadelfia.

BOURIGAULT, D. (1994), LEXTER, un Logiciel


dEXtraction de TERminologie. Application
lacquisition des connaissances partir de textes [tesis doctoral], cole des Hautes tudes en Sciences Sociales, Pars.

ESTOP, R. (2002), Extraccin de terminologa:


elementos para la construccin de un extractor,
225-250 en Tradterm, 7, Sao Paulo.

BOURIGAULT, D. / C. JACQUEMIN / M.-C. LHOMME


(2001), Recent Advances in Computational Terminology, Benjamins, msterdam / Filadelfia.

ESTOP, R. (2009), Los extractores de terminologa:


logros y escollos, en A. ALCINA / E. VALERO / E.
RAMBLA eds. Terminologa y Sociedad del conocimiento, Peter Lang, Berna.

CABR, M. T. (1999), La terminologa: representacin y


comunicacin. Una teora de base comunicativa y
otros artculos, IULA, Universitat Pompeu Fabra,
Barcelona.

SAGER, J.-C. (1990), A Practical Course in Terminology


Processing, Benjamins, msterdam / Filadelfia.

CABR, M. T. / R. ESTOP (2003), On the Units of


Specialised Meaning Uses in Professional
Communication, en Terminology Science and Research, 1-2.

SNCHEZ-GIJN, P. (2004), L's de corpus en la traducci especialitzada: compilaci de corpus ad hoc i


extracci de recursos terminolgics, IULA, Universitat Pompeu Fabra, Barcelona.

CABR, M. T. / R. ESTOP / J. VIVALDI (2001), Automatic Term Detection: A Review of Current


Systems, 53-87 en: D. BOURIGAULT / C. JACQUEMIN / M.-C. L'HOMME eds. Recent Advances in

VIVALDI, J. (2001), Extraccin de candidatos a trmino


mediante combinacin de estrategias heterogneas,
[tesis doctoral], Universitat Politcnica de Catalunya.

21

noviembre/diciembre de 2009

n 115-S

El English-Spanish Accounting Dictionary: un diccionario de internet


para traductores
PEDRO A. FUERTES-OLIVERA
Escuela Universitaria de Estudios Empresariales, Universidad de Valladolid
pedro@tita.emp.uva.es

1. Introduccin: el diccionario de internet

genuino es satisfacer los tipos de necesidades


lexicogrficamente relevantes que puedan
tener uno o varios tipos de usuarios potenciales en uno o varios tipos de situaciones extralexicogrficas (Tarp 2007: 228). Desde este
punto de vista un diccionario de internet para la traduccin especializada es un diccionario de internet que tiene la misin de cubrir las
necesidades de informacin que puedan tener
los traductores durante las diferentes fases de
la traduccin (Tarp 2007): preparacin de la
traduccin, recepcin de la traduccin, transferencia, produccin de la traduccin, revisin
de la traduccin.

or un diccionario de internet entendemos una herramienta de consulta pensada


y construida de acuerdo con las caractersticas
fsicas, lgicas y funcionales de la red. Debe
cumplir con los requisitos derivados de su
naturaleza como material de referencia; tambin con los que demanda la red como soporte
tecnolgico del diccionario de internet.
Atendiendo a su naturaleza, todos los diccionarios son objetos de uso que estn, o deben estar, concebidos para satisfacer las necesidades lexicogrficamente relevantes de un
grupo especfico de usuarios presentes en una
situacin social especfica. Es decir, el grupo
usuario, sus diferentes caractersticas y los
problemas que tienen en diferentes situaciones
de uso son los elementos bsicos de la lexicografa, o ciencia de los diccionarios (Bergenholtz / Tarp 2002, 2003; Tarp 2008).

La fase de preparacin comprende la familiarizacin del traductor con el tema de la traduccin. Un buen diccionario de internet para
la traduccin especializada facilita el proceso
de preparacin del traductor mediante la inclusin de referencias cruzadas a textos externos previamente seleccionados y la preparacin de una introduccin sistemtica adecuada
para adquirir los fundamentos de un campo
de especialidad.

Las caractersticas de la red nos permiten


diferenciar entre el diccionario de internet y
el diccionario en internet: el primero es
aquel con diseo lexicogrfico original adaptado a las caractersticas de internet mientras
que el segundo es un diccionario en papel que
tambin tiene una versin electrnica en internet. En los ltimos aos ha proliferado la aparicin en la red de diccionarios de internet
dirigidos a satisfacer las necesidades de los
traductores. Muchos de ellos son (o pueden ser)
adecuados para la traduccin especializada.
2. El diccionario de internet
traduccin especializada

para

Las fases centrales de la traduccin se inician con la recepcin del texto, es decir con la
lectura del mismo y su comprensin. En esta
fase un traductor necesita datos que expliquen
el significado, principalmente el significado de
los trminos. Una vez comprendido el texto, el
traductor inicia la fase de transferencia del
texto. Finalmente, la fase de produccin o traduccin propiamente dicha. Estas tres fases
estn conectadas entre s y podemos decir que
un traductor necesita datos que expliquen el
significado, equivalentes precisos, fciles de
comprender y datos gramaticales en un sentido amplio. Por ejemplo, en el caso de una tra-

la

Como hemos dicho en el prrafo anterior, un


diccionario es un objeto de uso cuyo objetivo

22

n 115-S

noviembre/diciembre de 2009

4. Combinacin de diccionarios especializados y generales. Al compilar un diccionario de internet para la traduccin especializada no debemos olvidar que alrededor
del 85 % de las palabras de un texto especializado no son trminos; tampoco debemos dejar a un lado los problemas con el
lxico general, por lo que se necesita la
construccin de paquetes integrados que
conecten nuestros diccionarios de internet
con diccionarios generales y con corpus,
fciles de construir con textos de internet
(ver Kilgarriff / Grefenstette 2003).

duccin al espaol, un traductor con el espaol como lengua materna necesita colocaciones, restricciones pragmticas/lingsticas (es
decir, ser un diccionario proscriptivo), normas
de uso de los trminos (si existen), ejemplos,
sinnimos y antnimos. Esto puede conseguirse en un diccionario de internet para la traduccin especializada que ofrezca lo siguiente:
un lema, una definicin breve del lema en la
L1 o lengua del lema, un nico equivalente en
la L2 o lengua a la que se va a traducir el texto,
sinnimos y/o antnimos, colocaciones lexicogrficas y ejemplos ilustrativos de la lengua en
uso, y notas lexicogrficas. Adems, en un
diccionario de internet todos estos datos deben estar interrelacionados permitiendo llevar
a cabo diversas consultas y bsquedas internas y externas, principalmente a uno o varios
corpus conectados con el diccionario. Finalmente, tenemos la fase de correccin y revisin que obliga al traductor/revisor a consultar
un diccionario que parta de la lengua de destino. Es decir, un diccionario de internet para
la traduccin especializada exige la utilizacin
de soluciones lexicogrficas integrales basadas
en estos cuatro requisitos (Tarp 2007: 249-253):

Lo que acabamos de sealar en las secciones anteriores constituye la base cientfica del
English-Spanish Accounting Dictionary, un
ejemplo prototpico de un diccionario de internet que Fuertes-Olivera (2009a, b) define
como an institutional Internet reference work, u
obra de referencia de internet creada por una
institucin con tradicin lexicogrfica, que
tiene como objetivo la satisfaccin de las necesidades primarias de un grupo usuario identificado: los traductores espaoles encargados
de la traduccin de textos de contabilidad y
finanzas originariamente escritos en ingls.

1. Combinacin de listados de palabras. Un


diccionario de internet de traduccin debe
incluir un listado bilinge, y un listado
monolinge o bilinge en el sentido contrario.

3. El English-Spanish Accounting Dictionary


El English-Spanish Accounting Dictionary forma
parte de la coleccin conocida como The Accounting Dictionaries, un conjunto integrado de
diccionarios de internet de contabilidad desarrollados originariamente en el Centre for
Lexicography, Aarhus School of Business.
Hasta la fecha estn disponibles en internet
cinco diccionarios: el Danske Regnskabsordbog
(Diccionario de contabilidad dans), el DanskEngelske Regnskabsordbog (Diccionario de contabilidad dans-ingls), el Engelske Regnskabsordbog (Diccionario de contabilidad ingls), el
Engelsk-Danske Regnskabsordbog (Diccionario
de contabilidad ingls-dans) y el EnglishSpanish Accounting Dictionary (Diccionario de
contabilidad ingls-espaol). A lo largo de los
aos 2010 y 2011 esperamos incorporar a la

2. Combinacin de funciones comunicativas.


Un diccionario de internet de traduccin
debe ayudar a traducir textos, incluyendo
datos gramaticales, colocaciones lexicogrficas y ejemplos.
3. Combinacin de funciones cognitivas y
comunicativas. Un diccionario de internet
para la traduccin de textos de especialidad debe incluir definiciones breves, introducciones sistemticas y referencias
cruzadas a textos externos ilustrativos de
los conceptos tratados. Tambin debe incluir datos gramaticales bsicos junto con
colocaciones y ejemplos.

23

noviembre/diciembre de 2009

n 115-S

misma red el Diccionario de contabilidad espaolingls y el Diccionario de contabilidad espaol.


Los usuarios interesados en su consulta pueden acceder gratis a estos diccionarios a travs
de la pgina web del Centre for Lexicography1, o a travs de la pgina web del diccionario2. En cualquiera de estas pginas web, y en
<http://www.pedrofuertes.net/>, iremos informando sobre cualquier hecho relevante que
afecte a estos productos lexicogrficos e incorporando noticias relacionadas con aspectos
tericos y aplicados de los mismos.

los que tienen el espaol como lengua materna, a solucionar los problemas que puedan
presentarse en situaciones comunicativas y
cognitivas. Las primeras estn relacionadas
con la necesidad de comunicarse y las segundas con el deseo de aprender algo.
Cada entrada del diccionario consta de un
lema en ingls, informacin gramatical sobre
el mismo, una definicin en ingls, un equivalente en espaol, colocaciones en ingls y en
espaol, ejemplos en ingls y en espaol. A
veces hay enlaces a pginas externas y a otros
trminos que aparecen como sinnimos y/o
antnimos. Tambin puede haber notas lexicogrficas explicativas de diversos aspectos
relevantes y referencias cruzadas:

Como hemos dicho antes, el English-Spanish


Accounting Dictionary tiene la misin primaria
de ayudar a los usuarios, fundamentalmente a
1

Ver: <http://www.asb.dk/article.aspx?pid=893>.

Ver: <http://www.accountingdictionary.dk/>.

(1) Ejemplo de una pantalla en el English Spanish Accounting Dictionary

24

n 115-S

noviembre/diciembre de 2009

El diccionario presta una gran ayuda al


ofrecer lo siguiente:

ne plural; si puede ir o no acompaado de


un artculo definido y/o indefinido:

La ortografa correcta del lema ingls. En


aquellos casos en los que exista variedad
ortogrfica entre el ingls britnico y el ingls de los Estados Unidos, el diccionario
identifica cada variedad con las etiquetas
UK y US respectivamente. Tambin se utilizan las etiquetas UK y US para mostrar la
existencia de diferencias terminolgicas.
Por ejemplo, los trminos income statement y
profit and loss account tienen los mismos
equivalentes espaoles ('cuenta de prdidas
y ganancias', 'estado de resultados', 'cuenta
de resultados'), y van seguidos de etiquetas
que indican que income statement se usa en
el ingls de los Estados Unidos, en las
Normas Internacionales de Contabilidad
(International Accounting Standards, IASs)
y en las Normas Internacionales de Informacin Financiera (International Financial
Reporting Standards, IFRSs); por su parte el
trmino profit and loss account es el trmino
equivalente en el ingls del Reino Unido.

(3) Informacin gramatical bsica sobre el


nombre en el English-Spanish Accounting Dictionary
insurance contract <an, the, -s>
authority1 noun <no indefinite article, the,
no plural>

Esto significa que el trmino insurance contract puede usarse con un artculo indefinido:
an insurance contract, con el artculo definido:
the insurance contract, y que la forma plural se
construye aadiendo s: insurance contracts.
Por el contrario el trmino authority, cuyo
equivalente espaol es 'autorizacin' (tener
poder para actuar en nombre de otro), no
puede usarse ni con el artculo indefinido ni
en plural; s puede usarse con el artculo definido: the authority.
Informacin gramatical sobre el verbo:
flexiones y posible uso en singular y/o plural:
(4) Informacin gramatical bsica sobre el verbo en el English-Spanish Accounting Dictionary

(2) Ejemplo en el English-Spanish Accounting


Dictionary

accept
verb <-s, -ed, has ed, -ing>
passive <is, -ed, was ed>

income statement US, IAS/IFRS


cuenta de prdidas y ganancias
estado de resultados (synonym)
cuenta de resultado (synonym)

Esto significa que el verbo ingls accept es


un verbo regular cuyo sistema flexivo es tpico
en la voz activa (accepts, accepted, has accepted,
accepting) y en la pasiva (is accepted, was accepted).

profit and loss account UK


cuenta de prdidas y ganancias
estado de resultados (synonym)
cuenta de resultados (synonym)

Informacin sobre una serie de trminos


que, aunque puedan usarse, el diccionario
no los recomienda. En vez de estos trminos, el diccionario remite a trminos equivalentes utilizando la etiqueta Not recommended, use instead con la que enviamos al
usuario a la entrada del diccionario en la
que se define el trmino y se incluyen colocaciones y ejemplos:

Las etiquetas IAS/IFRS que corresponden a


los trminos internacionales en ingls utilizados en las International Accounting
Standards (IASs) (Normas Internacionales
de Contabilidad, NIC) y en las International
Financial Reporting Standards (IFRSs)
(Normas Internacionales de Informacin
Financiera, NIIF).
Informacin gramatical bsica sobre los
nombres ingleses: nos dice si tiene o no tie-

25

noviembre/diciembre de 2009

n 115-S

(8) Ejemplo de sinnimo en el English-Spanish


Accounting Dictionary

(5) Ejemplo proscriptivo en el English-Spanish


Accounting Dictionary
gain on curtailment
<a, the, gains on curtailment>
Not recommended, use instead:
curtailment gain

admission for listing on the stock exchange


admisin a cotizacin en bolsa
Synonym: salida a bolsa
Synonyms
flotation
inicial public offering
IPO

Informacin gramatical espordica precedida de la etiqueta Grammar note, que informa al usuario de propiedades ortogrficas especficas, como observamos en la entrada A rating: debe ir precedida de an y no
de a, aunque pueden encontrarse textos ingleses como a A rating.

Informacin adicional sobre alguno de los


trminos remitiendo al usuario, mediante la
etiqueta Source, a un sitio de internet, normalmente un portal de la Unin Europea,
en el que el usuario puede encontrar textos
que ilustran el uso de la terminologa
IAS/IFRS.

(6) Nota gramatical en el English-Spanish Accounting Dictionary


A rating
<an, the, -s>
Grammar note
According to the grammatical rules, the indefinite article before this expression is 'an'.
We do not recommend the use of the article
'a', even though examples of this appear in a
number of English accounting texts.

Colocaciones y ejemplos que van precedidas de las etiquetas Collocations y Examples.


Las primeras son expresiones formadas por
palabras recurrentes que suelen ir juntas.
Los ejemplos estn sacados de textos de informes financieros y muestran el uso real
del lema en una oracin completa. Pueden
servir de inspiracin a la hora de escribir y
traducir textos.

Una definicin simple y precisa que acompaa a cada lema permitiendo desambiguar
y precisar el nico equivalente ofrecido.
Funcin similar pueden tener los sinnimos
y/o antnimos incluidos en algunas entradas, tanto los que se refieren al lema como
al equivalente. Los sinnimos, adems,
ofrecen trminos alternativos:

4. Ayuda a la hora de traducir un texto de


Contabilidad del ingls al espaol
Adems de lo que ya hemos descrito, el diccionario es de gran ayuda para los traductores
por lo siguiente:
La mayora de las notas contrastivas se refieren a los trminos introducidos en espaol con las traducciones de las NIC y NIFF.
Estn identificados con las etiquetas
IAS/IFRS. Las notas contrastivas informan
de la existencia de trminos tradicionales
que conviven con los trminos IAS/IFRS.
Por ejemplo, el trmino ingls incremental
cost tiene este tratamiento lexicogrfico:

(7) Definicin y equivalente en el EnglishSpanish Accounting Dictionary


balance sheet
balance
noun <a, the, -s>
Definition
The balance sheet is a statement of the enterprise's assets, equity and liabilities at the
balance sheet date. The statement is a
status report estimating the enterprises assets, equity and liabilities as a snapshot at a
certain date.

26

n 115-S

noviembre/diciembre de 2009

Definition
Foreign currency hedging refers to an enterprise's use of derivative financial instruments to hedge against risks of losses in relation to foreign exchange rate movements.
Contrastive note
Spanish accountants prefer 'cobertura por
riesgo de cambio' to the IAS/IFRS term
'moneda extranjera cubierta de riesgo'. This
IAS expression is nonsensical in Spanish.
Synonym
moneda extranjera cubierta de riesgo

(9) Ejemplo de nota contrastiva:


incremental cost coste marginal
<an, the, -s>
Definition
Incremental cost is the differential cost resulting from a decision, i.e. the difference in
total cost between two alternatives, where
the alternative includes the total cost plus
additional costs.
Contrastive note
Although traditional Spanish accounting
texts used 'coste marginal' the Nuevo Plan
General Contable has adopted the IAS/IFRS
term 'coste incremental'.
Synonym:
coste incremental

La seleccin del equivalente se ha limitado


a uno por entrada (algunas con uno o varios sinnimos que son intercambiables con
el equivalente).

Adems, existen notas lexicogrficas que


pueden indicar la preferencia de un trmino frente a otro, (por ejemplo en la entrada
account receivable), y alguna particularidad
del trmino espaol, como puede ser que el
denominado trmino IAS/IFRS es el resultado de una traduccin equivocada que
convierte el trmino ingls en una palabra
sin sentido en espaol (por ejemplo, la entrada foreign currency hedging):

Se han incluido una gran cantidad de colocaciones y ejemplos: alrededor de 27 000 colocaciones y ms de 1 600 ejemplos. Todos
ellos estn extrados de textos tpicos y
pueden considerarse de gran ayuda a la
hora de traducir.
Este diccionario tambin puede usarse para
aumentar nuestros conocimientos de la
contabilidad. Aunque un diccionario como
este no puede sustituir a un manual de contabilidad, su estructura y su diseo permiten aumentar los conocimientos sobre esta
materia gracias al uso de referencias cruzadas, identificadas con la etiqueta See also, a
la inclusin de definiciones breves, a los sinnimos y antnimos y, fundamentalmente, a la inclusin de enlaces a pginas web
que tratan temas de contabilidad, normalmente pginas de la Unin Europea dedicadas a informar de cambios en las Normas
Contables y las Normas Internacionales de
Informacin financiera. Tambin est prevista la inclusin de una introduccin sistemtica para semiexpertos. Por ejemplo:

(10) Ejemplo de nota lexicogrfica:


account receivable US, IAS/IFRS
cuenta deudora
<an, the, accounts receivable >
Definition
An account receivable is an amount owed
to an enterprise, generally by a customer,
as a result of usual extension of credit.
Contrastive note
Spanish accountants prefer 'cuenta deudora' to the IAS/IFRS term 'cuenta a cobrar'.
Synonym
cuenta a cobrar
Antonym
cuenta a pagar
cuenta acreedora

(11) Referencia cruzada a un texto de la Unin


Europea:

foreign currency hedging


cobertura por riesgo de cambio
<a, the, -s >

policyholder
tenedor de una pliza de seguros
noun <a, the, -s>

27

noviembre/diciembre de 2009

n 115-S

Definition
The policyholder is the party (be it one
or more persons, an enterprise or an institution) in an insurance arrangement
who has a right to compensation from
the insurer should an insured event occur.
Synonym
tenedor de contrato (IAS/IFRS)
Source
IFRS 4, Appendix A

tes espaoles nativos a traducir al espaol


textos de contabilidad originariamente escritos
en ingls.
6. Referencias bibliogrficas
BERGENHOLTZ, Henning / Sven TARP (2002), Die
moderne lexikographische Funktionslehre. Diskussionsbeitrag zu neuen und alten Paradigmen, die Wrterbcher als Gebrauchsgegenstnde verstehen, 253-263 en Lexicographica. International Annual for Lexicography 18.

Al pinchar en IFRS 4, Appendix A, accedemos a la pgina de la Comisin Europea:


<http://ec.europa.eu/internal_market/accounti
ng/ias/index_en.htm>, que contiene las Normas Internacionales de Contabilidad y las
Normas Internacionales de Informacin Financiera adoptadas por la Comisin Europea,
en las que encontramos informacin relevante
y definiciones en ingls y en otras lenguas
oficiales de la Unin Europea.

BERGENHOLTZ, Henning / Sven TARP (2003), Two


Opposing Theories: On H. E. Wiegands Recent
Discovery of Lexicographic Functions, 171-196
en Hermes. Journal of Linguistics 31.
FUERTES-OLIVERA, Pedro A. (2009), The Function
Theory of Lexicography and Electronic Dictionaries: Wiktionary as a Prototype of Collective
Free Multiple-language Internet Dictionary,
99-134 en H. BERGENHOLTZ / S. NIELSEN / S.
TARP eds. Lexicography at a Crossroads. Dictionaries and Encyclopedias Today, Lexicographical Tools
Tomorrow.

Antes de que finalice 2009, el EnglishSpanish Accounting Dictionary <http://www.acc


ountingdictionary.dk/regn/gbsp/regngbsp_in
dex.php> tendr ms de 6 000 entradas (o artculos) disponibles en internet. Igualmente,
esperamos que a finales de ao tambin est
preparada la versin impresa, que aparecer
de la siguiente forma:

FUERTES OLIVERA, Pedro A. [en prensa]: Lexicography for The Third Millennium: Free Institutional Internet Terminological Dictionaries for
Learners, en Pedro A. FUERTES-OLIVERA ed.
Specialised Dictionaries for Learners. In Honour of
Enrique Alcaraz Var, Lexicographica Series
Maior, Niemeyer, Tubinga.

Pedro Fuertes Olivera, Pablo Gordo Gmez,


Marta Nio Amo, ngel de los Ros Rodicio,
ngeles Sastre Ruano, Sven Tarp, Marisol Velasco Sacristn y Sandro Nielsen, Lise Mourier,
Henning Bergenholtz: Diccionario de Contabilidad
Ingls-Espaol.

KILGARRIFF, Adam / Gregory GREFENSTETTE eds.


(2003), Special Issue on the Web as a Corpus
en Computational Linguistics 29.3.
TARP, Sven (2007), Qu requisitos debe cumplir
un diccionario de traduccin del siglo XXI?,
227-256 en Pedro A. FUERTES-OLIVERA ed. Problemas Lingsticos en la Traduccin Especializada,
Universidad de Valladolid, Valladolid.

5. Conclusin
El English-Spanish Accounting Dictionary es un
diccionario de internet integrado en un paquete de diccionarios interrelacionados que ha
sido construido de acuerdo a los principios de
la teora funcional de la lexicografa (Tarp 2008)
con la intencin primaria de ayudar a hablan-

TARP, Sven (2008), Lexicography in the Borderland


Between Knowledge and Non-knowledge. General
Lexicographical Theory with Particular Focus on
Learners Lexicography, Lexicographica Series
Maior, Niemeyer, Tubinga.

28

n 115-S

noviembre/diciembre de 2009

Terminologa aplicada basada en corpus


XAVIER GMEZ GUINOVART
Universidade de Vigo
xgg@uvigo.es

1. Introduccin

trminos asociados a un mbito temtico de


especialidad.

a orientacin hacia la investigacin aplicada basada en corpus textuales se ha consolidado en los ltimos aos como una metodologa fructfera para la descripcin y anlisis
de los fenmenos lingsticos en prcticamente todos sus aspectos. En este artculo, presentar una aproximacin a la investigacin basada en corpus en el mbito de los trabajos terminolgicos, ilustrando la aplicacin de esta
metodologa con algunos trabajos realizados
por nuestro grupo de investigacin de la Universidad de Vigo en torno a la elaboracin de
una base de conocimientos terminolgicos de
la lengua gallega denominada Termoteca.

Tradicionalmente, los autores de repertorios lxicos buscaban sus fuentes de informacin sobre los datos lingsticos en otros repertorios lxicos, en citas selectas de textos del
canon literario o en su propia intuicin como
hablantes de la lengua. Este mtodo de trabajo
supona limitaciones muy considerables para
la prctica lexicogrfica, ya que, por una parte,
las reflexiones propias de los lexicgrafos sobre el uso del lxico podan no ser ajustadas a
la realidad lingstica; por otra parte, la recopilacin manual de citas de obras cannicas
resultaba un trabajo lento y muy poco productivo; y, por ltimo, los diccionarios usados
como fuente de inspiracin solan no estar
actualizados o, en el peor de los casos, podan
contener errores acumulados debidos a su
sucesiva reproduccin a lo largo de los tiempos.

2. Lexicografa y terminografa basada en


corpus
El estudio de la lengua a travs de los corpus
textuales permite aproximarse de una manera
emprica al uso real del lenguaje en su contexto. El anlisis de las unidades lxicas de un
corpus textual permite observar su potencialidad semntica, su frecuencia de uso y su combinatoria de un modo muy realista y ciertamente inalcanzable desde la pura reflexin
introspectiva sobre el funcionamiento del lenguaje. Del mismo modo, en el estudio del discurso lingstico tcnico o especializado, la
explotacin de corpus tcnicos con las herramientas informticas apropiadas facilita la
tarea de identificar en los textos el repertorio
utilizado de unidades lxicas con contenido
terminolgico y permite al mismo tiempo
observar su polisemia y su sinonimia, comprobar su frecuencia en los textos, obtener
ejemplos reales de uso y contextos definitorios e, incluso, descubrir las relaciones semnticas codificadas en los textos entre los

La introduccin del uso de corpus textuales


informatizados en la prctica lexicogrfica
contribuye sin duda a la superacin de estas
limitaciones de la metodologa tradicional,
facilitando la observacin del lxico de una
lengua en la realidad de su uso lingstico, es
decir, en su prctica textual. El primer caso de
xito en la introduccin del uso de los corpus
textuales informatizados para la elaboracin
de diccionarios le correspondi a la Universidad de Birmingham y a la editorial Collins,
promotora del diccionario Cobuild (Sinclair
1987), cuya primera edicin vio la luz en 1987.
En su momento, el proyecto Cobuild fue muy
innovador, ya que por vez primera se utilizaba
en lexicografa un corpus representativo de
textos para facilitar el anlisis de los significados de las palabras, la identificacin de patro-

29

noviembre/diciembre de 2009

n 115-S

terminologa se trabaja con corpus ms orientados a determinados dominios que muchas


veces resultan de difcil obtencin.

nes sintcticos y la descripcin de las colocaciones y de la fraseologa de una lengua, en


concreto el ingls contemporneo. Tras el xito
del Cobuild, la metodologa de trabajo de la
lexicografa basada en corpus fue seguida por
otras grandes editoriales, como Oxford University Press, Longman y Larousse (que colaboraron en la elaboracin del British National
Corpus) y Cambridge University Press.

Con todo, en estos momentos, la terminologa moderna (que tanto debe a los trabajos
del Grupo IULATERM, liderado por Teresa
Cabr en la Universidad Pompeu Fabra de
Barcelona) sostiene principios tericos y metodolgicos que destacan la importancia del
uso de grandes repertorios textuales para el
trabajo terminogrfico, debido a las facilidades
que estos ofrecen para la identificacin en los
textos de las unidades con contenido especializado y para la extraccin de la informacin
terminolgica codificada en los textos asociada
con estas unidades. Como nos recuerda la
Teora Comunicativa de la Terminologa (Cabr 1999), para la terminologa moderna los
textos son el hbitat natural de los trminos,
el medio en el que observar la verdadera naturaleza de las unidades de valor especializado.
En este sentido, la teora terminolgica moderna substituye el paradigma prescriptivo de
la Teora General (o Tradicional) de la Terminologa por una visin descriptiva de su objeto
de estudio, una perspectiva que nuestro grupo
de investigacin de la Universidad de Vigo
comparte y que nos ha conducido de manera
natural a la adopcin de una metodologa basada en corpus en nuestra investigacin en el
campo de la terminologa de la lengua gallega.

En el caso del espaol, podemos ver ejemplos recientes de la aplicacin de esta metodologa en el diccionario publicado por la editorial SGEL a partir del corpus Cumbre (Snchez
2001) o en el diccionario de colocaciones Redes
(Bosque 2004) basado en un corpus periodstico de 250 millones de palabras de la editorial
SM. La metodologa de trabajo de la lexicografa basada en corpus se est empleando tambin para el cataln en la elaboracin por parte
del IEC del Diccionari descriptiu de la llengua
catalana basado en el Corpus Textual Informatitzat de la Llengua Catalana (Rafel 1997). En Galicia, el corpus de referencia del gallego denominado Tesouro Informatizado da Lingua Galega
(Santamarina 2003) constituye la base del dicionario de uso de la lengua gallega dirigido
por el profesor Antn Santamarina, en fase de
preparacin; y el Corpus CLUVI (Gmez Guinovart 2003), elaborado en el marco de nuestro
grupo de investigacin de la Universidad de
Vigo, es la fuente textual en la que se fundamenta el Dicionario CLUVI ingls-galego (Gmez Guinovart et alii 2008), disponible libremente en la red desde 2005 y de inminente
aparicin en edicin impresa.

Presentar ahora a modo de ejemplo, con


suma concisin, los trabajos que est llevando
a cabo nuestro grupo universitario de investigacin en la construccin de la Termoteca, un
banco de datos terminolgico para el gallego
basado en corpus especializados monolinges
y paralelos.

Aunque las bases tericas para el trabajo en


terminologa basada en corpus son similares a
las de la lexicografa basada en corpus, la terminologa basada en corpus ha tardado ms
tiempo en afianzarse como un procedimiento
de trabajo normalizado, a causa, probablemente, de la diferente naturaleza de los corpus con
los que se trabaja, ya que en el caso de la lexicografa, los corpus suelen ser de amplia base
y alcance general, mientras que en el caso de la

3. La Termoteca
La Termoteca es un banco de datos terminolgico basado en los textos de especialidad monolinges y paralelos recopilados, respectivamente, en el Corpus Tcnico do Galego (Gmez
Clemente / Gmez Guinovart 2006) y en el

30

n 115-S

noviembre/diciembre de 2009

moteca) y de la ecologa y ciencias ambientales


(1 437 trminos del gallego en registros monolinges de la Termoteca). Se est trabajando en
la ampliacin de la base de datos terminolgica a los campos de la medicina (actualmente,
1 015 trminos del gallego en registros monolinges de la Termoteca) y de la informtica
(en estos momentos, 399 trminos del gallego
en registros monolinges de la Termoteca), a
partir de los datos de las secciones especializadas correspondientes de los corpus CLUVI y
CTG (Gmez Guinovart 2008).

Corpus CLUVI (Gmez Guinovart 2003). El


CLUVI (Corpus Lingstico da Universidade
de Vigo) es un conjunto de corpus paralelos de
unos 23 millones de palabras, formado principalmente con traducciones al gallego o del
gallego, de libre consulta en la web en la direccin <http://sli.uvigo.es/CLUVI>. Por su
parte, el CTG (Corpus Tcnico do Galego) es
una coleccin de corpus del gallego contemporneo de unos 14 millones de palabras,
compuesta de textos monolinges especializados en los campos del Derecho, la informtica,
la economa, las ciencias ambientales, la sociologa y la medicina, disponible para libre consulta en <http://sli.uvigo.es/CTG/>.

Cada registro de la Termoteca incluye toda


la informacin relativa a un concepto especializado, expresado con un trmino gallego documentado en los corpus, y del que se pueden
recoger tambin en el mismo registro sus variantes documentadas, tanto intralingsticas
(trminos sinnimos, variantes ortogrficas o
variantes dialectales) como interlingsticas
(traducciones o, con mayor propiedad, equivalencias). La informacin recogida en la Termoteca para cada variante (incluida la variante
comn o no marcada) incluye el lema del trmino, su categora gramatical como conjunto,
el anlisis morfosintctico de sus componentes, su definicin, su frecuencia de aparicin y
un contexto de uso documentado en el corpus.
Todos los registros de la Termoteca estn catalogados, adems, segn su campo temtico, en
referencia a un rbol conceptual jerarquizado
de la materia, y pueden incluir informacin
sobre las relaciones semnticas (antonimia,
hiperonimia, holonimia, etc.) que guardan con
otros registros del banco de datos.

La informacin terminolgica extrada de


los corpus CTG y CLUVI de manera semiautomtica incluye los propios trminos, junto
con sus contextos, variantes formales y frecuencias de uso; su definicin o definiciones,
cuando se pueden documentar en los corpus;
y las relaciones semnticas que establecen con
otros trminos del corpus, cuando aparecen
explcitamente codificadas en los textos. Las
tcnicas utilizadas para extraer la informacin
son de tipo lingstico-computacional y estadstico, y sus resultados son siempre revisados
y complementados por especialistas (Crespo et
alii 2008).
El banco de datos terminolgico de la Termoteca, de libre acceso en la web en la direccin <http://sli.uvigo.es/termoteca>, est mantenido por el Grupo TALG de la Universidad
de Vigo y cuenta, en la actualidad, con unos
6 000 registros con informacin sobre ms de
10 000 trminos documentados en los corpus
CLUVI y CTG pertenecientes a los mbitos del
Derecho (3 473 trminos del gallego y del espaol especificados en registros bilinges y
monolinges de la Termoteca), de la sociologa
(3 365 trminos del gallego, del espaol, del
francs y del ingls en registros tetralinges y
monolinges de la Termoteca), de la economa
(1 410 trminos del gallego y del espaol en
registros monolinges y bilinges de la Ter-

La Termoteca puede incluir tambin informacin relativa a la neologa para los trminos
considerados neolgicos, es decir, para los
nenimos. Por ahora, solo se ha podido codificar la informacin neolgica relativa a los trminos de las ciencias ambientales. Para cada
trmino neolgico, analizamos su antigedad,
su frecuencia y su dispersin en distintos corpus, comprobamos la exclusin lexicogrfica
de sus componentes lxicos, y a partir de estos

31

noviembre/diciembre de 2009

n 115-S

se desea estudiar. Por ejemplo, la produccin


textual del gallego en mbitos tcnicos muy
recientes o de alta especialidad, como los de la
genmica, la mecnica cuntica, o la aceleracin de partculas es muy limitada o prcticamente inexistente, excepto en aquellos casos
en que la produccin es impulsada por la
Administracin, por lo que la investigacin
terminolgica basada en corpus en esos campos es impracticable. Esta limitacin es an
mayor en el caso de desear realizar una
aproximacin plurilinge basada en corpus.
Por ejemplo, en gallego poseemos una cierta
produccin textual sobre el cambio climtico.
Sin embargo, son prcticamente inexistentes
los textos paralelos ingls-gallego en este
campo. La incorporacin del factor traduccin
limita al gallego en casi todos los mbitos especializados, con la excepcin del Derecho en
la combinacin gallego-espaol, gracias al
imperativo legal vigente.

datos derivamos un ndice de neologicidad


que incluimos, junto con el resto de los datos
neolgicos analizados, en los registros terminolgicos correspondientes de la Termoteca
(Lpez Fernndez 2009).
La aplicacin web de consulta de la Termoteca permite realizar consultas en el banco de
datos a partir de un trmino dado, a partir de
una secuencia de caracteres y comodines (tcnicamente, expresiones regulares) que definen
los trminos buscados, a partir del rea temtica de eleccin, o bien a partir del patrn morfosintctico al que se desea que se cian los
trminos consultados. Una vez situados en un
registro terminolgico de la Termoteca, la
aplicacin de consulta utiliza la informacin
temtica y semntica incorporada para permitir recorrer los registros siguiendo las relaciones semnticas que se establecen entre ellos, o
accediendo a todos los registros que comparten la misma rama del rbol temtico que el
registro consultado. De este modo, la Termoteca puede concebirse y visualizarse como una
red lxico-semntica a dos niveles formada
por nodos conceptuales que se interrelacionan
en funcin de su clasificacin temtica y de
sus relaciones semnticas.

El manejo de corpus tcnicos permite observar


directamente la realidad lingstica plasmada
en los textos especializados, facilitando el anlisis emprico de muchos aspectos pragmticos
de la terminologa que no sera posible estudiar de otra manera sin grandes dificultades
(como su frecuencia de uso, su potencialidad
semntica, su dispersin textual, su datacin
temporal o su combinatoria).

Otra limitacin importante derivada de la


metodologa de corpus se debe a que a veces,
por azar o por limitaciones de la seleccin de
los textos del corpus, trminos que sospechamos que pueden ser frecuentes o normales en
un determinado mbito de especialidad no se
encuentran documentados en el corpus manejado. La causa es que, por lgica estadstica
(no olvidemos que un corpus es una muestra
de una poblacin mayormente desconocida),
lo ms posible es que ningn corpus contenga
todos los trminos de un mbito. Para solucionar este problema, al menos parcialmente, se
puede intentar aumentar el tamao del corpus
y diversificar la variedad temtica y de registros de los textos recopilados, siempre que eso
sea posible.

Sin embargo, el trabajo con corpus impone


ciertas limitaciones de las que la investigacin
terminolgica no se encuentra exenta. En primer lugar, hay que tener en cuenta que basar
el trabajo terminogrfico en corpus exige la
existencia de material textual suficiente escrito
en el mbito especializado y en la lengua que

Finalmente, aunque la extraccin semiautomatizada de informacin terminolgica de


los corpus tcnicos complementa con gran
eficiencia el trabajo de investigacin humano,
de ninguna manera lo hace innecesario. Cualquier metodologa de extraccin automtica
de informacin terminolgica aplicada a cor-

4. Conclusiones

32

n 115-S

noviembre/diciembre de 2009

Consello da Cultura Galega / Instituto da Lingua Galega, Santiago de Compostela.

pus debe ser complementada por una larga


fase de trabajo humano de ponderacin, reflexin y toma de decisiones a partir de los
datos obtenidos.

GMEZ GUINOVART, Xavier dir. (2003), Corpus


CLUVI (Corpus Lingstico da Universidade de
Vigo),
Universidade
de
Vigo,
Vigo:
<http://sli.uvigo.es/CLUVI/>.

Bibliografa

GMEZ GUINOVART, Xavier coord. / Alberto


LVAREZ LUGRS / Eva DAZ RODRGUEZ (2008),
Dicionario
CLUVI
Ingls-Galego:
<http://sli.uvigo.es/dicionario/>.

BOSQUE, Ignacio (2004), Diccionario Redes: Diccionario combinatorio del espaol contemporneo, Ediciones SM, Madrid.
CABR, Teresa (1999), La terminologa: representacin
y comunicacin, Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra, Barcelona.

LPEZ FERNNDEZ, Susana / Xavier GMEZ


GUINOVART / Xos Mara GMEZ CLEMENTE /
Ana CRESPO BASTOS (2009), A avaliacin da
neoloxicidade en terminoloxa, en Teresa
CABR / O. DOMNECH / Rosa ESTOP / Judit
FREIXA eds. Actes de CINEO 2008: Actes del I
Congrs Internacional de Neologia de les Llenges
Romniques, Universitat Pompeu Fabra, Barcelona.

CRESPO BASTOS, Ana / Xos Mara GMEZ


CLEMENTE / Xavier GMEZ GUINOVART / Susana
LPEZ FERNNDEZ (2008), XML-based Extraction of Terminological Information from Corpora, 28-39 en Jos Carlos RAMALHO, Joo
CORREIA LOPES / Salvador ABREU eds. Actas da 6
Conferncia Nacional XATA'2008, Universidade
de vora, vora.

RAFEL, Joaquim dir. (1997), Corpus Textual Informatitzat de la Llengua Catalana, Institut d'Estudis
Catalans, Barcelona: <http://ctilc.iec.cat/>.

GMEZ CLEMENTE, Xos Mara / Xavier GMEZ


GUINOVART dirs. (2006), Corpus Tcnico do
Galego,
Universidade
de
Vigo,
Vigo:
<http://sli.uvigo.es/CTG/>.

SNCHEZ, Aquilino dir. (2001), Gran diccionario de


uso del espaol basado en el Corpus lingstico
CUMBRE, Sociedad General Espaola de Librera, Madrid.

GMEZ GUINOVART, Xavier (2008), A investigacin


en lexicografa e terminoloxa no Corpus Lingstico da Universidade de Vigo (CLUVI) e no
Corpus Tcnico do Galego (CTG), 209-228 en
Ernesto
GONZLEZ
SEOANE
/
Antn
SANTAMARINA / Xavier VARELA BARREIRO eds. A
lexicografa galega moderna: Recursos e perspectivas,

SANTAMARINA FERNNDEZ, Antn dir. (2003),


Tesouro informatizado da lingua galega (TILG), Universidade de Santiago de Compostela, Santiago
de Compostela: <http://www.ti.usc.es/TILG/>.
SINCLAIR, John ed. (1987), Collins Cobuild English
Language Dictionary, Collins, Londres.

33

noviembre/diciembre de 2009

n 115-S

Algunas experiencias de la integracin de ontologas en proyectos de


terminologa1
MERC LORENTE CASAFONT
Institut Universitari de Lingstica Aplicada, Universitat Pompeu Fabra, Barcelona
merce.lorente@upf.edu

Introduccin1

recuperacin automticas de informacin (BFF20000841), y RICOTERM, Sistema de recuperacin de


informacin con control terminolgico y discursivo
(TIC2000-1191), ambos desarrollados en el perodo 2000-2003, tuvieron entre sus resultados la
construccin de un prototipo de banco de conocimiento de estructura modular, bajo la direccin de M. Teresa Cabr y con la colaboracin
de la empresa SPOC como ente asociado. Accesible en <http://genoma.iula.upf.edu:8080/geno
ma/index.jsp>, el recurso tiene por objetivo
facilitar el acceso a contenidos y mltiples
consultas lingsticas para traductores, redactores tcnicos y especialistas en la materia. La
modularidad del banco consiste en la siguiente
estructuracin interna:

as ontologas se nos ofrecen como un recurso muy til en aplicaciones de gestin


del conocimiento, de recuperacin de informacin, de traduccin automtica o de control
de recursos lxicos. Adems de las aplicaciones lingsticas de carcter generalista, son
especialmente interesantes las ontologas desarrolladas para mbitos cientfico-tcnicos, por
su alta granularidad y su consecuente mayor
profundidad en el conocimiento. La cooperacin de informticos y lingistas ha crecido
paulatinamente en los ltimos aos gracias a
los proyectos de construccin y utilizacin de
este tipo de recursos. No obstante, esta cooperacin trasluce, a menudo, visiones contrastadas sobre la fundamentacin de estas estructuras.

- Un corpus textual multilinge (ingls,


espaol y cataln), de casi cuatro millones de
palabras entre las tres lenguas, compuesto
por fragmentos de textos especializados en
genoma humano, o sea, emitidos por
expertos en el mbito y de diversos niveles
de especializacin.
- Una base de datos documental, que contiene
las referencias bibliogrficas de los textos que
componen el corpus.
- Una base de datos factogrfica con
informacin sobre empresas, instituciones,
cientficos, publicaciones peridicas y
portales web, vinculados con el mbito de la
genmica.
- Un banco de datos terminolgicos, tambin
multilinge (ingls, espaol y cataln), de
2 600 entradas, con campos informativos
como la definicin, un contexto de uso
ilustrativo, los equivalentes a las otras dos
lenguas, variantes en la lengua de la consulta
y categora gramatical.

Con toda la prudencia por el hecho de no


ser especialista en el desarrollo de ontologas,
me propongo aqu hacer referencia a un par de
experiencias investigadoras en las que nuestro
grupo IULATERM ha utilizado ontologas
para la gestin y la extraccin de la terminologa, con el fin de poner encima de la mesa algunas cuestiones metodolgicas que, a nuestro
parecer, provocan incoherencias de carcter
terico en terminologa y en lingstica.
El Banco de Conocimiento de Genoma
Humano
Los proyectos de investigacin TEXTERM,
Textos especializados y terminologa: seleccin y

Este trabajo se inscribe en el proyecto de investigacin


RICOTERM3
(HUM2007-65966-C02-01).
Vase
<http://ricoterm.iula.upf.edu/3/>.

34

n 115-S

noviembre/diciembre de 2009

dad para su uso integrado dentro de un sistema de extraccin automtica de terminologa.


El sistema en cuestin es la herramienta YATE
<http://igraine.upf.es/cgi-bin/Yate-on-the-Web
/yotwMain.pl>, desarrollada por Vivaldi
(2001) dentro de las actividades de nuestro
grupo de investigacin2. YATE funciona con
una estructura modular, en la que cada mdulo punta el grado de terminologicidad de un
candidato a trmino. Los mdulos son de naturaleza lingstica (morfolgicos, morfosintcticos y semnticos) y de naturaleza estadstica; los lingsticos deben adaptarse para cada
lengua, mientras que los estadsticos son de
uso comn.

- Una ontologa sobre genoma humano,


vinculada al banco de datos terminolgicos,
con 1 350 conceptos declarados.
Conviene destacar que la consulta en lnea
de la ontologa se realiza conjuntamente con la
base de datos terminolgicos, de manera que
para
cada
entrada
podemos
obtener
informacin terminolgica (categora, definicin
y contexto, variantes y equivalentes) e
informacin relacional (hiperonimia, hiponimia,
cohiponimia, meronimia, asociaciones generales
y relaciones secuenciales espaciales); as las
2 600 entradas terminolgicas remiten a 510
nodos de la ontologa o conceptos distintos.
La ontologa, construida especialmente para
este proyecto a partir de la informacin extrada
de textos especializados, parte de la top ontology
Mikrokosmos (Nirenburg et alii 1995) y se ha
editado con la herramienta de gestin Ontoterm (Moreno 1997).

El mdulo semntico de YATE consulta


una copia con licencia de la jerarqua lxica
WordNet 1.5 (considerada para muchos una
ontologa), concretamente EuroWordNet con
informacin enriquecida para el espaol y el
cataln, que son las lenguas para las cuales se
est adaptando YATE. En la primera versin
de YATE (2001) se adaptaron los mdulos lingsticos para la extraccin de terminologa de
textos mdicos; en 2003, con motivo de la
construccin del Banco de Genoma Humano,
se realiz una segunda adaptacin para la genmica; en el perodo 2004-2007 el proyecto
RICOTERM2 asumi la adaptacin para la
economa y se realiz un protocolo de trabajo
para futuras adaptaciones; y actualmente, gracias al proyecto RICOTERM3, se estn realizando las adaptaciones para el Derecho, el
medio ambiente y la informtica. As, cubriremos los mismos mbitos del Corpus Tcnico
del IULA <http://bwananet.iula.upf.edu/>.
Asimismo, en este perodo 2007-2010, nos
proponemos migrar todo el contenido que
hemos introducido hasta ahora en nuestra
versin en local hacia WordNet 3.0 de acceso

El proceso de edicin en paralelo de la ontologa y de la base de datos terminolgicos y


el resultado final nos ofrecieron un campo de
pruebas inmejorable para la observacin, desde la terminologa, de algunas limitaciones
derivadas de la propia metodologa de construccin de este tipo de recursos, a saber:
- desequilibrio entre relaciones conceptuales
representadas (mayora: jerrquicas);
- dificultad en trasladar la informacin enciclopdica (evolucin temporal, diversidad
de puntos de vista) a nodos conceptuales;
- los nodos conceptuales no representan conceptos polidricos sino facetas de estos conceptos (prdida de informacin);
- sobregeneracin de nodos a causa de la top
ontology (la ambigedad no siempre es polisemia).
WordNet en la extraccin automtica de
terminologa
La segunda experiencia consiste en la ampliacin de una ontologa general con informacin
lxica relativa a diversos mbitos de especiali-

35

La tesis de Rosa Estop (1999) proporcion la base


para el diseo de los mdulos lingsticos morfosintctico y morfolgico.

noviembre/diciembre de 2009

n 115-S

ponerlo a disposicin de todo el mundo) es


una apuesta decidida por trabajar con aplicaciones lexicalistas multifuncin y multilinges
de uso universal para fomentar su reutilizacin. Adems, en comparacin con otros extractores de terminologa, la consulta de un
mdulo semntico aumenta la precisin notablemente. Y finalmente, para la descripcin
terminolgica, ha sido de suma importancia
detectar gracias a la representacin de nodos y
relaciones la diversidad de estructuras cognitivas entre mbitos (ms verticales en ciencias
experimentales, ms horizontales en ciencias
humanas y sociales). Por otro lado, el trabajo
con WordNet tambin nos presenta limitaciones evidentes, como una top ontology orientada
lingsticamente (ingls), un predominio de
las relaciones de sinonimia, hiperonimia e hiponimia en detrimento de otras relaciones
conceptuales, la misma concepcin de la sinonimia (no consensuada en lingstica) o la dificultad para introducir sintagmas lexicalizados.

libre, para que sea accesible a toda la comunidad para otros usos.
Nuestro trabajo de enriquecimiento de
WordNet con informacin especializada consiste, bsicamente, en la deteccin de nodos
(synsets en WN) que puedan funcionar como
fronteras de dominio, o sea que pueda asegurarse que debajo de ese linde todas las unidades relacionadas sern terminolgicas (lxico
especializado). Otra tarea, ms ardua, se nos
aparece cuando no existen estas fronteras y
hay que declarar una cantidad de entradas
suficientes. En cualquier caso, el enriquecimiento de WN siempre se hace con informacin lxica en ingls, espaol y cataln. El resultado de nuestras ampliaciones acabadas
corresponde a los datos de la tabla siguiente:
Novedades

Medicina Genmica Economa

Synsets

1370

137

15

Variantes

1286

163

445

Relaciones

526

11

16

A modo de conclusin

Ntese que el volumen de la informacin


introducida para la medicina es mucho mayor
que en las otras dos. El motivo es diverso:
mientras que la genmica comparte muchos
de los recursos lxicos y semnticos de la medicina, la economa lo hace con el lenguaje
comn. La dificultad de la tarea en economa
no ha sido tanto la inclusin de nuevos datos
(menor) como la evaluacin de la herramienta
y el diseo de estrategias complementarias
para mejorar los resultados de la extraccin en
todos los mbitos cercanos a la lengua comn.
La evaluacin de YATE, tras las expansiones,
es, para una cobertura del 30 %, el 95 % de
precisin en medicina y genmica y el 75 % en
economa.

Con independencia de las limitaciones existentes en las diversas versiones de aplicaciones


concretas que acabamos de repasar, no tenemos ninguna duda de que la interaccin entre
aplicaciones lxicas (recursos o herramientas)
y ontologas tiene an un largo y esperanzador recorrido. Las ontologas mejoran (y pueden mejorar ms an) sistemas de gestin y de
extraccin de la terminologa, as como sistemas complejos de gestin del conocimiento
(indizacin, web semntica, recuperacin,
etc.). Facilitan la interoperabilidad, la gestin
de contenidos de gran volumen y el razonamiento automtico.
El conocimiento que se pueda aportar desde la lingstica, y la terminologa en particular, debe ayudarnos a mejorar aspectos clave
en su diseo y construccin, como la introduccin de la diversidad de perspectivas u orientaciones en los mbitos temticos especializa-

Para la reflexin y el trabajo de futuro, observamos ventajas e inconvenientes (u obstculos a superar) en el uso de una ontologa
para la extraccin de la terminologa. Por un
lado, la ampliacin de WN (y la posibilidad de

36

n 115-S

noviembre/diciembre de 2009

FELIU, J. / J. VIVALDI / M. T. CABR (2002), Ontologies: A Review, IULA, Universitat Pompeu


Fabra, Barcelona.

dos, la adecuacin de la granularidad de las


ontologas para usos distintos, la complecin y
el equilibrio de relaciones conceptuales y semnticas, la deteccin de inconsistencias para
la herencia mltiple, la delimitacin de mbitos temticos cercanos a la lengua comn, y
seguramente el reto ms grande la superacin
de la paradoja lingstica, o sea la representacin del dinamismo de las lenguas y de los
conceptos.

JOAN, Anna / Jorge VIVALDI / Merc LORENTE


(2008), Turning a Term Extractor into a New
Domain: First Experiences, en LREC 2008 Proceedings, Marrakech.
LORENTE, M. (2006), Expansi de consultes multilinge per a la recuperaci dinformaci en economia, en M. Juan et alii ed. Lingstica aplicada
en la sociedad de la comunicacin y la informacin,
AESLA, Universitat de les Illes Balears, Palma
de Mallorca.

Bibliografa
CABR, M. T. et alii (2004), The Genoma-KB Project: Towards the Integration of Concepts,
Terms, Textual Corpora and Entities, 87-90 en
LREC 2004 Procedings, ELRA, Lisboa.

LORENTE, M. (2005), Ontology for Economics and


Information Retrieval, en Hipertext.net 3:
<www.hipertext.net>.
VIVALDI, Jorge (2001, 2004 [cd-rom]), Extraccin de
candidatos a trmino mediante combinacin de estrategias heterogneas [tesis doctoral], IULA, Universitat Pompeu Fabra, Barcelona.

ESTOP, R. (1999, 2003 [cd-rom]), Extracci de Terminologia: elements per a la construcci d'un
SEACUSE (Sistema dExtracci Automtica de
Candidats a Unitats de Significaci Especialitzada)
[tesis doctoral], IULA, Universitat Pompeu Fabra, Barcelona.

VIVALDI J. / H. RODRGUEZ (2007), Evaluation of


Terms and Term Extraction Systems: A Practical
Approach, 225248 en Terminology 13.2.

FELIU, J. et alii (2004), The Genoma-KB: A Concept


Based Term Enlargement System, 32-35 en
COSTA et alii ed. Workshop on Language Resources
and Evaluation, ELRA, Lisboa.

VIVALDI J. / H. RODRGUEZ (2002), Medical Term


Extraction Using the EWN Ontology, en Proceedings of Terminolgy and Knowledge Engineering
(TKE2002).

DUFIE, Diccionario de unidades fraseolgicas ingls-espaol: una


ayuda para la traduccin de unidades polilxicas
SILVIA MOLINA
Universidad Politcnica de Madrid
Silvia.molina@upm.es

1. Hiptesis de partida

Igualmente, los diccionarios especficos bilinges de expresiones idiomticas (Carbonell,


Harrap's Diccionario de expresiones idiomticas
ingls-espaol) presentan tres deficiencias:

ay un tratamiento asistemtico e insuficiente de las unidades fraseolgicas en


los diccionarios bilinges ingls-espaol y
espaol-ingls de uso general de la lengua
(Collins, Larousse, Oxford, Richmond).

1. Dejan en varias ocasiones al margen las colocaciones lxicas ms habituales, que resultan

37

noviembre/diciembre de 2009

n 115-S

y el alemn, esta diversidad de estructuras


encuentra dificultades en los diccionarios bilinges ingls-castellano, que:

imprescindibles para la adquisicin de una


competencia comunicativa adecuada para el
estudiante de la lengua extranjera.
2. Los ejemplos no proceden del uso real de la
lengua.
3. Es necesario ofrecer ms traducciones, teniendo presentes cuestiones de ndole pragmtica, de registro, variacin diastrtica,
diafsica, etc.

1. No adoptan unos criterios claros de seleccin e inclusin de las mismas. Se descarta la


fraseologa difcil en ocasiones ('nadie quiere
alhajas con dientes').
2. No incluyen parte de la fraseologa del lenguaje informal y coloquial: flat broke, not to have
a pot to piss in, to kick up a fuss, hard on its heels,
'pasarlas canutas', 'mandar a frer esprragos',
etc.
3. Incluyen frases ya desfasadas, procedentes
de diccionarios decimonnicos: 'un dedo no
hace mano ni una golondrina verano' (Savaiano / Winget 2001: 85).
4. No incluyen ejemplos de uso, lo que dificulta el aprendizaje de la unidad fraseolgica.
5. Revelan falta de correspondencia entre la
parte inglesa y la espaola.

2. Antecedentes y estado actual del tema


Las investigaciones sobre la adquisicin y uso
de la lengua extranjera revelan la importancia
de las diferentes combinaciones de palabras,
de las frmulas prefabricadas, automatizadas
de la lengua (cf. Corpas Pastor 1996b: 11).
Una unidad fraseolgica es una construccin lingstica estable, de dos o ms palabras,
asociada al contexto comunicativo, caracterizada por una serie de factores, tales como la
repeticin, la fijacin, la idiomaticidad y la
anomala. Las unidades fraseolgicas pueden
clasificarse en colocaciones, locuciones y
enunciados fraseolgicos. Las colocaciones son
sintagmas completamente libres a los que el
uso ha dado cierto grado de restriccin combinatoria (por ejemplo: it is pouring with rain).

Las relaciones de equivalencia entre las


unidades fraseolgicas del ingls y el castellano reflejan la existencia de un continuo que va
desde la identidad total hasta la falta de equivalencia. Entre ambos polos hay varios casos
de equivalencia parcial, provocada por incoherencias de tipo semntico, figurativo y connotativo. La equivalencia plena se produce
cuando a una unidad fraseolgica de la lengua
de origen corresponde otra en la lengua de
llegada que tiene el mismo significado denotativo y connotativo, una misma base metafrica, una misma distribucin y frecuencia de
uso, las mismas implicaturas convencionales y
similares connotaciones (restricciones diastrticas, diafsicas y diatpicas). Este tipo de
equivalencia es raro y se encuentra en los europesmos ('todos los caminos llevan a Roma'
> all roads lead to Rome), las unidades fraseolgicas denominativas ('puente colgante' > suspension bridge) y en la fraseologa terminolgica (tax deduction > 'gasto deducible'). Sin embargo, la mayora de las unidades fraseolgicas tienen equivalentes parciales con divergencias en la base metafrica (silence is golden >

Las locuciones son unidades fraseolgicas


del sistema de la lengua que no constituyen
enunciados completos ni actos de habla y que
funcionan, generalmente, como elementos
oracionales (spick and span). Los enunciados
fraseolgicos estn fijados en el habla y pertenecen a la herencia socio-cultural de la comunidad hablante. Aqu hay dos grandes clases,
paremias y frmulas rutinarias: las primeras
tienen autonoma textual y significado referencial ('a quien madruga, Dios le ayuda'); las
segundas por el contrario carecen de autonoma textual y surgen en determinadas circunstancias y situaciones comunicativas ('no te
pongas as'). A pesar de que Wotjak (1983: 75)
constata que hay un gran nmero de casos de
identidad morfosintctica y semnticocomunicativa entre lenguas como el castellano

38

n 115-S

noviembre/diciembre de 2009

4. Crear una versin en CD-ROM que permita


un tiempo de acceso menor, sobre todo si
puede ser residente en el disco duro puesto
que, si hay espacio disponible, resulta ms
rpido an. Por otra parte, la flexibilidad de
los saltos hipertextuales permitir acceder a la
unidad fraseolgica desde cualquiera de las
palabras que la conformen. Se podr ver la
traduccin 'hacrselas pasar canutas' bajo los
tres lemas 'hacer', 'pasar', 'canutas'. Esta flexibilidad permitir solventar el grave problema
de organizacin de datos.

'en boca cerrada no entran moscas') y en la


frecuencia de uso, que puede ser diferente en
ambas lenguas, o poseen equivalentes bien
establecidos en la otra lengua formados por
una unidad lxica simple ('de bote en bote' >
packed). En el polo opuesto se encuentran las
unidades fraseolgicas que no tienen equivalentes en la otra lengua ('no querer alhajas con
dientes'). En este caso, es menester valorar la
carga semntica, pragmtica y discursiva de la
unidad en el TO (texto origen) para verter a
continuacin dichos contenidos en la LM (lengua meta) mediante la tcnica de la modulacin: 'andar con paso de tortuga' > snails pace.
Otro procedimiento de traduccin es el calco,
que es el segundo ms empleado para traducir
fraseologa despus de la equivalencia; este
prstamo parcial por traduccin se ve en
child's play > 'juego de nios', que en castellano
se podra expresar tambin como est tirado
o est chupado, en registro coloquial.

3. Objetivos detallados del proyecto


Cowie (1993: xii-xiii) identifica cuatro tipos
principales de expresin idiomtica que son
ms afines a un diccionario de fraseologa que
a un diccionario purista de locuciones idiomticas y que se adoptar en nuestro diccionario
bilinge:
1. Locuciones idiomticas puras: the end point
of a process by which word combinations first establish themselves through constant re-use, then
undergo figurative extension and finally petrify
or congeal. Ejemplos: push up daisies > 'estar
criando malvas'.

Por las razones anteriormente expuestas,


queda claro que se necesitan diccionarios fraseolgicos completos que puedan dar una visin fidedigna de estos usos del lenguaje. En
mltiples ocasiones, los traductores y estudiantes avanzados de ambas lenguas tienen
que improvisar para traducir las unidades
fraseolgicas, puesto que ciertas traducciones
presentes en los diccionarios bilinges generales no cubren satisfactoriamente las necesidades de los usuarios. En concreto, se propone
aqu crear una obra que cumpla con los siguientes requisitos:

2. Locuciones idiomticas figurativas: this


category is idiomatic in the sense that variation is
seldom found and pronoun substitution unlikely.
Ejemplos: burn one's boats, beat one's breast.
3. Colocaciones
restringidas:
(semiidiomticas): one word has a figurative sense not
found outside that limited context; the other element appears in a familiar, literal sense. Ejemplos:
jog one's memory > 'ejercitar la memoria'.

1. Elaborar un diccionario con correspondencias paralelas que reproduzca la idea, no la


forma.

4. Colocaciones abiertas: ambos elementos se


pueden combinar con libertad. Ejemplos: a
broken window; 'una ventana rota', 'un da lluvioso', 'un da luminoso'.

2. Presentar ejemplos de uso real de cada locucin, frase y modismo procedentes del BNC
y el Bank of English.

Una vez compilado el corpus definitivo de


locuciones idiomticas en cada lengua, resulta
palmaria la necesidad de proceder a su traduccin, puesto que todava no existen diccionarios exhaustivos que permitan una traduc-

3. Ofrecer siempre ms de una traduccin


cuando sea posible: to rake s.o. over the coals >
'hacrselas pasar canutas / moradas / negras /
putas (vulg.) a alguien'.

39

noviembre/diciembre de 2009

n 115-S

group sex, but to Boston's polyamory community, it's just like marriage only bigger.

cin idnea de las unidades fraseolgicas. Ser


fundamental tener presentes la seleccin de
los equivalentes de traduccin, la vigencia y
actualidad de las unidades incluidas, los
ejemplos de uso. Sirvan como ejemplos de
entradas de nuestro diccionario las siguientes
unidades polilxicas (primero las colocaciones,
luego las locuciones), bajo el sustantivo love.
LOVE I

love affair; letter; scene, song, story un


affair amoroso; carta de amor; escena,
cancin, historia de amor. Large archive of the
most beautiful love songs lyrics of all time.
***
an act of love acto de amor. TV.com is your
reference guide to Dallas episode Act of Love.

n.

deeply / madly / passionately in love


estar muy, locamente, profundamente
enamorado, -a. I've fallen deeply in love with
you.

[deep affection] love life / love in life; to


inspire love for vida amorosa / amor de su
vida; inspirar amor a algn. Her happiness, her
only love in life gone.

to be head over heels in love with sb estar


enamorado, -a de pies a cabeza. And it looks
like I'm falling all over again head over heals in
love with you.

to declare, express one's love for sb


declarar, expresar amor por algn. How to declare your love in order to get a positive answer?
blind; calf (esp. IBr) / puppy; cupboard
(IBr); deep, profound, sincere, true;
platonic; romantic; undying; unrequited
love amor ciego; juvenil; interesado;
profundo, sincero, verdadero; platnico;
romntico; eterno; no correspondido.

love is blind el amor es ciego. Many people


debate about whether or not love is blind.
love makes the world go round / love will
find a way el amor todo lo puede. When you
say love makes the world go 'round my love, look
at what you've done to me.

love for one's country; to have no love for


sb amor por mi / su pas; no querer a algn. If
a white in South Africa is fair and has love for
her / his country, [...]

the love of sbs life el amor de mi / tu vida.


Love of my life don't leave me.
no love lost / little love lost no se pueden
ver. Little love lost between media and charities?

to do smt for/out of love hacer algo por


amor. "I did it out of love", he said of the spanking.

El registro tambin es una informacin importante. La expresin to kick the bucket, 'estirar
la pata', significa morir, pero se dir que
solo se puede usar de forma humorstica y que
es informal. Otro elemento a tener en cuenta
es el grado de inflexin que admiten estas
unidades fraseolgicas. En el caso que nos
ocupa, el complemento directo no se puede
poner en plural. Se indicarn aquellos casos en
los que es factible la inflexin, siempre a partir
de las pruebas que aporten el corpus britnico
y el espaol.

to fall in / out of love (with sb) enamorarse /


desenamorarse. The lyrics of When I Fall In
Love by Nat King Cole.
love at first sight amor a primera vista. Do
you believe in love at first sight? Take this quiz
to find out!
[expression of deep affection] to give; send
one's love con todo mi / su cario. "Send His
Love To Me" Lover had to leave me 'Cross the
desert plain Send them home today I'm begging, Jesus, please Send his love to me

Otra dificultad que se intentar sortear es


tratar de incluir la variacin en las palabras de
contenido en una unidad fraseolgica. Por
ejemplo: shake / shiver in one's shoes / boots
(trad. lit.: 'temblar en tus zapatos / botas'). En
este ejemplo parece que existe un prototipo

[sexual activity] to make love (to, with); love


and hate hacer el amor con; amar y odiar a la
vez. It is possible both to love and hate the city
itself.
[to have intercourse] free love amor libre.
Free love might sound like a euphemism for

40

n 115-S

noviembre/diciembre de 2009

5. Conclusin

cognitivo en lengua inglesa de una persona


que demuestra tener miedo en relacin con los
zapatos y el temblor, que es independiente de
los lexemas que usemos. Este tipo de variacin
se encuentra en varias locuciones idiomticas
y dificulta su inclusin para los lexicgrafos.
El problema se complica porque los distintos
usuarios de una lengua tienen interiorizadas
formas cannicas diferentes, y cada uno suele
creer que solo la suya es la correcta. Otra dificultad aadida reside en las variaciones que se
producen continuamente. Por ejemplo: 'pasarlas moradas / canutas / putas'.

Por qu merece la pena hacer este diccionario? Anteriormente, se han expuesto algunas
de las razones por las que es necesario profundizar ms en la traduccin de las colocaciones y frases idiomticas, lo que permitira
aumentar
la
competencia
pragmticodiscursiva del aprendiz y del traductor. Adems, las locuciones funcionan generalmente
como elementos anafricos referidos a acontecimientos, situaciones o comentarios hechos
previamente, proporcionando no solo cohesin y coherencia al texto, sino que tambin
cumplen funciones estructuradoras y temticas.

4. Metodologa para las tareas


Se incluirn aquellas unidades que aparezcan
en el corpus al menos dos veces (Sinclair,
2000). Esta es una prueba bsica para resultados lingsticos que sean significativos. Aplicando los principios que este autor determina
en 1987: el open-choice principle (principio de
libre eleccin) y el idiom principle (principio de
unidad fraseolgica), se har una recopilacin
de las unidades fraseolgicas (colocaciones,
locuciones y enunciados fraseolgicos) en ingls y en castellano. En concreto, se incluirn
un nmero significativo de colocaciones nominales y verbales: 'rebanada de pan', 'hacer
un comentario' (base + colocativo) con sus traducciones correspondientes, no de forma aleatoria, como suele ocurrir en los diccionarios
bilinges generales (Collins Cobuild EnglishSpanish / Spanish-English; The Oxford SpanishEnglish Dictionary, Diccionario Moderno Larousse
Espaol-Ingls / Ingls-Espaol). Las definiciones se referirn tanto ms al uso cuanto mayor
sea su fijacin pragmtica, esto es, cuanto ms
conectado est el significado de la unidad fraseolgica al contexto de uso.

Por otra parte, las unidades fraseolgicas


tienen como dominio de designacin preferente las valoraciones de la interaccin y comportamientos sociales, siendo usados bsicamente
para la expresin de valoraciones negativas
(Wotjak 1989: 479). Este hecho se explica por el
principio de cortesa, que permite asumir la
cooperacin efectiva de los interlocutores y
que evita la expresin de opiniones negativas
que pudieran considerarse descorteses o inadecuadas en caso de que fueran expresadas
directamente. Por ejemplo, 'la ley del embudo'
indica injusticia, algo que se aplica estrictamente a unas y ampliamente a otras personas.
Esta implicatura convencional forma parte de
la informacin codificada de forma indirecta y
solapada, de la cual es responsable el emisor y
que se basa en el conjunto de conocimientos
previos compartidos por los hablantes de una
determinada comunidad lingstica, as como
las ideas, creencias y modos de actuacin sancionados y compartidos por los participantes
en la comunicacin. En ltimo lugar, tambin
nos parece oportuno incluir aquellos casos en
los que las paremias y otros tipos de frmulas
funcionan como actos de habla y constituyen
algunas de las tcnicas para indicar la finalizacin del tema (topic bounding) que tiene lugar
previamente a la secuencia de cierre de una
conversacin.

El diccionario ser semasiolgico, dado que


la ordenacin alfabtica suele ser la ms cmoda y habitual para el usuario de diccionarios. En cada entrada, habra despus un indicador de sentido (sense indicator) y la traduccin seguida por un ejemplo de uso real.

41

noviembre/diciembre de 2009

n 115-S

English (vol. 1: Phrasal Verbs), Oxford University Press.

6. Bibliografa
AIMER, K. / B. ALTENBERG eds. (1991), Corpus Linguistics, Longman, London.

Corpus de Referencia del Espaol Actual (CREA):


<http://corpus.rae.es/creanet.html>.

BAZELL, C. E. / J. C. CATFORD / M. A. K. HALLIDAY /


R. H. ROBINS eds. (1966), In Memory of J. R. Firth,
Longman, London.

GLASSER, R. (1981), Phraseologie der Englischen


Sprache, Leipzig.

BERTRAM, A. (1993), NTC's Dictionary of Proverbs


and Clichs, National Textbook Company, Lincolnwood (Illinois).

GONZALO GARCA, C. / V. GARCA YEBRA (2000),


eds. Documentacin, terminologa y traduccin,
Sntesis.

CARBONELL BASSET, D. (1995), Diccionario fraseolgico Ingls-Castellano, Castellano-Ingls, Ediciones


del Serbal, Barcelona.

HATIM, B. / I. MASON (1995), Teora de la Traduccin,


Ariel, Madrid.
MOON, R. (1998), Fixed Expressions in English, Oxford University Press.

CORPAS PASTOR, G. (1996a), La fraseologa de los


diccionarios bilinges, 167-182 en M. ALVAR
EZQUERRA ed. Estudios de Historia de lexicografa
del Espaol, Universidad de Mlaga, Mlaga.

MOON, R. et alii (1995), Collins Cobuild Dictionary of


Idioms, HarperCollins.

CORPAS PASTOR, G. (1996b), Manual de fraseologa


espaola, Gredos, Madrid.

PARTINGTON, A. (1998), Patterns and Meanings. Using Corpora for English Language Research and
Teaching, Benjamins, msterdam.

COWIE, A. P. / R. MACKIN / R. MCCAIG (1993


[1983]), Oxford Dictionary of English Idioms: vol. 2
del Oxford Dictionary of Current Idiomatic

SAVAIANO, E. / L. WINGET (2001), 2001 Spanish and


English Idioms / 2001 modismos espaoles e ingleses, Barron Educational Series, Nueva York.

Do-it-yourself IT for Terminology o experiencias de bricolaje


informtico en la elaboracin de diccionarios terminolgicos
CHELO VARGAS SIERRA
Universidad de Alicante
Chelo.Vargas@ua.es

Introduccin

para dar cuenta del uso real de las unidades


lxicas de contenido especializado. Los datos
lingsticos que consideramos necesarios y
tiles para el proceso de traduccin (contextos,
notas de uso, definiciones, etc.) se extraen de
los corpus que se elaboran para cada mbito
especializado objeto de estudio.

a investigacin terminolgica y la elaboracin de recursos bilinges (diccionarios y


bases de datos, principalmente) destinados al
traductor de textos de especialidad constituye
una de las lneas investigadoras del Instituto
Interuniversitario de Lenguas Modernas Aplicadas (IULMA) y, ms concretamente, de uno
de sus grupos, El Ingls Profesional y Acadmico (IPA). Dichos recursos sirven, desde
la filosofa pragmtica que ana al equipo,

Nuestro sistema de trabajo contiene tanto


las diferentes concreciones que se derivan de
los principios metodolgicos, como los recursos y las herramientas que nos proporcionan

42

n 115-S

noviembre/diciembre de 2009

explotacin de bancos de datos terminolgicos, lexicogrficos y de conocimiento.

otros mbitos (la documentacin o la informtica, por ejemplo). Cabr (1993) apunta que
todo trabajo terminolgico debe basarse en
unos principios metodolgicos y en un sistema
de trabajo. El conjunto de dichos principios
constituye el marco terico de la actividad
terminolgica y el sistema, por su parte, implica, establecer un modo de actuar y prever las
etapas necesarias desde el inicio del proyecto
hasta la finalizacin del producto final. Debe
contemplar, por tanto, las fases del trabajo, el
orden en que se ejecuta cada una, el tipo de
tareas o acciones que se desarrollan en cada
momento y las herramientas ideales para desarrollarlas de manera eficaz.

Cada vez hay ms y mejores herramientas


informticas disponibles para el terminlogo.
De hecho, en terminografa computacional ya
est a nuestra disposicin una aplicacin terminogrfica integral (TERMINUS, del grupo
IULATERM) con la que realizar tareas de elaboracin de estructuras de conceptos, de trabajo con corpus (bsqueda y recuperacin de
textos de la web, extraccin terminolgica,
observacin de concordancias), de gestin de
trminos (registro y manipulacin de trminos
y su informacin asociada a la base de datos
que incluye), y de edicin final. Hay otras tareas terminogrficas que todava estn pendientes de integrarse en un paquete informtico, entre las que se encuentran: (a) la digitalizacin de textos en papel (uso de un escner,
seleccin de los fragmentos para ser procesados por un programa de reconocimiento ptico de caracteres, y revisin ortogrfica a fin de
detectar los errores de reconocimiento); (b) el
registro de los atributos textuales (datos bibliogrficos, funcin principal del texto, tenor,
lengua, nombre del fichero electrnico, temtica, etc.); (c) el etiquetado del corpus; (d) la
bsqueda y visualizacin de concordancias en
forma bilinge; (e) el acceso a otros recursos
terminolgicos de referencia en lnea para su
consulta; y (f) la edicin personalizada del
repertorio para su publicacin. Sin lugar a
dudas, an queda camino por recorrer en termintica, aunque tambin es cierto que avanza
a pasos agigantados.

La informtica y la terminologa
En prcticamente todas las etapas del trabajo
metodolgico orientado a la elaboracin de
diccionarios especializados bilinges la informtica aporta los recursos y las herramientas
que aligeran las tareas ms repetitivas que debe
realizar el terminlogo y agilizan, al tiempo, el
proceso de bsqueda, recuperacin y gestin
de los datos terminolgicos. En este contexto,
las etapas de la gestin terminolgica (cf. Vargas 2008) en las que la informtica adquiere
mayor protagonismo, segn nuestra experiencia, son cuatro: (1) la fase de preparacin del
trabajo; (2) la de diseo, construccin y explotacin de corpus; (3) la fase de gestin terminolgica; y (4) la de edicin de la terminologa.
Las aportaciones de la informtica al campo
de la terminologa han influido de forma manifiesta en los mtodos del trabajo terminogrfico, especialmente en la compilacin de terminologa y tambin en la propia organizacin
de los proyectos. Este salto cualitativo se ha
sentido, fundamentalmente, en tres aspectos:
(1) en la posibilidad de trabajar con corpus
representativos de textos digitalizados o ya
electrnicos; (2) en el acceso fcil y rpido a la
informacin mediante el uso de sistemas de
almacenamiento y recuperacin de informacin (SRI); y (3) en la utilizacin, el acceso y la

Bricolaje informtico: un caso prctico


Hasta que tengamos esa herramienta ideal,
algunas tareas terminogrficas se realizan utilizando de forma simultnea varias aplicaciones
y buscando el modo de manipular datos con
herramientas al objeto de conseguir una determinada accin o resultado. Se trata de adoptar
un modelo de eficacia que permita alcanzar los
objetivos previstos utilizando los recursos que

43

noviembre/diciembre de 2009

n 115-S

(en formato .doc) que se publica, por lo general, en forma de diccionario en papel. Debido a
que el formato de salida impreso de la base de
datos empleada no era el deseado para la presentacin del resultado final, especialmente
teniendo en cuenta que ya se contaba con un
formato de diccionarios previamente diseado, se hubo de investigar sobre los procedimientos de exportacin de datos y las herramientas necesarias para el tratamiento de los
mismos a fin de conseguir el resultado deseado. En definitiva, se trata de crear un documento de texto con la informacin de la base
de datos terminolgica (BDT) que respete los
formatos tipogrficos y la estructura de las
entradas de los diccionarios en papel que nos
sirven de modelo; nos referimos a los elaborados o coordinados por el Dr. Alcaraz Var.

tenemos a nuestro alcance. De ah surge la utilizacin del trmino bricolaje informtico


(en ingls do-it-yourself IT), que hemos empleado en terminografa para aludir a los mtodos de cooperacin entre distintas aplicaciones informticas y la adaptacin de estas para
satisfacer las necesidades concretas del usuario y obtener as los resultados deseados.
Fueron mltiples y variadas las situaciones
en las que tuvimos que recurrir al bricolaje.
Sin embargo, por cuestiones de limitacin de
espacio, a continuacin expondremos dos
ejemplos de bricolaje informtico practicado,
uno de ellos en la fase de edicin final del repertorio terminolgico y el otro para la conversin de documentos en formato de texto a
base de datos.
La fase de edicin mencionada constituye
la ltima etapa que concebimos para los distintos proyectos terminolgicos que emprendemos. En ella se elabora el documento final

La figura siguiente es una captura de imagen de la ficha terminolgica abrasion y siguientes por orden alfabtico:

Figura 1: Informacin contenida en base de datos terminolgica

44

n 115-S

noviembre/diciembre de 2009

racteres acentuados. De este modo, obtenamos un documento de texto con la informacin terminolgica separada por campos, delimitados por el asterisco.

Cada uno de los conceptos incluidos en la


BDT tiene asociada una ficha en donde se registran distintos tipos de datos (administrativos, lingsticos, conceptuales y pragmticos).
En la parte derecha de la imagen (figura 1) se
puede apreciar con ms detalle la informacin
de la ficha elaborada para abrasion, sombreada
en la parte izquierda y con un diseo distinto
de presentacin de los datos. Este diseo, de
hecho, contiene nicamente la informacin
que necesitamos para la exportacin, pues es
la que aparece en la versin en papel.

Otro aspecto importante que tenamos que


resolver durante la complecin de las fichas
terminolgicas en el SGBDT empleado eran las
subentradas. En los diccionarios tomados como modelo, las entradas contienen a su vez
subentradas, antecedidas por la marca [Exp:
(de expresin), como se puede apreciar a continuacin en un ejemplo extrado del Diccionario de trminos econmicos, financieros y comerciales (Alcaraz / Hughes 1996-2008):

El sistema gestor de bases de datos


(SGBDT) empleado puede exportar en formatos propios, y en otros como MARTIF (.mtf),
Unicode (.uni), ANSI (.ans) o ASCII (.asc). Por
tanto, este proceso nos permite obtener un
documento de texto, pero sin formato alguno.

gratuitous a: gratuito, gracioso. [Exp: gratuitous contract (contrato a ttulo gratuito), gratuity (gratificacin, propina; V. bribe, gift)].

Estas subentradas corresponden a unidades


lingsticas formadas por ms de un lexema y
palabras derivadas que ocurran alfabticamente por detrs del lema que abre el artculo
lexicogrfico (el principal). En la elaboracin
de las fichas que iban a ser principales o subentradas tenamos que completar dos campos
que nos iban a ayudar en el proceso de ordenacin cuando importramos esta informacin
a Access. Con este propsito, los incorporamos
en el diseo de la ficha en los mdulos del
ingls y del espaol. En el primero de estos
mdulos lingsticos dichos campos se denominan Headword y Category, y en el segundo Principal y Categora (figura 1). El
campo Principal nos iba a servir como nexo
de unin entre el que iba a ser el lema principal y sus subentradas, por lo que este dato
tena que repetirse tanto en el lema como en
sus subentradas. As, un lema principal, como
pueda ser el trmino abrasion, contena esta
palabra en el campo Principal, y sus subentradas tambin (p. ej.: abrasion finish, abrasion
resistance). El segundo, Categora, se concibi como criterio de ordenacin del conjunto
de entradas a la hora de importar el documento de texto a Access. Es decir, la lista de trminos resultante se iba a ordenar, en primer lu-

Por motivos de compatibilidad entre los


distintos programas del paquete de Microsoft
Office decidimos emplear la base de datos
relacional Access como programa intermediario con el que crear el documento final. Tenamos, por tanto que realizar tres acciones
bsicas:
1) exportacin de las entradas terminolgicas recogidas en la base de datos empleada;
2) importacin de dichas entradas a una
tabla de Access;
3) generacin del documento final.
Para la primera de las acciones, la exportacin desde el SGBDT, debamos crear un diseo que contuviese nicamente los campos que
iban a aparecer en la edicin impresa, separados, adems, por un carcter especfico, que en
nuestro caso fue el asterisco, * (figura 1, diseo izquierdo). La eleccin de dicho carcter
obedeca a que este no estaba contenido
dentro de ningn campo ni de ninguna informacin (contexto, definicin, etc.) de las entradas terminolgicas. A continuacin, exportbamos el resultado del diseo como formato
Unicode para que el texto conservase los ca-

45

noviembre/diciembre de 2009

n 115-S

gar, por el lema principal y, en segundo, por


su categora. Por ello, este ltimo campo nicamente poda contener dos valores: 1 y 2. El
valor 1 indicara que se trataba de un lema

principal, y el 2, que es una subentrada de


este. En la siguiente figura se podr apreciar
mejor el sistema de ordenacin al que nos referimos:

Figura 2: Ordenacin de las entradas en la tabla de GenDic

cambio de informacin entre dos bases de datos. Sin embargo, la complejidad del proceso
resida en la generacin de una entrada con las
caractersticas ortotipogrficas de los diccionarios modelo que nos precedan. En las siguientes figuras (figuras 3 y 4) podr apreciarse la
dificultad a la que nos referimos:

El diseo de la tabla en la base de datos relacional contena los mismos campos, y por el
mismo orden en que los exportbamos desde
el SGBDT (el trmino en ingls, la categora
gramatical, las marcas geolectales, el contexto,
etc.). Hasta aqu nada complicado, nicamente
un poco de imaginacin para realizar el inter-

Figura 3: Detalle del diseo ortotipogrfico de la entrada lexicogrfica con respecto a un lema principal

46

n 115-S

noviembre/diciembre de 2009

Figura 4: Detalle del diseo ortotipogrfico de la entrada lexicogrfica con respecto a las subentradas

de la lnea de texto en los campos que vienen


delimitados por el carcter mencionado.

As es como surge el programa Gendic,


programa no comercializado, pero de libre
distribucin, desarrollado junto con el Servicio
de Informtica de la Universidad de Alicante
(UA). La funcin principal de Gendic es importar el documento exportado desde el
SGBDT a una tabla y crear automticamente el
documento final con todas las caractersticas
ortotipogrficas que hemos sealado en las
figuras 3 y 4. Con respecto a sus cuestiones
tcnicas, la herramienta es un programa compilado en el lenguaje de programacin Visual
Basic, embebido en Access. Toma como entrada un fichero de texto plano, con una estructura de campos delimitados por cadenas de caracteres, campos que, como ya hemos apuntado, contienen toda la informacin que posteriormente aparecer en el documento final. En
este caso, utilizamos el carcter *, como ya
referimos, para realizar la separacin por campos en el fichero de texto plano, mientras que
en el programa se utiliza la funcin split, que,
como su propio nombre indica en ingls, divi-

Dentro de la base de datos relacional, este


fichero es transformado en una estructura de
tabla bidimensional por un parser o analizador
sintctico, al objeto de que los campos que
forman la tabla sean completados de forma
correcta. La transformacin necesita del analizador sintctico, puesto que no existe una correspondencia unvoca entre los campos delimitados del fichero de texto plano y los campos de la tabla. La estructura en la tabla resultante es utilizada como entrada para un segundo proceso, en el que se genera un documento de texto con la codificacin .rtf, fiel a la
distribucin y formatos de las entradas de los
diccionarios modelo. El nuevo documento
generado automticamente por Gendic lleva
ya incorporada la informacin sobre la estructura y la fuente (tipo, estilo, tamao, etc.), por
lo que casi no es necesario editarlo, a excepcin de una revisin final.

47

noviembre/diciembre de 2009

n 115-S

El segundo ejemplo de bricolaje informtico


al que nos gustara referirnos muy brevemente
es un proyecto sobre el que estamos trabajando. Se trata de un programa que estamos des-

arrollando junto con el Departamento de Lenguajes y Sistemas Informticos de la UA, al


que hemos denominado RTFtoDB:

Figura 5: Pantalla principal del programa RTFtoDB

rios especializados en el seno del grupo investigador IPA. Se han puesto de relieve dos
ejemplos de bricolaje informtico, definiendo
previamente este concepto como los mtodos
de cooperacin entre distintas aplicaciones
informticas y la adaptacin de estas para satisfacer las necesidades concretas del usuario y
lograr un objetivo concreto. Como es sabido, la
mayora de software comercial es de factura
generalista, por razones obvias. En el caso
concreto de elaboracin de diccionarios puede
llegar un momento en el que las tareas que
haya que realizar resulten muy especficas y
caractersticas de un grupo de trabajo y no
siempre se encuentre el software que ayuda a
realizar cierta labor. La experiencia desarrollada en la elaboracin de diccionarios nos
demuestra que se puede encontrar el modo de

Si bien todava es una versin beta, la funcin principal del programa es la inversa a
Gendic, es decir, convertir los diccionarios
elaborados por miembros del grupo IPA que
nicamente estn en formato de texto (.doc,
.rtf, etc.) en bases de datos. Para que funcione,
el documento de entrada ha de seguir estrictamente los criterios ortotipogrficos establecidos para los lemas. As, desde la interfaz
(figura 5) se selecciona tanto el texto que se
desea convertir, como la base de datos donde
volcar la informacin, y el programa hace el
resto.
Conclusiones
En este artculo hemos realizado una breve
introduccin del marco de trabajo y metodologa empleada en la confeccin de dicciona-

48

n 115-S

noviembre/diciembre de 2009

Bibliografa

automatizar tareas y de encontrar soluciones,


ms o menos ortodoxas, a los problemas que
se plantean. Aqu es donde se recurre al bricolaje informtico, que, en casos complejos, al
menos desde la visin de un lingista que no
necesariamente tiene que ser experto en informtica, requiere del trabajo conjunto entre
terminlogos e informticos, preferentemente
especialistas en el Procesamiento del Lenguaje
Natural. Vemos, por tanto, que los mtodos de
cooperacin son necesarios tanto entre las
herramientas informticas como entre los
componentes del grupo de trabajo terminolgico, que de forma ideal debera tener naturaleza multidisciplinar.

ALCARAZ VAR, E. / B. HUGHES (1996-2008), Diccionario de trminos econmicos, financieros y comerciales: Ingls-Espaol - Spanish-English, Ariel, Barcelona.
CABR, M. T. (1993), La terminologa. Teora, metodologa, aplicaciones, Editorial Antrtida/Empries,
Barcelona.
VARGAS SIERRA, C. (2008), La sistematizacin terminogrfica: una propuesta metodolgica para
la elaboracin de diccionarios traductolgicos,
en Actas del X Simposio Iberoamericano de Terminologa [CD-ROM, ISBN: 978-9974-600-33-1],
Montevideo.

puntoycoma
Cabos sueltos: notas breves en las que se exponen argumentos o se facilitan datos para solucionar problemas
concretos de traduccin o terminologa.
Neolgica Mente: reflexiones, debates y propuestas sobre neologa, en concomitancia con el foro NeoLgica.
Colaboraciones: opiniones, propuestas y debates firmados por nuestros lectores y por los miembros de la redaccin
cuando intervienen a ttulo personal.
Tribuna: contribuciones especiales de personalidades del mundo de la traduccin.
Buzn: foro abierto a los lectores de puntoycoma para que manifiesten su opinin sobre temas ya tratados.
Reseas: crtica de obras relacionadas con los temas tratados en puntoycoma.
Comunicaciones: informacin sobre publicaciones y calendario de acontecimientos relacionados con la traduccin.
(La responsabilidad de todas las colaboraciones firmadas incumbe a sus autores)

puntoycoma ISSN 1830-5415


CORRESPONDENCIA Y SUSCRIPCIONES
Alberto Rivas
Comisin Europea
JMO A3-071A
L-2920 Luxemburgo
Tel. (352) 4301-32094
dgt-puntoycoma@ec.europa.eu

REDACCIN
Bruselas
Isabel Carbajal, Mnica Fuentes, Pollux Hernez,
Miguel . Navarrete, Mara Valdivieso y Jos Luis Vega
Luxemburgo
Josep Bonet, Victoria Carande, Loli Fernndez, Alberto Rivas,
Carmen Torregrosa, Xavier Valeri y Miquel Vidal
Madrid
Luis Gonzlez
Secretara: Luz Ayuso e Isabel de Miguel,
con la colaboracin de Tina Salv y May Snchez Abul

49