Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En: II Congreso
Internacional El espaol, lengua de traduccin. Toledo, 20-22 de mayo de 2004. [consulta en lnea:
http://www.toledo2004.net/html/contribuciones/cabre.htm]
1. Introduccin
No hay duda de que las tecnologas lingsticas y los recursos digitalizados prestan un
gran servicio a la traduccin, tanto para la bsqueda de informacin como utilizadas
como herramientas.
Los traductores utilizan las tecnologas para efectuar consultas lingsticas y temticas y
para localizar nuevos recursos que puedan ayudarles en la traduccin. Y asimismo se
sirven de las tecnologas aplicadas a la traduccin para acelerar su productividad
traductora y asegurar un mayor grado de sistematicidad en los textos traducidos. Tal
sera el caso de la utilizacin de programas de memorias de traduccin asociadas a
gestores de terminologa, que, a la vez que facilitan la traduccin automtica de
fragmentos traducidos con anterioridad y aseguran el uso de las mismas unidades
terminolgicas para una unidad del original, permiten acumular una gran cantidad de
trminos en formato de base de datos.
para fines aplicados) as como tambin la concepcin de las vas de bsqueda de datos
ha variado con el tiempo.
Pero la evolucin de los recursos lingsticos no ha cesado desde sus inicios en los aos
sesenta hasta hoy, y de la fase de construccin de grandes corpus de textos cuyo valor
radicaba en la cantidad de millones de ocurrencias hemos pasado a corpus ms
pequeos, pero de contenido ms afinadamente seleccionado. Este paso nos hace entrar
en la tercera etapa de la evolucin de los recursos lingsticos.
A nuestro entender tres han sido las vas de refinamiento de los bancos de textos como
recursos al servicio de las necesidades de consulta y extraccin de informacin por parte
de los lingistas aplicados:
rea
Cataln
Castellano Ingls
Francs
Alemn
Derecho
1463
2085
431
44
16
Economa
1776
1091
274
78
27
Medioambiente
1506
1062
599
230
429
Informtica
655
1227
338
194
83
Medicina
2619
4001
1555
27
198
Total . . .
8019
9466
3197
573
753
Una parte de este corpus est integrado por textos paralelos. Las parejas de lenguas ms
representadas en el corpus paralelo son cataln-castellano, cataln-ingls y castellanoingls. La situacin actual en relacin con el nmero de documentos del corpus paralelo
es la siguiente:
rea
Derecho
460
12
57
Economa
600
250
283
Medioambiente 214
213
144
Medicina
118
40
640
Informtica
28
300
Total . . .
1.420
515
1424
Los bancos textuales especializados se han convertido hoy en la base para el desarrollo
de sistemas de identificacin y extraccin automtica de candidatos a trminos, as
como en el banco de base para el diseo y desarrollo de sistemas generadores de
resmenes, y de sistemas de extraccin de informacin para la construccin de bancos
de datos terminolgicos y de ontologas.
como cadenas de caracteres o bien como categoras, como muestra el siguiente ejemplo:
Los bancos de conocimiento (knowledge databases) son una propuesta que intenta
aunar en un mismo recurso informacin gramatical, textual, terminolgica, documental
y semntica. A pesar de que su desarrollo es costoso en tiempo y recursos, la
informacin que permite obtener es de gran valor para la enseanza de lenguas y la
traduccin.
recuperar todos los contextos en los que aparece una unidad, pero por encima de todo
incorporan conocimiento semntico a la terminologa, tanto a travs de los textos
(permiten recuperar los contextos definitorios de cada unidad) como a travs de las
ontologas, por cuanto cada trmino est asociado a un concepto ubicado en una
estructura de conocimiento que lo vincula a otros conceptos del mismo campo a travs
de relaciones diversas (hiperonimia, hiponimia, meronimia, holonimia, causalidad,
localizacin, etc.). De esta forma el contenido de un trmino representa el conjunto de
las relaciones que el concepto asociado a este trmino establece con el resto de
conceptos del mbito especializado. Vase a continuacin una muestra de la ontologa
sobre genoma humano:
10
11
En el desarrollo del proyecto GENOMA han colaborado adems C. Bach, J. Feliu, G. Martnez
y J. Vivaldi. Han cooperado como becarios del mdulo terminolgico J. J. Giraldo y V. Vidal.
12
La estructura del banco de conocimiento, que hemos desarrollado sobre el tema del
Corpus procesing
Enlargement
Bibliographical
data
Information
extraction
Term
extraction
Content example
Knowledge base
Edition
TDB
<div1>
<div1>
<head type=main>
<div1>
<head type=main>
El asma</head>
<head
type=main>
El asma</head>
<p><s>.....
El genoma</head>
<p><s>.....
</div1>
<p><s>.....
</div1>
</div1>
Documents
Lexicographical
resources
Information
extraction
Edition
Title:
Author:
Editor:
Publication date:
ISBN:
Area:
Esp. level:
Word Num.:
Density:
Abstract:
Descriptors:
Terminological
units
Form
frequency
contexts
concept(s)
definition
...
Variants
(idem)
Specialist
data
Edition
Concepts
IR systen
Ontology
En esta figura podemos ver la conjuncin de tres mdulos, cada uno correspondiente a
una base de informacin: la textual, la documental y factogrfica, y la terminolgica. Y
podemos observar adems cmo la base terminolgica aparece ligada a una ontologa en
la que el contenido de cada trmino se asocia a un concepto representado por una
etiqueta funcional que rene el conjunto de relaciones de este concepto con el resto de
13
conceptos de la estructura global del mbito. Las relaciones pertenecen a una lista
cerrada, previamente declarada (Feliu, 2004):
14
referencias bibliogrficas de los textos del mdulo corpus textual y de las fuentes de las
que proceden los contextos de las unidades de la base de terminolgica. Comprende
monografas, revistas, artculos de revista, tesis y entidades, clasificadas siguiendo la
estructura elaborada por un experto para el corpus textual, que presenta los siguientes
apartados o submbitos:
Estructura interna
Ingeniera gentica
Enfermedades
Investigacin gentica
Diferenciacin
Inmunologa
Biotecnologa
Filogenia
Neurociencia
Farmacogenmica
Eugenesia
15
El desarrollo del mdulo terminolgico ha sido paralelo al del mdulo ontolgico. Ello
obedece a uno de los principios que, sobre la terminologa, asume nuestro marco terico
denominado Teora comunicativa de la Terminologa o TCT (Cabr 1999, 2000, 2002 y
2003): desde una aproximacin lingstica a la terminologa no es posible acceder
directamente a los conceptos, sino solo cabe hacerlo a travs de las unidades
terminolgicas que los representan. El respeto a este principio requiere que para cada
trmino existir en la ontologa un concepto asociado, al cual solo se acceder partiendo
del trmino que le corresponde.
16
all
object
event
physical-process
replication
physical-object
place
cell-nucleus
natural-object
organic-structure
vacuole
is-whole-object-of
is-whole-area-of
locates
substance
material
animal-material
genetic-material
cell
assoc.-with
22
17
Nmero de ocurrencias
Nmero de documentos
Cataln
Castellano
Ingls
Total
945.164
133
1.371.104
218
1.119.347
223
3.435.615
574
El nmero de ocurrencias por pares de lenguas son en este momento las siguientes:
Castellano-Ingls
Cataln-Castellano
515.613
10.310
mbito
Cataln
Castellano
Ingls
Total
11.425
86.180
121.598
440.189
----37.302
5.394
98.838
5.454
138.814
945.164
53.128
74.211
228.585
541.687
2.473
11.877
15.056
63.952
239.161
8.435
132.539
1.371.104
5.5557
61.746
188.022
487.900
8.959
18.940
9.634
29.402
117.015
48.440
93.732
1.119.347
120.110
222.137
538.205
1.469.776
11.432
30.817
61.992
98.748
455.014
62.299
365.085
3.435.615
18
30,0
25,0
20,0
15,0
10,0
5,0
s)
al
(m
al
EI
(
IM
es
tru
M
A
ct
(im
ur
m
un
in
t
ol
er
og
na
ia
lo
g
no
ec
io
t
(b
BT
tie
ia
)
0,0
Catal
Castell
Angls
600.000
500.000
400.000
300.000
200.000
100.000
es
tru
tie
s)
ia
)
(m
al
al
og
ol
EI
(
IM
ct
(im
ur
m
un
in
t
no
ec
io
t
(b
BT
M
A
er
lo
g
na
ia
Catal
Castell
Angls
19
a) la bsqueda simple
b) la bsqueda compleja
c) la bsqueda combinada (todava no desarrollada).
Mediante una bsqueda simple puede consultarse informacin sobre una unidad (forma
o lema) o una cadena de caracteres en el corpus textual o en el banco terminolgico,
como muestran las figuras siguientes:
20
[PMF]
[Suggeriments]
[Tornar]
Mot/s a cercar:
eosinfil
catal
Lema
castell
angls
Forma
Condici de cerca:
Lema exacte
Que comenci per
Cercar
Cercar
Que acabi en
Que contingui
Us agrairem que feu arribar a l'IULA els vostres comentaris sobre els
resultats obtinguts i/o l'eficincia de leina de consulta.
Forma exacta
Que acabi en
Que contingui
43
[PMF]
[Inici]
[Suggeriments]
[Tornar]
Terme/s a cercar:
gen
Lema exacte
catal
castell
angls
Cercar
Cercar
34
Una vez definida la bsqueda y reconocida la unidad, podemos obtener de ella
informacin asociada, ya sea procedente del corpus textual, del banco documental, del
banco terminolgico o de la ontologa:
21
[Tornar]
terme de la cerca:
[suggeriments]
<<Nova
<<Nova cerca
cerca
Condicions de cerca:
Que comenci amb
gen (catal)
Resultat de la cerca
- gen (GENE)
C
---
- gentic (GENETIC)
C
---
Ontologia
- genoma (GENOMA)
C
---
- terme 4 (CONCEPTE)
C
---
Variants i Equivalents
C
---
Corpus: Frequncia
35
22
[suggeriments]
[Tornar]
terme de la cerca:
<<Nova
<<Nova cerca
cerca
Condicions de cerca:
Que comenci amb
gen (catal)
Resultat de la cerca
INFORMACI TERMINOLGICA
- gen (GENE)
C
---
- gentic (GENETIC)
C
---
- genoma (GENOMA)
C
---
- terme 4 (CONCEPTE)
C
---
Terme:gentic
Concepte: GENETIC
Categoria gramatical:adjectiu
La informaci
trobada
sextreu de la
Gnere: mascul
bdd
Definici: Relatiu al gen ... Ref 1. bibliogrfica (o
factogrfica)
Contextos: el carcter gentic de len
... Ref 2. i
la bdd
....... Ref 3.
terminolgica
Nombre: singular
36
Y adems todas las relaciones conceptuales que la unidad establece con otros conceptos
del mismo mbito, esta informacin, como hemos visto en la figura incluida en 4.2,
procedente de la ontologa.
[suggeriments]
[Tornar]
terme de la cerca:
<<Nova
<<Nova cerca
cerca
Condicions de cerca:
Que comenci amb
gen (catal)
Resultat de la cerca
ONTOLOGIA
- GENETIC-
- gen (GENE)
C
---
ALL
- gentic (GENETIC)
C
---
- genoma (GENOMA)
C
---
Concepte x
GENE
GENETIC
- terme 4 (CONCEPTE)
C
---
GENOMA
GENETIC
38
23
Una bsqueda compleja permite obtener listas de unidades que cumplen determinadas
condiciones en uno o ms campos, combinadas mediante los operadores booleanos.
[suggeriments]
Condici:
Llengua:
Variant:
Condici:
N Variants:
Equivalent:
Condici:
Llengua e.:
Categoria:
Que aparegui en definici:
N Contextos:
Que el context contingui:
Font context:
Data dintroducci:
Operador:
del
Abans
Revisat:
Si
No
../../..
Cercar
Cercar
24
BDT
c. complexa
Cerca
- gen
- gen portador
Quedat amb els termes resultants
que lautor J. Smith hagi utilitzat
desprs del gener del 2000
Condicions de cerca
Condicions de cerca
Condicions de cerca
Ontologia
Corpus
Comb.
Back
Lusuari defineix
un criteri de selecci
de termes
- gen
- gen portador
- gen ali
Cont.
End
Back
BDD
Cont.
End
Condicions de cerca
Resultat
neg. cond.
Back
End
Tc t o d
...
Back
End
58
5. Como conclusin
No hay duda a nuestro entender que las tecnologas de acceso a la informacin han
modificado muy significativamente el proceso de trabajo de un traductor. Las consultas
habituales a los diccionarios impresos se ven hoy acompaadas, por no decir superadas,
por las consultas en lnea a diccionarios electrnicos en red y por la bsqueda de
informacin sobre las unidades de traduccin o directamente la obtencin de unidades
equivalentes en la lengua hacia la que se traduce.
25
estructuracin conceptual, los textos reales de los que proceden y las referencias de
dichas fuentes. Y toda esta informacin estructurada en bases de datos relacionados
entre s y accesibles transversalmente. Esperamos que los traductores puedan reconocer
en este tipo de recurso una va de resolucin de algunas de sus necesidades.
26