Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Linguistica Computacional Analisis Gener
Linguistica Computacional Analisis Gener
LINGÜÍSTICA COMPUTACIONAL.
ANÁLISIS, GENERACIÓN Y
TRADUCCIÓN AUTOMÁTICA
© Juan Carlos Tordera Yllescas 2011
ISBN: 978-84-370-8235-6
Depósito legal:
ÍNDICE
Agradecimientos……………………………………….. 11
Capítulo 1. Introducción…….…………………………. 13
Conclusiones…………………………………………... 203
Bibliografía…………………………………………..... 205
AGRADECIMIENTOS
1
En este sentido, es conveniente tener conocimientos de estas teorías
para comprender adecuadamente esta obra. Son obras muy reco -
mendables obras tales como ASHER y LASCARIDES (2003), BARWISE y
PERRY (1983 [1992]) BRESNAN (ed.) (1982), BRESNAN (2001), CANN
(1993), GAZDAR, EWAN et alii (1985), HEIM (1983a y b [2002]),
HORROCKS (1987), KAMP y REYLE (1993), KAY (1979), MONTAGUE
(ed.) (1974 [1977]), MORENO SANDOVAL (2001), POLLARD y SAG
(1987), POLLARD y SAG (1994), SAG, WASOW y BENDER (2003), SELLS
(1985 [1989]), SHIEBER (1989 [1986]).
CAPÍTULO 2. TRATAMIENTO DEL LENGUAJE:
ANÁLISIS, GENERACIÓN E INTERPRETACIÓN
2
Aunque, como es conocido, los autores citados difieren notablemente
en el foco de atención y delimitación de la sintaxis y la semántica. Para
16 Juan Carlos Tordera Yllescas
3)
Expresión Recepción
Habla Síntesis Reconocimiento
Lenguaje Generación Análisis
4)
5)
15) a. O → SN + SV b. SV → V + SN
c. SV → V d. SN → Dr. Chan
e. SN → el-hospital f. SN → el-paciente
g. SN → la-enfermera h. V → murió
i. V → contrató j. V → cura
19) a. „<La>‟
„la‟: DET. ART. FEM. SING
b. „<niña>‟
„niño‟: SUST. FEM. SING.
c. „<dijo>‟
„decir‟: VCOMPL 3ª SING
d. „<que>‟
„que‟: CONJUNCIÓN SUBORD.
e. „<los>‟
„los‟: DET. ART. MAS PLU
f. „<niños>‟
„niño‟: SUST. MAS. PLU.
g. „<vendrían>‟
„venir‟: V 3ª PLU
h. „<.>‟
„.‟: Punto
20) La canto tan bien, que la volvería a cantar una y otra vez.
b. SELECCIÓNESE (VFIN)
SI (NO *–1 (VFIN))
(NO *1 (VFIN))
22) a. „<La>‟
„la‟: ART. FEM. SING
„la‟: PRON. ACUS 3ª SING FEM
b. „<oyó>‟
„oír‟: VFIN, 3ªSING PrInd
4
En las reglas propuestas, el símbolo negativo, –, (v.gr. NO *–1
(VFIN)), indica la izquierda respecto a la categoría que se ha de
eliminar o seleccionar. Su ausencia, indica la dirección derecha. La
numeración, (v.gr.: 1) indica el número de las posibles lecturas de las
palabras y (1C) quiere decir que dicha categoría es inambigua (esto es,
solo tiene una lectura posible).
Lingüística computacional. Análisis, generación y T.A. 31
24) a. „<La>‟
„la‟: ART. FEM. SING
„la‟: PRON. ACUS 3ª SING FEM
b. „<ama>‟
„amar‟: VFIN, 3ªSING Pres
„ama‟: SUST FEM CONT
5
En el etiquetador de Brill, a las palabras ambiguas no se les asigna una
única categoría aleatoriamente, sino que se les asignaba la categoría con
mayor probabilidad. Por ejemplo, si la palabra «canto» aparece en un
corpus de forma más frecuente como verbo y no como sustantivo,
entonces se le asignaba, en un primer intento, la categoría verbo. Poste-
riormente, las reglas podrían corregir dicho etiquetado, al analizar
fragmentos como «El canto del gorrión lo despertó» (ROCHE y
SCHABES, 1995: 228-229). Sin embargo, el método de Brill no se puede
considerar exactamente como un método estadístico (al menos, no en
términos puros), ya que la resolución final no recaía sobre algoritmos
probabilísticos, sino en reglas contextuales.
Lingüística computacional. Análisis, generación y T.A. 33
Las reglas de (26), que solo surten efecto ante una inco-
rrección de etiquetado, se han de leer (y aplicar) de la siguiente
manera. La primera establece que la etiqueta ADPAR se ha de
cambiar por VPAR si la etiqueta anterior (esto es, PREVTAG) es
SUST(antivo). La segunda regla establece que la etiqueta VPAR
se ha de cambiar por ADPAR si la siguiente etiqueta (esto es
NEXTAG) es PREP(osición) (ROCHE y SCHABES, 1995: 228).
Así pues, por (26a), en la oración de (25b), se ha de realizar un
cambio y, por (26b), en la oración de (25a), se ha de hacer otro,
tal como se muestra.
28) a. A → SUST/SUST B
b. B → VPAR/ADPAR C
29) a. A → ADPAR/VPAR B
b. B → PREP/PREP C
30)
31)
2. 2. PARSING
2.2.1. Introducción
32) a. O → SN + SV b. SV → V + SN
c. SV → V d. SN → Det + N
e. Det → el f. N → niño
g. N → balón h. N → árbitro
i. V → golpeó j. V → cogió
33) a. O
b. SN + SV Por (32a)
c. Det + N + SV Por (32d)
d. Det + N + V + SN Por (32b)
e. Det + N + V + Det + N Por (32d)
f. el + N + V + Det + N Por (32e)
g. el niño + V + Det + N Por (32f)
h. el niño golpeó + Det + N Por (32i)
i. el niño golpeó el + N Por (32e)
j. el niño golpeó el balón Por (32g)
33‟) a. O
b. SN + SV Por (32a)
c. Det + N + SV Por (32d)
d. el + N + SV Por (32e)
e. el niño + SV Por (32f)
f. el niño + V + SN Por (32b)
g. el niño golpeó + SN Por (32i)
h. el niño golpeó + Det + N Por (32d)
i. el niño golpeó el + N Por (32e)
j. el niño golpeó el balón Por (32g)
33‟‟) a. O
b. SN + SV Por (32a)
c. Det + N + SV Por (32d)
d. Det + N + V + SN Por (32b)
e. Det + N + V + Det + N Por (32d)
f. Det + N + V + el + N Por (32e)
g. Det + niño + V + el + N Por (32f)
h. el niño + V + el + N Por (32e)
i. el niño + V + el balón Por (32g)
j. el niño golpeó el balón Por (32i)
34) a. X/Y Y → X
Aplicación funcional hacia la derecha (AFD)
b. Y Y\X → X
Aplicación funcional hacia la izquierda (AFI)
c. X/Y Y/Z → X/Z
Composición funcional hacia la derecha (CFD)
35)
35‟)
40 Juan Carlos Tordera Yllescas
35‟‟)
37)
38)
6
Vid. WINOGRAD (1983: 72-271), MEYA y HUBER (1986: 76-91),
GAZDAR y MELLISH (1989: 143-215), SMITH (1991: 171-174), ALLEN
(1995: 41-222), MORENO SANDOVAL (1998: 82-88), JURAFSKY y
MARTIN (2000: §13 y §14), BADIA CARDÚS (2003: 196-222) o
CARROLL (2003: 233-248).
7
Vid. MEYA y HUBER (1986: 76-81), GRISHMAN (1986 [1992]: 34-92),
GAZDAR y MELLISH (1989: 144-175), ALLEN (1995: 41-222), MORENO
SANDOVAL (1998: 82-88), JURAFSKY y MARTIN (2000: §13 y §14) o
BADIA CARDÚS (2003: 207-214).
Lingüística computacional. Análisis, generación y T.A. 43
8
Vid. MEYA y HUBER (1986: 79-80), GRISHMAN (1986 [1992]: 41),
GAZDAR y MELLISH (1989: 145-156), ALLEN (1995: 43-60), MORENO
SANDOVAL (1998: 83-84) o BADIA CARDÚS (2003: 207-212).
44 Juan Carlos Tordera Yllescas
41) a. O → SN + SV b. SN → Det + N
c. SN → Det + N + ADJ d. SV → V
e. SV → V + SN
43)
Estado actual
Paso («Current Comentario
state»)
1 ((O) 1) La lista comienza con el símbolo inicial O
2 ((SN SV) 1) Se aplica la regla (41a)
3 ((Det N SV) 1) Se aplica la regla (41b)
4 ((N SV) 2) Se coteja Det con el: Det (42a).
Se analiza la siguiente palabra
5 ((SV) 3) Se coteja N con perro: N (42b).
Se analiza la siguiente palabra
6 ((V) 3) Se aplica la regla (41d)
7 (() 4) Se coteja V con ladra: V (42c).
Dado que la lista está vacía, se finaliza el
análisis
44)
((Det N ADJ
SV) 1)
8 ((Det N) 4) ((V) 3) Se aplica la regla (41b).
El proceso de parsing falla. Por tanto, se
((Det N ADJ ha de aplicar la regla de reescritura del
SV) 1) estado de reserva (que es la última regla
alternativa en el proceso): ((V) 3)
9 ((V) 3) ((Det N ADJ .
SV) 1)
10 (() 4) ((Det N ADJ Se coteja V con ladra: V (42c).
SV) 1) El proceso de parsing ha tenido éxito.
46) a. O → SN + SV b. SN → Det + N
c. SN → Det + N + ADJ d. SV → V
e. SV → V + SN f. SN → Det + ADJ + N
Lingüística computacional. Análisis, generación y T.A. 49
48)
49)
9
Vid. MEYA y HUBER (1986: 80), GAZDAR y MELLISH (1989: 145-
152), WINOGRAD (1983: 90-91), ALLEN (1995: 53-60), MORENO
SANDOVAL (1998: 83-84 y 86-87) y BADIA CARDÚS (2003: 211).
Lingüística computacional. Análisis, generación y T.A. 53
50)
Paso Estado actual Comentario
(«Current state»)
1 ((O) 1) La lista comienza con el símbolo inicial O
2 ((SN SV) 1) Se aplica la regla (46a).
3 ((Det N SV) 1) Se aplica la regla (46b).
4 ((Det N ADJ SV) 1) Se continúa el análisis desde el paso 2.
Se aplica, a la vez, la regla alternativa de
(46c)
54 Juan Carlos Tordera Yllescas
10
El árbol de (101) puede cotejarse con las derivaciones ofrecidas en
(98) y (100).
56 Juan Carlos Tordera Yllescas
51)
52)
11
Entre las construcciones ambiguas, cabe citar la modificación de
sintagmas preposicionales (v.gr.: «El policía vio al niño con los
prismáticos») o la modificación de sintagmas adverbiales («Juan
lamentó que María sangrara profundamente»; ¿lamenta eso profun-
damente o sangró María profundamente?), las construcciones coor-
dinadas (v.gr.: «Juan solo lee artículos y libros viejos»; ¿son solo viejos
los libros o también los artículos?), etc. (GAZDAR y MELLISH, 1989:
172 o WINOGRAD, 1983: 410).
58 Juan Carlos Tordera Yllescas
12
Kay fue el primero en diseñar este tipo de parsers entre 1967 y 1977,
al que se le denominó Kaplan’s GSP –General Syntatic Processor–
(MEYA y HUBER, 1986: 88 o WINOGRAD, 1983: 127).
Lingüística computacional. Análisis, generación y T.A. 59
53) a. O → SN + SV b. SN → Det + N
c. SN → Det + N + ADJ d. SN → Det + ADJ + N
e. SV → V f. SV → V + SN
55)
56)
57)
59)
N ◦ ADJ”) y,
además, un
constituyente
completo (“SN →
Det + N◦”), que pasa
a la agenda.
6 O → SN ◦ SV, 1-3 SN → Det + ADJ ◦ Dado que, en el
SN → Det + ADJ ◦ N, 1-3 N, 1-4 paso anterior, se ha
SN → Det + N ◦ ADJ, 1-3 reconocido un
SN → Det ◦ N, 1-2 SN → Det + N◦, 1-3 constituyente
SN → Det ◦ N + ADJ, 1-2 completo, SN, a
SN → Det ◦ ADJ + N, 1-2 partir del arco activo
SN → ◦ Det+ N. 1 “O → ◦SN + SV”,
SN → ◦ Det+ N + ADJ, 1 se obtiene un nuevo
SN → ◦ Det+ ADJ + N, 1 arco extendido, “O
O → ◦ SN + SV, 1 → SN ◦ SV”.
Además, se
reconoce en la
secuencia «3
policía» un N, que
permite completar el
arco “SN → Det +
ADJ ◦ N, 1-3” y, por
tanto, se añade un
nuevo SN completo
a la agenda.
7 O → SN ◦ SV, 1-4 SN → Det + ADJ ◦ Se aplican las
SV → ◦V, 3 N, 1-4 reglas de (53e) y
SV → ◦V + SN, 3 SN → Det + N◦, 1-3 (53f). Los nuevos
O → SN ◦ SV, 1-3 arcos buscan
SN → Det + ADJ ◦ N, 1-3 reconocer un V a
SN → Det + N ◦ ADJ, 1-3 partir del punto 3
SN → Det ◦ N, 1-2 (esto es, «3 policía 4
SN → Det ◦ N + ADJ, 1-2 camina 5»).
SN → Det ◦ ADJ + N, 1-2 Además, a partir del
SN → ◦ Det+ N. 1 SN reconocido en 6,
SN → ◦ Det+ N + ADJ, 1 se obtiene un nuevo
SN → ◦ Det+ ADJ + N, 1 arco activo a partir
O → ◦ SN + SV, 1 “O → ◦ SN + SV”.
Este arco activo es
“O → SN ◦ SV”,
cuyos constituyentes
reconocidos son «1
El 2 viejo 3 policía 4
»
8 SV → ◦V, 4 SN → Det + ADJ ◦ No se reconoce
SV → ◦V + SN, 4 N, 1-4 ningún V en el
O → SN ◦ SV, 1-4 punto 3, por lo que
SV → ◦V, 3 SN → Det + N◦, 1-3 dicho análisis ha de
SV → ◦V + SN, 3 ser abandonado.
O → SN ◦ SV, 1-3 Se vuelven a aplicar
SN → Det + ADJ ◦ N, 1-3 las reglas de (53e) y
SN → Det + N ◦ ADJ, 1-3 (53f) sobre el arco
SN → Det ◦ N, 1-2 “O → SN ◦ SV, 1-
70 Juan Carlos Tordera Yllescas
60) a. O → SN + SV b. SN → Det + N
c. SN → Det + N + SP d. SP → Prep + N
e. SV → Vtran + SN f. SV → SV + SP
g. SV → Vintr
62)
13
Para evitar este tipo de casos, se podría haber propuesto reglas como
“SV → Vtran + SN”, “SV → Vintr”, “SV‟ → SV + SP”, “O → SN + SV”
y “O → SN + SV‟ ”.
Lingüística computacional. Análisis, generación y T.A. 73
Vtran + Det ◦ N + SP +
SP” al reconocer el
determinante «4 el 5».
.
12 SV → Vtran + Det + N ◦ O → SN + SV◦, 1-6 En primer lugar, dado
Prep + N, 3-6 SV → Vtran + Det + que ya se ha reconocido
SV → Vtran + Det + N ◦ N◦, 3-6 un constituyente
SP, 3-6 SN → Det + N◦, 1-3 completo, SV, a partir
SV → Vtran + Det + N ◦ del arco activo “O →
SP + SP, 3-6 SN ◦ SV”, se obtiene un
SV → Vtran + Det + N ◦ nuevo constituyente
SP, 3-6 completo “O → SN +
SV → Vtran + Det ◦ N + SV◦”, que supone un
SP, 3-5 análisis parcial para la
SV → Vtran + Det ◦ N + oración analizada.
SP + SP, 3-5 En segundo lugar, se
… reescribe el SP del arco
O → SN ◦ SV, 1-3 “SV → Vtran + Det + N
… ◦ SP” según la regla de
(60d).
En tercer lugar, al
identificar el sustantivo
«5 gato 6», se obtienen
dos nuevos arcos a
partir de “SV → Vtran +
Det ◦ N + SP” y “SV →
Vtran + Det ◦ N + SP +
SP”.
13 SV → Vtran + Det + N + O → SN + SV◦, 1-6 Al identificar la
Prep ◦ N, 3-7 SV → Vtran + Det + preposición «6 con 7»
SV → Vtran + Det + N ◦ N◦, 3-6 de acuerdo con el
Prep + N, 3-6 SN → Det + N◦, 1-3 lexicón en (61e), se
SV → Vtran + Det + N ◦ obtiene un nuevo arco
Prep + N + SP, 3-6 extendido “SV → Vtran
SV → Vtran + Det + N ◦ + Det + N + Prep ◦ N”.
Prep + N, 3-6 En segundo lugar, se
SV → Vtran + Det + N ◦ reescribe el SP de los
SP, 3-6 arcos “SV → Vtran + Det
SV → Vtran + Det + N ◦ + N ◦ SP” y “SV → Vtran
SP + SP, 3-6 + Det + N ◦ SP + SP”,
… según la regla de
O → SN ◦ SV, 1-3 reescritura de (60d)
…
14 SV → Vtran + Det + N + SV → Vtran + Det + N Al identificar el
Prep ◦ N, 3-7 + Prep + N◦, 3-8 sustantivo «7
SV → Vtran + Det + N + O → SN + SV◦, 1-6 prismáticos 8» de
Prep ◦ N + SP, 3-7 SV → Vtran + Det + acuerdo con el lexicón
SV → Vtran + Det + N + N◦, 3-6 en (61f), se obtiene, a
Prep ◦ N, 3-7 SN → Det + N◦, 1-3 partir de “SV → Vtran +
… Det + N + Prep ◦ N”, un
O → SN ◦ SV, 1-3 constituyente completo
… que pasa a la agenda.
En segundo lugar, al
identificar la
Lingüística computacional. Análisis, generación y T.A. 75
preposición «6 con 7»
de acuerdo con el
lexicón en (61e), se
obtienen dos nuevos
arcos extendidos a partir
de “SV → Vtran + Det +
N ◦ Prep + N” y “SV →
Vtran + Det + N ◦ Prep +
N + SP”.
15 SV → Vtran + Det + N + SV → Vtran + Det + N En primer lugar, dado
Prep + N ◦ SP, 3-8 + Prep ◦ N, 3-8 que ya se ha reconocido
SV → Vtran + Det + N + O → SN + SV◦, 1-8 un constituyente
Prep ◦ N, 3-7 SV → Vtran + Det + N completo, SV, a partir
SV → Vtran + Det + N + + Prep + N◦, 3-8 del arco activo “O →
Prep ◦ N + SP, 3-7 O → SN + SV◦, 1-6 SN ◦ SV”, se obtiene un
… SV → Vtran + Det + nuevo constituyente
O → SN ◦ SV, 1-3 N◦, 3-6 completo “O → SN +
… SN → Det + N◦, 1-3 SV◦”, que supone un
análisis completo (pero
no único) para la
oración analizada.
En segundo lugar, al
identificar el sustantivo
«7 prismáticos 8» de
acuerdo con el lexicón
en (61f), se obtiene, a
partir de “SV → Vtran +
Det + N + Prep ◦ N”, un
constituyente completo
que pasa a la agenda y
un arco activo extendido
a partir de “SV → Vtran
+ Det + N + Prep ◦ N +
SP”.
63) a. O → SN + SV b. SN → Det + N
c. SN → Det + N + ADJ d. SN → Det + ADJ + N
e. SV → V f. SV → V + SN
65)
Pas Registro de las unidades Agenda Comentario
o léxicas y arcos activos
1 O → ◦SN + SV, 1 Se activan todos los arcos
SN → ◦Det + N, 1 buscando un elemento
SN → ◦Det + N + ADJ, inicial a partir del cual se
1 obtenga o bien un arco
SN → ◦Det + ADJ + N, extendido o bien un
1 constituyente completo.
SV → ◦V
SV → ◦V + SN
2 Registrando DET <1 el Por (64a), se identifica «1
2> el 2 » como DET.
Arcos activos: Se obtienen tres arcos
SN → Det ◦ N, 1-2 activos extendidos al
SN → Det ◦ N + ADJ, reconocer el elemento
1-2 DET.
SN → Det ◦ ADJ + N, Por convención, no se
1-2 tendrán en cuenta los arcos
… activos que no sean
O → ◦SN + SV, 1 necesarios para la
derivación.
3 Registrando N <2 SN → Det + N◦, 1-3 Por (64b), se identifica «2
viejo 3> viejo 3 » como N.
78 Juan Carlos Tordera Yllescas
66) a.
14
De hecho, se han ensayado parsers con chart aplicables a gramáticas
regulares, denominados WFSTs (de «Well-Formed Substring Tables»)
(GAZDAR y MELLISH, 1989: 179-189 o ALLEN, 1995: 65).
80 Juan Carlos Tordera Yllescas
b.
«La niña golpea el balón», «El niño camina», «Las niñas golpean
las pelotas»… y no legitimaría oraciones como «*El niña golpea
el pelota», «*El niño golpea», «*El niño camina la pelota»…
Una vez que se ha añadido información adicional a las
reglas sintagmáticas y el lexicón, los parsers de unificación ac-
túan del mismo modo que los parsers de gramáticas sintagma-
ticas; de hecho, la tipología que se puede establecer es idéntica:
parsers ascendentes/descendentes, de procesamiento secuencial/
en paralelo… El único cambio se halla en el hecho de que, en el
caso presente, el parser ha de manejar información sobre la
concordancia, la subcategorización… Por ejemplo, un parser
descendente secuencial con retrotrazado sin chart y de análisis de
izquierda a derecha para una gramática de rasgos como la
propuesta analizaría la oración «1 El 2 niño 3 golpea 4 la 5 pelota
6» del siguiente modo:
70)
((O[NÚM = plu])
1)
84 Juan Carlos Tordera Yllescas
((O[NÚM = plu])
1)
6 ((V [NÚM = sing, ((V [NÚM = sing, Se reescribe el sintagma verbal
SUBCAT 1]), 3) SUBCAT 2] según las reglas de reescritura
SN[NÚM = sing, de (68c). Como el sintamga
GÉN = masc]), 3) verbal, según nuestra
gramática, se puede reescribir
((V [NÚM = sing, de dos formas, la segunda
SUBCAT 2] opción, (68d), queda
SN[NÚM = sing, almacenada en la reserva.
GÉN = fem]), 3)
Además, como el sintagma
((V [NÚM = sing, nominal presenta hasta cuatro
SUBCAT 2] formas, según sea
SN[NÚM = plu, masculino/femenino o
GÉN = masc]), 3) singular/plural, cada una de las
posibles formas ha de quedar
((V [NÚM = sing, registrada.
SUBCAT 2]
SN[NÚM = fem, Por simplicidad expositiva, se
GÉN = plu]), 3) eliminarán las opciones no
… pertinentes para el análisis en el
estado de reserva.
7 ((V [NÚM = sing, ((V [NÚM = sing, Como el verbo «3 golpea 4»
SUBCAT 2] SUBCAT 2] no presenta el rasgo [SUBCAT
SN[NÚM = sing, SN[NÚM = sing, 1] sino [SUBCAT 2], el cotejo
GÉN = masc]), 3) GÉN = fem]), 3) no se produce de forma
satisfactoria y se ha de recurrir
((V [NÚM = sing, a la siguiente regla de
SUBCAT 2] reescritura en el estado de
SN[NÚM = plu, reserva.
GÉN = masc]), 3)
…
8 ((SN[NÚM = sing, ((V [NÚM = sing, Por (69m), se identifica «3
GÉN = masc]), 4) SUBCAT 2] golpea 4» como “V[NÚM
SN[NÚM = sing, =sing, SUBCAT2]”. Por tanto,
GÉN = fem]), 3) se elimina del análisis.
…
9 ((Det[NÚM = sing, ((V [NÚM = sing, Se aplica la regla de (68b), por
GÉN = masc] SUBCAT 2] la que se reescribe los
N[NÚM = sing, GÉN SN[NÚM = sing, elementos que componen el
= masc]), 4) GÉN = fem]), 3) sintagma nominal respetando
sus rasgos de concordancia.
((V [NÚM = sing,
SUBCAT 2]
SN[NÚM = plu,
GÉN = masc]), 3)
…
10 ((V [NÚM = sing, ((V [NÚM = sing, Como el determinante «4 la 5»
SUBCAT 2] SUBCAT 2] no presenta el rasgo [NÚM =
SN[NÚM = sing, SN[NÚM = plu, sing, GÉN = masc] sino[NÚM
GÉN = fem]), 3) GÉN = masc]), 3) = sing, GÉN = fem], el cotejo
no se produce de forma
((V [NÚM = sing, satisfactoria y se ha de recurrir
SUBCAT 2] a la siguiente regla de
SN[NÚM = fem, reescritura en el estado de
GÉN = plu]), 3) reserva
…
12 ((Det[NÚM = sing, ((V [NÚM = sing, Se aplica la regla de (68b), por
GÉN = fem] N[NÚM SUBCAT 2] la que se reescribe los
= sing, GÉN = SN[NÚM = plu, elementos que componen el
masc]), 4) GÉN = masc]), 3) sintagma nominal respetando
sus rasgos de concordancia.
((V [NÚM = sing,
SUBCAT 2]
SN[NÚM = fem,
GÉN = plu]), 3)
86 Juan Carlos Tordera Yllescas
…
13 ((N[NÚM = sing, ((V [NÚM = sing, Como el determinante «4 la 5»
GÉN = masc]), 5) SUBCAT 2] sí presenta el rasgo [NÚM =
SN[NÚM = plu, sing, GÉN = fem], se produce
GÉN = masc]), 3) el cotejo de manera
satisfactoria y, por tanto, se
((V [NÚM = sing, elimina dicho elemento del
SUBCAT 2] análisis.
SN[NÚM = fem,
GÉN = plu]), 3)
…
14 ( ( ), 5) ((V [NÚM = sing, Por (69f), se identifica «4
SUBCAT 2] pelota 5» como “N[NÚM =
SN[NÚM = plu, sing, GÉN = fem]”. Por tanto,
GÉN = masc]), 3) se elimina dicho elemento del
análisis.
((V [NÚM = sing,
SUBCAT 2] Como no queda ningún
SN[NÚM = fem, elemento más por analizar, el
GÉN = plu]), 3) proceso de pasing se puede dar
por conluido de forma
… satisfactoria.
71) a. O → SN + SV b. SN → Det + N
c. SN → Det + N + ADJ d. SV → Vtran + SN
e. SV → Vintr
Lingüística computacional. Análisis, generación y T.A. 91
73)
categoría superior, se
siguen reconociendo las
siguientes palabras.
6 N 5 5 0 0 72d Se reconoce la categoría
sustantiva, N.
7 SN 4 5 5 6 71b Por la regla sintagmática
de (71b), se reconoce el
SN «4 el 5 balón».
Esta categoría está
formada por la categoría
constituyente del paso 5,
Det, y por la categoría
reconocida en el paso 6,
N.
8 SV 3 5 4 7 71d Por la regla sintagmática
de (71d), se reconoce el
SN «3 golpea 4 el 5
balón».
Esta categoría está
formada por la categoría
constituyente del paso 4,
Vtran, y por la categoría
reconocida en el paso 7,
SN.
9 O 1 5 3 8 71a Por la regla sintagmática
de (71a), se reconoce la
oración «1 El 2 niño 3
golpea 4 el 5 balón».
Esta categoría está
formada por la categoría
constituyente del paso 3,
SN, y por la categoría
constituyente del paso 8,
SV.
74) a. O → SN + SV b. SN → Det + N
c. SN → Det + ADJ + N d. SV → V
76)
77) a. O → SN + SV b. SN → Npropio
c. SN → Det + N d. SN → Det + N + Adj
e. SV → Vintr f. SV → Vtran + SN
79)
(77d)
I1 5 (SN, Juan, , I0) [0,1 ] Scan Paso El estado Scanner
2. reconoce «0 Juan 1»
Re- como un nombre
gla propio
(78b)
6 (O, SN, SV, I0) [0,1 ] Com Paso En el paso 1, se había
1y de reconocer un SN y
5. un SV. En el paso 5, el
SN ya se ha
reconocido. Por tanto,
por el estado
completador, se
obtiene un nuevo
asiento, (O, SN, SV,
I0), en el que la
categoría que queda
por reconocer es el
SV.
7 (SV, , Vintr, I1) [1, 4] Pred. Paso El estado Predictor,
6. produce todas las
Re- posibiles formas de
gla reescribir el SV.
(77e)
.
8 (SV, , Vtran + SN, I1) [1, 4] Pred. Paso
6.
Re-
gla
(77f)
.
I2 9 (SV, , Vintr, I1) [1, 2] Scan Paso El estado Scanner
7. falla al reconocer «1
Re- golpeó 2» como verbo
gla intransitivo.
(78c)
10 (SV, golpeó, SN, I1) [1, 2] Scan Paso El estado Scanner
7. reconoce con éxito «1
Re- golpeó 2» como verbo
gla transitivo.
(78c)
11 (SN, , Npropio, I2) [2, 4] Pred Paso El estado de
10, Predictor propone
Re- todas las formas
gla posibles de reescribir
(77b) el SN.
12 (SN, , Det+ N, I2) [2, 4] Pred Paso
10,
Re-
gla
(77c)
13 (SN, , Det + N + ADJ, [2, 4] Pred Paso
I2) 10,
98 Juan Carlos Tordera Yllescas
Re-
gla
(77d)
I3 14 (SN, , Npropio, I2) [2, 3] Scan Paso El estado Scanner
11. falla al no reconocer
Re- «2 el 3» como nombre
gla propio.
(78a)
15 (SN, el, N, I2) [2, 3] Scan Paso El estado Scanner
12. reconoce con éxito «2
Re- el 3» como
gla determinante.
(78a)
16 (SN, el, N + Adj, I2) [2, 3] Scan Paso El estado Scanner
13. reconoce con éxito «2
Re- el 3» como deter-
gla minante.
(78a)
17 (SN, el balón, I2) [2, 4] Scan Paso El estado Scanner
15. reconoce con éxito «3
Re- balón 4» como nombre
gla y, consecuentemente,
(78d) se reconoce un
sintagma nominal.
18 (SV, golpeó el balón, , [1, 4] Com Paso Se completa el SV,
I1) 10 y una vez reconocido el
17. SN «2 el 3 balón 4» en
el paso anterior.
19 (O, SN+SV, , I0) [0, 4] Com Paso Reconocido el SV,
6y quedan reconocidas
18. todas las categorías
que constituyen la
oración. Por tanto, el
análisis se puede dar
por finalizado.
82) a. O → SN + SV b. O → SV
c. SN → Det + N‟ d. N‟ → N
e. N‟ → N + SP f. SN → Npropio
g. SP → Prep + SN h. SV →V
100 Juan Carlos Tordera Yllescas
84) i. SV →V + SN
84)
85)
O, SV, V O, SV
N‟, N
[0, 1] [0, 2] [0,3]
Det SN
[1, 2] [1, 3]
N‟, N
[2, 3]
102 Juan Carlos Tordera Yllescas
18
Mantenemos las denominaciones de «morfología» y «morfológico»
por fidelidad a la descripción presentada por HUTCHINS y SOMERS
(1992 [1995]: 129). A nuestro entender, creemos que son preferibles las
denominaciones más generales de «lexicología» y «lexicológico» en
lugar de «morfología» y «morfológico».
108 Juan Carlos Tordera Yllescas
88) veis: [V, 2p, plural, presente, «percibir por los ojos no
intencionalmente»]
vemos: [V, 1p, plural, presente, «percibir por los ojos no
intencionalmente»]
ven: [V, 3p, plural, presente, «percibir por los ojos no
intencionalmente»]
ver: [V, infinitivo, «percibir por los ojos no
intencionalmente»]
ves: [V, 2p, singular, presente, «percibir por los ojos no
intencionalmente»]
veo: [V, 1p, singular, presente, «percibir por los ojos no
intencionalmente»]
19
El valor de presente en castellano no tiene, propiamente, manifes-
tación morfofonológica. Así pues, o bien se debería representar
mediante un morfema cero, Ø, o bien se podría interpretar como un
valor temporal por defecto. La primera opción, la existencia de un
morfema cero, puede conllevar no pocos problemas en Lingüística
computacional, dado que el sistema podría proponer la existencia de
dicho elemento por doquier, puesto que lo que busca es un elemento
inexistente. La segunda opción, un valor temporal por defecto, defen-
dería que, si a a una forma verbal no se le ha asignado ningún tiempo,
se le asigne el valor de presente. Como el resto de formas verbales sí
tienen rasgos morfológicos que permiten determinar su valor temporal
(v.gr.: –ba– o –a– para el pretérito imperfecto; –ra– o –re– para el
futuro; –ría– para el condicional…), el presente sería el valor por
exclusión que se le asignaría a la forma verbal.
Lingüística computacional. Análisis, generación y T.A. 109
20
Cada tiempo verbal tiene seis formas distintas, según el número y la
persona. En total, hay catorce tiempos distintos (sin contar los ya casi
extintos futuro simple y futuro compuesto de subjuntivo). Esto hace un
total de ochenta y cuatro formas verbales distintas. A estas ochenta y
cuatro formas, hay que sumarles las dos formas de imperativo y las tres
formas no personales del verbo, a saber, infinitivo, gerundio y partici-
pio. El total da como resultado ochenta y nueve formas distintas.
110 Juan Carlos Tordera Yllescas
96) a. The monkey1 ate the banana, because it1 was hungry.
a‟. [El mono1 se comió la banana, porque (él1) estaba
hambriento]
b. The panther1 ate the rabbit, because it1 was hungry.
b‟. [La pantera1 se comió el conejo, porque (ella1) estaba
hambrienta]
102)
plo, en la oración «The box was in the pen» («La caja estaba en
el parque»), la palabra «pen» se ha de traducir como «parque
infantil» y no como «lápiz». Dicha traducción la puede llevar a
cabo un traductor humano, porque este sabe que una caja, «box»,
no cabe en un lápiz. Sin embargo, para un sistema computa-
cional, es complejo acudir a dicho conocimiento y, por tanto,
difícilmente puede llevar a cabo traducciones óptimas
(HUTCHINS y SOMERS, 1992 [1995]: 212-213).
Descartada la Traducción totalmente automática de alta
calidad, los principales tipos de traducción en los que se inves-
tiga y trabaja –sin contar con la traducción humana tradicional–
son la traducción automática con participación humana y la
Traducción humana asistida por ordenador. La Traducción
humana asistida por ordenador se caracteriza por la utilización de
recursos informáticos, que le proporcionan al traductor apoyo
lingüístico en su trabajo (HUTCHINS y SOMERS, 1992 [1995]:
213-214). Entre estos recursos informáticos, cabe citar los
correctores ortográficos, los correctores gramaticales, los correc-
tores de estilo, las obras lexicográficas informáticas (diccio-
narios, vocabularios, tesauros, enciclopedias…), etc. Entre los
recursos más utilizados en la Traducción humana asistida por
ordenador, merecen una mención especial las denominadas
estaciones de trabajo del traductor. Las estaciones de trabajo se
caracterizan por trabajar con múltiples ventanas. Una «parte de la
pantalla se convierte en la zona de trabajo en la lengua meta, y
las teclas de función abren ventanas o subdividen la pantalla para
efectuar una lectura cuidadosa de los diccionarios en línea y tal
vez realizar búsquedas en almacenes de traducciones sobre temas
similares o destinadas a los mismos clientes. La expresión “inte-
gración total” significa que la información puede transferirse
fácilmente de una venta a otra» (HUTCHINS y SOMERS, 1992
[1995]: 214).
La traducción automática con participación humana es la
otra modalidad de traducción asistida por ordenador y, por su
menor dependencia de la intervención humana, será la modalidad
de traducción en la que centraremos nuestra atención.
Si en la Traducción humana asistida por ordenador, el
máximo responsable de la traducción es el traductor humano, que
es quien realiza la tarea, en la traducción automática con partici-
122 Juan Carlos Tordera Yllescas
104)
105)
106)
22
En HUTCHINS y SOMERS (1992 [1995]: 120), se indica que el número
de módulos de análisis y generación para un sistema de traducción por
transferencia o por interlengua es igual al número de lenguas
implicadas. Es decir, si se trata de un sistema de traducción bilingüe,
Lingüística computacional. Análisis, generación y T.A. 133
b.
23
En las construcciones del inglés del tipo «John gave the children the
toys», cabe tener en cuenta que el objeto directo no es exactamente el
segundo complemento, «the toys», sino el primero «the children», dado
que es este el elemento que es pasivizado: «The children were given the
toys».
Lingüística computacional. Análisis, generación y T.A. 137
b.
24
En las representaciones sintácticas de (161), la configuración sintag-
mática ofrecida en HUTCHINS y SOMERS (1992 [1995]: 192-198), no es
exactamente la correspondiente a la configuración clásica defendida por
el generativismo chomskiano, sino que se aproxima más a los análisis
de dependencias, en los que se distingue entre el núcleo y el elemento
dependiente.
142 Juan Carlos Tordera Yllescas
111)
25
El estudio de los colores es un estudio clásico dentro de la Psicología
y la Antropología. En VELASCO MAILLO (2003: 313-326), se ofrece un
repaso a los estudios interlingüísticos más relevantes llevados a cabo y
sus implicaciones antropológicas y cognitivas.
144 Juan Carlos Tordera Yllescas
27
Como se indica en SOMERS (2003: 515), el corpus puede ser un
corpus real o bien un corpus manipulado para que sea útil a las preten-
siones de la traducción automática y ofrezca el menor número de pro-
blemas posibles.
28
La traducción de (163b) ha sido facilitada por el Traductor
automático de Softcatalà, disponible en http://www.softcatala.org/
traductor.
146 Juan Carlos Tordera Yllescas
113) a. «Se lanzó por entre las cañas/, bajó casi rodando la
pendiente/, y/ se vio metido en el agua hasta la cintura/, los
pies en el barro/ y/ los brazos altos, muy altos/, para
impedir que se mojara su escopeta/, guardando avaramente
los dos tiros/ hasta el momento de soltarlos con toda
seguridad/»
29
Cabe indicar que las representaciones lógico-semánticas propuestas
por ASHER y LASCARIDES (2003) también pueden ser representaciones
válidas del conocimiento extralingüístico.
Lingüística computacional. Análisis, generación y T.A. 151
CAPÍTULO 4. APLICACIONES
4.1. INTRODUCCIÓN
30
Por ejemplo, en Google, hemos encontrado 3.600.000 resultados para
el descriptor “reconocimiento habla” y 3.640.000 resultados para el
descriptor “reconocimiento del habla”
158 Juan Carlos Tordera Yllescas
116)
117)
120)
nota a pie de página, elementos que solo aparecen una vez, ele-
mentos no ligados directamente al tema…). Por el contrario, para
la generación de los «abstracts», dicho proceso requiere un
mayor grado de complejidad. Es evidente que, en este proceso,
desempeña un importante papel la subdisciplina computacional
denominada por HALVORSEN (1988: 254) generación, ya que es
necesario una planificación textual, una planificación en la
generación de las oraciones y la producción final de dichas
oraciones.
La utilidad de los resúmenes automáticos es evidente; la
información disponible en documentos electrónicos no es nada
despreciable y algunos de estos documentos pueden tener una
extensión considerable. Por tanto, esta aplicación puede ofrecer
al usuario una primera aproximación al documento y, solo en
caso de serle provechoso, puede decidir leer o no el texto ori-
ginal. Las versiones de Word cuentan con esta posibilidad (bajo
el comando de Autorresumen).
La elaboración de correctores ortográficos, gramaticales y
de estilos o de diccionarios también son aplicaciones que han
adquirido una notable importancia actualmente (MOURE y LLIS-
TERRI, 1996: 203-204). Los correctores ortográficos más
sencillos operan a partir de un diccionario y verifican que la pala-
bra escrita en el procesador de textos (v.gr.: Word) sea idéntica a
la palabra listada en el diccionario (v.gr.: si el usuario escribe
«havía» y en el diccionario no se registra dicha forma, entonces
el corrector detectará el error). En el diccionario, se pueden listar
todas las palabras, flexionadas y no flexionadas, o bien un
analizador morfológico puede derivar las palabras a partir del
lema o forma canónica (v.gr.: de «haber» se obtendrían las
formas «he», «has», «ha»…). No contar con un analizador
morfológico conlleva disponer de una mayor cantidad de memo-
ria de almacenamiento (ya que el número de palabras listadas es
mayor, teniendo en cuenta que se listan las formas canónicas y
sus derivados morfológicos). Sin embargo, un analizador morfo-
lógico presenta sus propios problemas; por ejemplo, puede
admitir como formas aceptables formas inaceptables (v.gr.: si de
«tentar» se deriva «tentación», de «replicar» se puede derivar
«*replicación»). Los correctores más complejos han de contar
también con reglas gramaticales. Por ejemplo, sin reglas grama-
Lingüística computacional. Análisis, generación y T.A. 175
121)
123)
Rosetta
Año e Proyecto iniciado en 1980 por Jan Landsbergen bajo
Institución el patrocinio de los Laboratorios Philips de Eindhoven en
los Países Bajos.
Lenguas Pretendía traducir del holandés al inglés y al español,
y del inglés y del español al holandés.
Método Su método se puede considerar interlingual, ya que,
al considerar la estructura semántica como una estructura
intermedia entre las lenguas, está muy próximo al método
por interlengua.
Descripción El sistema Roseta está inspirada sintácticamente en el
modelo generativo de Principios y Parámetros y,
semánticamente, en la Gramática de Richard Montague
(según la cual, a cada regla sintáctica, le corresponde una
regla semántica).
Este sistema sigue el método de transferencia. En el
análisis, se realiza un análisis morfológico, un análisis
sintáctico de la estructura superficial y un análisis
sintáctico de la estructura profunda. En la fase de
transferencia, la estructura sintáctica obtenida es el
aducto o input para generar la estructura semántica
(expresada lógicamente) y, dicha representación
semántica, es el aducto o input para generar la estructura
profunda en la fase de generación. Finalmente, en la fase
de generación, se realiza la generación sintáctica de la
estructura superficial y la generación morfológica.
Desde el punto de vista procedimental, existe un
algoritmo específico para analizar o generar cada
estructura gramatical (v.gr.: A-MORPH realiza el análisis
morfológico; S-PARSER, el análisis sintáctico
superficial; M-PARSER, el análisis sintáctico profundo;
A-TRANSFER es el encargado de generar la derivación
semántica y G-TRANSFER la encargada de generar la
estructura sintáctica profunda a partir de la derivación
semántica; M-GENERATOR deriva la estructura
superficial a partir de la profunda; LEAVES asigna las
palabras a cada nudo terminal y G-MORPH realiza los
ajustes morfológicos pertinentes).
DLT (de «Distributed Language Translation »)
Año e Las investigaciones para su desarrollo fueron
Institución iniciadas en 1979 por Witkam. En 1987, se presenta la
primera demostración del sistema.
El proyecto fue financiado por la empresa holandesa
de software en Utrecht Buro voor Systemontwikkeling
(BSO).
Lenguas Se concibió como un sistema multilingüe que
tradujera lenguas europeas como el inglés, el francés, el
alemán y el italiano. Los mayores avances se
Lingüística computacional. Análisis, generación y T.A. 189
ATLAS
Año e En 1982, se presentó la primera versión de ATLAS,
Institución financiada por la empresa Fujitsu.
Lenguas ATLAS-I: Del inglés al japonés.
ATLAS-II: Se concibió como un sistema multilingüe.
Método ATLAS-I: Método de transferencia (con alguna
representación de tipo semántica).
ATLAS-II: Método de interlengua.
Descripción ATLAS-I: Se realiza el análisis (identificación de las
palabras y estructura sintagmática) y se realiza la fase de
transferencia. Se realiza la sustitución de las unidades
léxicas y se llevan a cabo los ajustes morfológicos
necesarios para las palabras flexivas.
ATLAS II: La interlengua es una estructura
conceptual representada mediante una red semántica. El
análisis comprende tres etapas (una morfológica, una
sintáctica-semántica y un tercero encargado de generar la
estructura conceptual). La fase de transferencia se
encarga de resolver la falta de correspondencia entre la
190 Juan Carlos Tordera Yllescas
37
Para quienes defienden que el análisis sintáctico es autónomo y que,
además, el análisis es determinista, el ser humano solo podrá tener en
consideración una única interpretación al procesar la oración ambigua.
38
Vid. MITCHELL (1987 [1990]: 196-199), NORRIS (1987 [1990]: 213-
216), BELINCHÓN, IGOA y RIVIÈRE (1992 [1998]: 430-431), CARREIRAS
y MESEGUER (1999: 170-176), o WINGFIELD y TITONE (2000: 260-
261).
Lingüística computacional. Análisis, generación y T.A. 197
125) a.
39
Vid. NORRIS (1987 [1990]: 215-216), BELINCHÓN, IGOA y RIVIÈRE
(1992 [1998]: 431-433), CARREIRAS y MESEGUER (1999: 170-176) y
WINGFIELD y TITONE (2000: 260-261).
198 Juan Carlos Tordera Yllescas
b.
40
Cabe recordar, no obstante, que, como se recoge en NORRIS (1987
[1990]: 215-216), BELINCHÓN, IGOA y RIVIÈRE (1992 [1998]: 431-
433), CARREIRAS y MESEGUER (1999: 170-176) y WINGFIELD y TITONE
(2000: 260-261), la preferencia de una interpretación u otra no solo
responde a criterios sintácticos (esto es, estrategias de análisis), sino
también a criterios léxicos, semánticos y pragmáticos. Si se tiene en
consideración que el análisis sintáctico no se realiza de forma
autónoma, se puede entender por qué el sintagma preposicional «con
una montura» prefiere interpretarse como modificador nominal y no
200 Juan Carlos Tordera Yllescas
127)
41
Además, cabe tener en cuenta que, al igual que la separación entre el
método de transferencia y el método por interlengua no era una
separación estanca, con límites bien fijados, del mismo modo, la
distinción entre el bilingüismo coordinado y el compuesto no son
«conceptos absolutos, sino más bien tipos de comportamiento cognitivo
que predominan en los bilingües y cuyo grado de proporción relativa
puede ser muy variable (LÓPEZ GARCÍA, 1989: 93)».
202 Juan Carlos Tordera Yllescas
CONCLUSIONES
LynX
A Monographic Series in Linguistics and World Perception
Lingüística computacional
Análisis, generación y traducción automática
Published jointly by
Department of Spanish and Portuguese
University of Minnesota (USA)
34 Folwell Hall, 9 Pleasant St. S. E., Minneapolis, MN 55455
Departament de Teoria dels Llenguatges i Ciències de la Comunicació
Universitat de València (Spain)
Av. Blasco Ibáñez 32, 46010 València
Editors:
Carol A. Klee (University of Minnesota)
Ángel López García-Molins (Universitat de València)
Assistant Editor:
Enrique N. Serra Alegre (Universitat de València)
Advisory Board:
Milton M. Azevedo (University of Alfredo Matus Olivier (Universidad de
California, Berkeley) Santiago de Chile)
Walter Bisang (Universität Mainz) Juri Melčuk (Université de Montréal)
Per Aage Brandt (Case Western Reserve Michael Metzeltin (Universität Wien)
University) Félix Monge (Universidad de
Nelson Cartagena (Universität Zaragoza)
Heidelberg) José Mª Navarro (Universität Bremen)
Jacques de Bruyne (Universiteit Gent) Francisco Ocampo (University of
José del Valle (City University of New Minnesota)
York) Wulf Oesterreicher (Universität
Adolfo Elizaincín (Universidad de München)
Montevideo) Bernard Pottier (Université de
Lene Fogsgaard (Århus Universitet) Paris III)
Giovanni Invitto (Università di Lecce) Timo Riiho (Helsingin Yliopisto)
Luis Fernando Lara (Colegio de México) Joel Rini (University of Virginia)
Humberto López Morales (Universidad Elena Rojas (Universidad de Tucumán)
de San Juan de Puerto Rico) Harald Thun (Universität Kiel)
Jingsheng Lu (Shanghai International Francis Tollis (Université de Pau)
Studies University) Klaus Zimmermann (Universität
Luis Luque (Università di Venezia) Bremen)