Está en la página 1de 9

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/28238354

Análisis sintáctico profundo del español: un ejemplo del procesamiento de


secuencias idiomáticas

Article · January 2008


Source: OAI

CITATIONS READS

3 445

3 authors:

Antonio Leoni Sandra Schwab


University of Costa Rica University of Zurich
21 PUBLICATIONS   10 CITATIONS    73 PUBLICATIONS   323 CITATIONS   

SEE PROFILE SEE PROFILE

Eric Wehrli
University of Geneva
91 PUBLICATIONS   1,039 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

COGNIPROS. Linguistic and cognitive evaluation of prosodic production and perception in deviant speech: stress phenomena. View project

Fips parser View project

All content following this page was uploaded by Eric Wehrli on 28 May 2014.

The user has requested enhancement of the downloaded file.


Procesamiento del lenguaje Natural, nº 41 (2008), pp. 37-44 recibido 7-05-2008; aceptado 16-06-2008

Análisis sintáctico profundo del español: un ejemplo del procesamiento de


secuencias idiomáticas∗

Spanish deep parsing: the example of idiomatic sequences processing

Jorge Antonio Leoni de León, Sandra Schwab y Éric Wehrli


LATL - Departamento de Lingüística
Universidad de Ginebra
2, rue de Candolle
CH-1211 Ginebra 4,
Suiza
[jorge.leonideleon,sandra.schwab,eric.wehrli]@lettres.unige.ch

Resumen: En el Laboratorio de Análisis y de Tecnología del Lenguaje de la Universidad


de Ginebra (Suiza), se ha desarrollado el analizador sintáctico profundo multilingüe F IPS,
el cual es todavía un trabajo en progreso. Dicho analizador, inspirado de las teorías gene-
rativistas chomskyanas, se basa en la idea de conjuntos de estructuras sintácticas comunes
a varios idiomas (ya sea a todas las lenguas o familias de lenguas). En este artículo pre-
sentamos una introducción a la estrategia general de F IPS, ejemplificada con el español, así
como una muestra de aplicación al procesamiento de secuencias idiomáticas. Este tipo de
secuencias, aunque generalmente procesadas como secuencias léxicas estáticas, pueden ser
objeto de diversas transformaciones léxico-sintácticas, como la pronominalización clítica
de un argumento interno o la substitución de elementos. Capturar el sentido de tales secuen-
cias en la oración requiere una representación sintáctica profunda que permita establecer
los vínculos entre la forma base y la realización (o forma superficial).
Palabras clave: analizador sintáctico profundo, expresiones idiomáticas
Abstract: F IPS, a multilingual deep parser, has been developed at the Language Techno-
logy Laboratory (LATL) of the University of Geneva (Switzerland).This parser, inspired
by Chomskyan generative theories, is based on the idea that sets of syntactic structures
are common to different languages (to all languages or to some language families). In this
paper, we present an introduction to F IPS processing that we illustrate with Spanish and
examples of multiword expressions. Such expressions, although generally processed as sta-
tic lexical sequences, can indeed undergo various lexical-syntactic transformations, such as
pronominalizations or substitutions. Retrieving such sequences’ meaning requires a deep
syntactic representation, which needs to establish the links between deep structures and sur-
face forms.
Keywords: deep parsing, multiword expressions

1. Introducción (Chomsky, 1995, capítulo 1 con Howard Lasnik),


con adaptaciones libres del modelo Minimalista
Desde hace varios años, en el Laboratorio de (Chomsky, 2004), de Simpler Syntax (Culicover
Análisis y de Tecnología del Lenguaje (LATL, y Jackendoff, 2005) y de la Gramática léxico-
2008; Laenzlinger y Wehrli, 1991) de la Uni- funcional (Bresnan, 2001). Así, F IPS posee un
versidad de Ginebra se desarrolla el analiza- núcleo gramatical común a todas las lenguas del
dor sintáctico profundo multilingüe F IPS (Wehr- sistema, al que se le agregan módulos especiali-
li, 2004; Wehrli, 2007). 1 Este se inspira, funda- zados correspondientes a grupos de lenguas que
mentalmente, del esquema teórico chomskyano presentan similitudes en cuanto a ciertos fenó-

menos, como por ejemplo los pronombres clíti-
Esta investigación ha recibido el apoyo del Fonds Na- cos en las lenguas latinas. Esta estrategia reduce
tional Suisse pour la Recherche Scientifique (Fondo Na-
cional Suizo para la Investigación Científica), proyecto el tiempo necesario para la introducción de nue-
no 101412 − 103999. vas lenguas en el sistema, al haber un conjunto
1
Existe una versión en línea del analizador (LATL, de condiciones y fenómenos sintácticos predefi-
2008).

ISSN: 1135-5948 © 2008 Sociedad Española para el procesamiento del Lenguaje Natural
Jorge Antonio Leoni de León, Sandra Schwab y Eric Wehrli

nidos, tanto para el total de lenguas, como para quetador morfosintáctico (F IPS T G) y un analiza-
un subconjunto de ellas. dor sintáctico (F IPS S YN).
La ventaja de un analizador sintáctico profun- Inspirándose de la gramática chomskyana,
do con respecto a los analizadores sintácticos su- F IPS maximiza los rasgos gramaticales comunes
perficiales, como Atserias et al. (2006), es su ca- a las lenguas a través de varios módulos que van
pacidad para identificar eficazmente las relacio- del más general al más específico, siendo este
nes de distancia en la frase. Por ejemplo, los ele- último un conjunto de reglas propias a una len-
mentos constitutivos de las expresiones idiomáti- gua en particular (Wehrli, 2004). 3 Por ejemplo,
cas no siempre se encuentran próximos los unos el tratamiento de los pronombres clíticos (“le di
de los otros, aunque está claro que la coocurren- el libro”) de las lenguas latinas más el griego es
cia de dichos elementos es importante. Tal es el procesado por medio del módulo Romance (Leo-
caso de la colocación “explotar un mito”, la cual, ni de León y Michou, 2006). 4
aparte de su forma transitiva básica, puede en- F IPS B D especifica, entre otros, los datos de
contrarse bajo una forma pasiva, “el mito ha si- subcategorización y selección, las funciones te-
do explotado”, o una forma nominal, “la explo- máticas y los rasgos semánticos sintácticamente
tación del mito”. En este artículo describimos el relevantes. Por ejemplo, en el caso de un verbo
funcionamiento de F IPS y abordamos de manera como “ver”, tenemos la serie de valores parcial-
general sus ventajas en el procesamiento de ex- mente especificados en el Cuadro 2, donde “ID”
presiones idiomáticas. se refiere al número único de identificación del
verbo “ver” en la base de datos, “Inflexión” indi-
2. El analizador Fips ca el paradigma de conjugación correspondiente
La implementación de F IPS se ha concentrado y “Subcategorización” especifica las posiciones
en seis idiomas: alemán, español, francés, grie- de sujeto y de objeto directo que deben estar ocu-
go, inglés e italiano. 2 Sin embargo, otras lenguas padas por un sintagma nominal (“NP”). Estas úl-
también han sido tratadas, aunque parcialmente, timas posiciones están asociadas, respectivamen-
como el rumano, el ruso, el polaco y el romanche te, con “Argumento 1” y “Argumento 2”, donde
sursilvano. La base de datos léxica de F IPS ha las funciones gramaticales y temáticas son decla-
sido siempre una prioridad, de manera que el lé- radas. Estas informaciones son provistas al utili-
xico ha ido alcanzado un notable nivel tanto cua- zador por el etiquetador F IPS T G. Por otra parte,
litativo, como cuantitativo; el Cuadro 1 resume la todas las formas posibles de una entrada léxica
cobertura léxica de F IPS en cifras absolutas: han sido introducidas en la base de datos por me-
dio de un generador.
Idioma Lemas Formas Colocaciones En el caso de las otras categorías gramati-
Inglés 54 000 90 000 5 000 cales, la información guardada en F IPS B D pue-
Francés 37 000 227 000 12 500 de ser muy similar; por ejemplo, ciertos adjeti-
Alemán 39 000 410 000 2 000 vos están subcategorizados (“orgulloso de AL -
Italiano 31 000 220 000 2 500 GO ”). Además, tenemos el caso de informacio-
Español 25 100 265 000 1500 nes léxico-semánticas particularmente relevantes
Griego 12 000 90 000 225 (rasgos de selección); por ejemplo, la propiedad
Cuadro 1: Número de entradas en F IPS B D [+humano] es agregada a los sustantivos referi-
dos a seres humanos a fin de dar cuenta del uso de
De esta manera, la base de datos léxica de 3
En el marco de la gramática sintagmática endocéntrica,
F IPS contiene lemas, que son las formas canó- HPSG, se han efectuado esfuerzos similares (LinGO Lab,
nicas para acceder a las entradas léxicas, formas, 2008).
que son todas las instancias declinadas o conju- 4
El módulo Romance se encarga de: (i) la identificación
gadas de una entrada léxica, y colocaciones que de las secuencias clíticas; (ii) la asociación de dichas se-
se abordan en la sección 3. cuencias al verbo anfitrión (u otra categoría, según el idio-
ma); (iii) la verificación de rasgos entre la secuencia clítica
Los análisis de F IPS requieren la conjunción y los argumentos del verbo; y (iv) la interpretación de la se-
de los resultados de tres sistemas interdependien- cuencia clítica. La interpretación de las secuencias clíticas
tes: una base de datos léxicos (F IPS B D), un eti- toma la forma de una categoría vacía en la posición de argu-
mento, coindexada con el pronombre clítico en una posición
2
En cuanto al procesamiento automático de la lengua es- más alta; la formación de una cadena entre ambos permite
pañola, podemos citar tanto el trabajo de La Serna (2004), la corrobación de los rasgos pertinentes de caso y tema. El
como el de Bick (2008), éste último trata de un analiza- etiquetador de F IPS (F IPS T G) muestra los valores corres-
dor basado en gramáticas de restricciones (constraint gram- pondientes (objeto directo, objeto indirecto, etc.) para cada
mar). vocablo de la oración.

38
Análisis sintáctico profundo del español: un ejemplo del procesamiento de secuencias idiomáticas

Etiqueta Valor Etiqueta Valor


Lema ver Lema edificio
ID  ID 
Inflexión 1 Género masculino
Subcategorización [NP_NP] Número singular
Argumentos Inflexión 1
Argumento 1 Rasgos Objeto
Función gramatical sujeto físico
Argumento 2 Subcategorización noArg
Función gramatical objeto directo
Función temática tema Cuadro 4: F IPS B D: “edificio”

Cuadro 2: F IPS B D: “ver” ner en relación el verbo “ver” con el sintagma


nominal “el edificio”, puesto que, según la sub-
la preposición española “a” para señalar un obje- categorización del verbo, la posición postverbal
to directo referido a un humano. Así, (1) contras- corresponde al objeto directo y éste debe ser un
ta con (2), puesto que si bien tanto “estudiante” sintagma nominal. De esta forma, las informa-
como “edificio” son objetos directos, en este úl- ciones para la combinación de los sintagmas son
timo la preposición “a” está ausente: satisfechas.
(1) Vi al estudiante F IPS S YN presupone la constitución de sintag-
mas endocéntricos consistentes en tres elemen-
(2) Vi el edificio. tos: el núcleo del sintagma (X), a su izquierda una
Los valores parciales de “estudiante” en lista de subconstituyentes (Izq) y a su derecha
F IPS B D están dados en el Cuadro 3, dentro de los otra lista de subconstituyentes (Der). Esquemáti-
que se cuenta “humano. El valor “noArg” en camente lo representamos así:
“Subcategorización” indica que “estudiante” no
tiene ningún elemento subcategorizado. En cam-
[ Izq X Der ]
bio, la entrada léxica de “edificio” (Cuadro 4) ca-
rece del rasgo “humano”, pero posee el rasgo fa- Cualquiera de estos elementos puede estar va-
cultativo “Objeto físico”. Según las infor- cío. La variable “X” puede corresponder a cual-
maciones de los Cuadros 3 y 4, F IPS S YN, que quier categoría léxica: adverbio (Adv), adjeti-
veremos más adelante, atribuye un valor de com- vo (A), complementador (C), determinante (D),
plemento directo a “al estudiante” luego del aná- interjección (Inter), preposición (P), sustanti-
lisis de la preposición en función de la estructura vo (N), Verbo (V). Además tenemos la catego-
del verbo y del sintagma nominal en cuestión. 5 ría funcional de tiempo (T), que contiene toda la
Etiqueta Valor oración, así como una proyección funcional (F),
Lema estudiante usada para representar objetos predicativos, cuyo
ID  núcleo está constituido por un adjetivo, un ad-
Género masculino, verbio, un sustantivo o una preposición. De esta
femenino manera una representación gráfica de un sintag-
Número singular ma, o incluso de una oración, es necesariamente
Inflexión 7 trinaria (Figura 1).
Rasgos humano XP
Subcategorización noArg

Cuadro 3: F IPS B D: “estudiante” Izq X Der

Ahora bien, si tenemos una oración como “vi Figura 1: Estructura básica de F IPS S YN
el edificio”, según las informaciones especifica-
das en el Cuadro 2, F IPS S YN va a intentar po- Existen varios formatos de salida para los re-
sultados de F IPS (texto, XML y con corchetes);
5
El tratamiento del objeto directo del español en F IPS, todos consisten en una versión enriquecida de la
tanto para entes animados como inanimados, merece, sin frase original con delimitadores de los sintagmas,
duda alguna, ser abordado más en profundidad, en especial
en lo que respecta a la fenomenología de la pronominaliza-
cuyo núcleo es un bigrama que denota la catego-
ción clítica. Sin embargo, es un tema que exige más espacio ría gramatical a la que pertenecen (“NP” si es sus-
del que podemos dedicarle aquí. tantivo, “AP” si es adjetivo, etc.). Para esta pre-

39
Jorge Antonio Leoni de León, Sandra Schwab y Eric Wehrli

sentación, nosotros empleamos el formato basa- En español, como se ve en el ejemplo (4), el


do únicamente en los corchetes (etiquetas sintag- artículo definido “el” proyecta un sintagma deter-
máticas). Tomando en cuenta lo anterior, si in- minante (4a.), mientras que “edificio” proyecta
troducimos en el sistema la frase “vi el edificio”, un sintagma nominal (4b.). Los pronombres per-
obtenemos como resultado la versión etiquetada sonales (4c.), que en F IPS B D son considerados
del ejemplo (3): como una forma especial de sustantivos, realizan
lo que se llama una “metaproyección”, es decir,
(3) [TP [DP ] vi [VP [DP el [NP edificio]]]] proyectan inmediatamente su estructura superior,
La Figura 2 representa gráficamente esta misma que en este caso es un DP (en F IPS todo sintagma
estructura: nominal está contenido en un sintagma determi-
TP nante). La metaproyección también es utilizada,
en el análisis de las lenguas romances, para los
verbos conjugados, que pasan a ser TP (4d.) (es-
DP vii VP ta operación tiene como objetivo verificar la con-
cordancia entre el sujeto y el verbo en las lenguas
e ei DP con sujeto desinencial).
el NP (4) a. Determinantes:
el → [DP el]
edificio b. Sustantivos:
edificio → [NP edificio]
Figura 2: Representación de un análisis c. Pronombres:
tú → [DP [NP tú]]
Para facilitar la comprensión del análisis en (3), d. Verbos:
hemos agregado una categoría vacía, eventual- vi → [TP vii [VP ei ]]
mente coindexada con el verbo (vii . . . ei ). Por su
parte, F IPS T G resume las informaciones léxicas, En inglés (5a.), la metaproyección no tiene lu-
presentadas en el Cuadro 5. gar, puesto que esta operación no se ve justifica-
da dada la pobreza morfológica de ese idioma.
Vocablo vi
También hay lenguas que requieren una metapro-
Rasgos VER-IND-PRS-1-SIN
yección más compleja, como en el alemán (5b.)
ID único  que en nuestro esquema necesita una metapro-
Lema ver yección superior al sintagma de tiempo (TP) pa-
Vocablo el ra dar cuenta del fenómeno del verbo en posición
Rasgos DET-SIN-MAS final de oración, que es considerada como su po-
ID único  sición canónica.
Lema el
Función OBJ (5) a. Inglés:
Vocablo edificio reads → [TP [VP readsi ]]
Rasgos NOM-SIN-MAS b. Alemán:
ID único  regnet6 → [CP regneti [TP [VP ei ]]
Lema edificio

Cuadro 5: Resultados del etiquetador 2.2. Método Merge


El método “Merge” es el mecanismo de com-
Las operaciones que le permiten a F IPS alcan- binación sintagmática de F IPS. Cada vez que el
zar estos resultados se apoyan en tres métodos: analizador lee un vocablo, éste es transformado
Project, Merge y Move. en un constituyente, es decir, en una proyección
como las explicadas en la sección 2.1. La proyec-
2.1. Método Project
ción puede ser combinada (“merged”) con cons-
El método “Project” (proyección) crea un tituyentes completos o parciales en cualquiera de
constituyente sintáctico sobre la base de un obje- sus contextos. En ese momento, se abren dos po-
to léxico o de otro constituyente sintáctico. Todo sibilidades: una agregación a la izquierda o una
elemento léxico identificado por F IPS a partir de agregación a la derecha.
las informaciones de F IPS B D es proyectado co-
6
mo un sintagma con un ítem léxico como núcleo. En español, “llueve”.

40
Análisis sintáctico profundo del español: un ejemplo del procesamiento de secuencias idiomáticas

Una agregación a la izquierda es el caso tí- en posición postverbal tenemos el sintagma “el
pico del sujeto y el verbo. Esta consiste en la edificio”, reconocido como un sintagma nominal
inserción de un constituyente en el contexto iz- (por lo tanto compatible con las informaciones
quierdo de otra proyección, con la que es compa- de “ver”), F IPS lo reconoce en esta posición co-
tible. Por ejemplo, en (6), el pronombre personal mo un objeto directo.
(6a.), luego del reconocimiento del verbo (6b.),
es agregado como un subconstituyente izquierdo 2.3. Método Move
de la nueva proyección verbal (es decir, como un La estructura general de superficie es el resul-
sujeto), obteniendo así (6c.). tado de la combinación de las operaciones de
(6) a. ella → [DP ella] “Project” y “Merge”. Sin embargo, es necesario
un mecanismo adicional para satisfacer las con-
b. duerme → [TP duerme [VP ]]
diciones de uniformidad como, por ejemplo, la
c. [TP [DP ella] duerme [VP ]] asignación de funciones temáticas. Tal es el ob-
Por el contrario, una agregación a la derecha jetivo del método “Move” (“mover”), el cual ma-
corresponde a la situación en la que una proyec- neja la relación de elementos extraídos o dislo-
ción es agregada como un subconstituyente de- cados con las posiciones que ocupaban original-
recho de su propio contexto izquierdo. Este es mente. Un caso típico es el de las oraciones inte-
el caso típico de los sintagmas determinantes, en rrogativas parciales, como la oración inglesa en
los que el sintagma nominal es insertado a la de- (8):
recha del sintagma determinante (DP); dicho de
otra forma, los sintagmas determinantes acogen (8) a. Who did you invite ?
un sintagma nominal a la derecha del núcleo del b. [CP [DP who]j didk [TP [DP you] ek
constituyente: [VP invite ej ]]]
Por ejemplo, en (7), el vocablo “el” proyec- El método “Move” consiste en la creación
ta un constituyente DP (7b.), en la gramática de de una cadena de coindexaciones. En el ejemplo
F IPS, los DP ocupan una posición superior a los (8b.) tenemos dos elementos desplazados: el pro-
NP. En otras palabras, un DP puede puede te- nombre interrogativo “who” y el auxiliar “did”.
ner un NP como argumento. De esta manera, la Dos hechos justifican la utilización de este meca-
proyección (7c.) es combinada con (7b.) (es de- nismo para el pronombre “who”. En primer lu-
cir, introducida a la derecha de esta última), lo gar el pronombre “who”, para ser interpretado
que produce el sintagma (7d.). El procedimiento correctamente, necesita estar asociado a un ver-
para satisfacer los argumentos de un verbo son bo, el cual se encuentra lejos en la frase; por este
básicamente los mismos. Así, una vez reconoci- motivo, su interpretación es diferida y el pronom-
do el sintagma (7a.), el DP se incorpora a la dere- bre es insertado en una estructura temporal (en
cha del sintagma verbal. El resultado de toda esta una pila). Luego, el verbo necesita satisfacer tan-
operación lo tenemos en (7e.). to su subcategorización (_NP), como la asigna-
ción de caso y función temática correspondiente.
(7) a. vi → [TP vi [VP ]]
Aunque la posición postverbal se encuentra va-
b. el → [DP el] cía, en la pila tenemos un elemento que cumple
c. edificio → [NP edificio] los requisitos para ser interpretado con respec-
d. [DP el [NP edificio]] to al verbo. Entonces una cadena de categorías
e. [TP [DP ] vi [VP [DP el [NP edificio] vacías (“e”) coindexadas es creada entre la posi-
]]] ción de argumento (postverbal) y el pronombre
La operación “Merge” debe ser validada ya “who”. En segundo lugar, tenemos la creación de
sea según las propiedades léxicas, como los ras- una correferencia entre el auxiliar “did” y su po-
gos de selección, o según ciertas propiedades ge- sición de origen. En este caso se trata de la ma-
nerales (como por ejemplo los adverbios, las ad- nera de representar la inversión del sujeto en las
junciones y los paréntesis que pueden modificar interrogativas, fenómeno típico del inglés.
libremente las proyecciones).
Según el Cuadro 2, el verbo “ver” se combina 2.4. Ejemplo completo
con un sustantivo en posición postverbal, que es Consideremos el análisis de la oración “Ana
un objeto directo, mientras que en posición pre- vio el edificio” a fin de ilustrar los mecanismos
verbal, se combina con otro sustantivo, que es un descritos:
sujeto con el que debe verificar los rasgos de per-
sona y número (aunque en lenguas como el espa- Etapa 1 El analizador lee “Ana” y meta-
ñol, dicha posición puede estar vacía). Dado que proyecta la estructura [DP [NP Ana]].

41
Jorge Antonio Leoni de León, Sandra Schwab y Eric Wehrli

Etapa 2 El analizador lee “vio” y me- recursos morfosintácticos de F IPS (así como las
taproyecta una estructura de frase lenguas disponibles), aunados a un procesamien-
[TP vioi [VP ei ]]. to sintáctico de las colocaciones, lo que permi-
te recuperar estas unidades aún en circunstancias
Etapa 3 Una operación de “Merge” es
en que sus elementos constitutivos se encuentran
efectuada entre el TP y el DP,
morfológicamente modificados o mantienen re-
que será ubicado a la izquier-
laciones de distancia. Todas estas investigaciones
da de la proyección de tiempo:
están en progreso, aunque ya dieron lugar a algu-
[TP [DP [NP Ana]] vioi [VP ei ]].
nas publicaciones (ya mencionadas).
Etapa 4 El parser identifica el determinan- Las expresiones idiomáticas, a menudo con-
te “el” y proyecta la estructura [DP el]. sideradas como elementos estáticos, pueden pre-
Etapa 5 Una operación de “Merge” es sentar una morfosintaxis bastante rica (Leoni de
efectuada entre el sintagma TP de la León, 2008). Un buen ejemplo es la expresión
izquierda y el DP identificado; [DP el] idiomática “meter la pata”, corriente en el espa-
es agregado a la derecha del TP: ñol coloquial. Esta expresión se caracteriza por
[TP [DP [NP Ana]] vioi [VP ei [DP el]]]. presentar casi todas las opciones sintácticas posi-
bles para una expresión idiomática. Por ejemplo,
Etapa 6 El parser identifica el sustanti- el núcleo (verbal) de “meter la pata” puede ser
vo “edificio” y proyecta la estructura nominalizado (9a.) o bien su argumento interno
[NP edificio]. puede ser pronominalizado (9b.) en un contexto
Etapa 7 Una operación de “Merge” discursivo, operación que implica la adjunción de
es efectuada entre el sintagma un complemento:
DP derecho del TP, en el que (9) a. Metida de pata.
“edificio” es agregado como cons- b. La metió hasta el fondo.
tituyente derecho del DP “el”:
Estas operaciones son difícilmente tomadas
[TP [DP [NP Ana]] vioi [VP ei [DP el
en cuenta en los sistemas de extracción estadís-
[NP edificio]]]].
ticos, impresión reforzada por las relaciones de
La última etapa produce la estructura comple- concordancia entre el núcleo de una expresión
ta. adjetiva y un sustantivo. Por ejemplo, en la se-
cuencia “hecho polvo” es el participio el que ha-
3. F IPS y el reconocimiento de ce la concordancia de género y número, mientras
expresiones idiomáticas: una que el colocativo no sufre modificación alguna:
propuesta (10) a. Él estaba hecho polvo.
Dentro del marco de las tecnologías desarrolla- b. Ella estaba hecha polvo.
das en el LATL (2008), se cuentan varias in- No está de más agregar que la expresión “he-
vestigaciones sobre el procesamiento de las ex- cho polvo” proviene en realidad de la forma ver-
presiones idiomáticas y de las colocaciones. Por bal “hacer polvo”. Esto es una muestra de una
ejemplo, Nerima, Seretan, y Wehrli (2006) y Se- relación transcategorial que va de una forma ver-
retan (2008) utilizan un procedimiento híbrido bal a una forma adjetiva. De esta manera tene-
multilingüe, sintáctico-estadístico, para la extrac- mos dos fenómenos idiomáticos que presentan
ción y el reconocimiento de las colocaciones. Por relaciones de distancia ya sea entre sus elemen-
otra parte, Leoni de León (2008) ha trabajado en tos constitutivos, como en “meter la pata”, o que
una propuesta de representación léxico-sintáctica no sólo pueden manifestarse con categorías di-
orientada a reconocer y reproducir el funciona- ferentes (la forma verbal “hacer polvo” se con-
miento de las expresiones idiomáticas, desde una vierte en un adjetivo, “hecho polvo”), sino que
perspectiva más próxima a la lexicografía. Estas además pueden concordar en généro y número,
propuestas abordan las interfaces entre el léxico y por ejemplo. La arquitectura de F IPS permite re-
la sintaxis desde una perspectiva computacional. cuperar muchos de estos fenómenos.
En la misma línea, es interesante citar también En el caso de las pronominalizaciones clíti-
el sistema de asistencia terminológica TwicPen cas, como el ejemplo (9b.), la identificación de la
(Wehrli, 2006), que permite limitar el número de expresión como una instancia de “meter la pata”
traducciones entre dos pares de lenguas sobre la requiere el establecimiento de la relación entre el
base de un análisis lingüístico de un texto selec- pronombre clítico de objeto directo, “la”, y la po-
cionado para su traducción. TwicPen explota los sición de argumento, la cual estimamos ocupada

42
Análisis sintáctico profundo del español: un ejemplo del procesamiento de secuencias idiomáticas

por una categoría vacía coindexada con el clítico. cadena de coindexaciones que va de la catego-
La adjunción de un complemento circunstancial ría vacía en posición postverbal, “[DP ei ]” hasta el
(“hasta el fondo” en este caso) debe contar dentro sintagma determinante que contiene el sujeto “El
de la base de conocimientos idiomáticos, como lo récord de Claudia”, por otro lado, el análisis pro-
señala Leoni de León (2008). En lo que respecta fundo de F IPS S YN, identifica el sintagma prepo-
a la expresión en (10), el punto fundamental está sicional “de Claudia”, como un subconstituyente
en la necesidad de establecer una relación entre del sintagma determinante sujeto, “El récord”.
el participio y el elemento nominal al cual se re- (13) [TP [DP El [NP récord [PP de [DP
fiere, con independencia del sustantivo “polvo”. Claudia]]]]i ha [VP sido [VP roto
Las expresiones idiomáticas son relativamen- [DP ei ]]]]
te fáciles de identificar, cuando su realización es
lineal. Tal es el caso del ejemplo (11), para el Vocablo el
que F IPS produce el análisis en (12). Sabemos ID 
que la expresión “romper un récord” ha sido co- Lema el
rrectamente identificada por F IPS, debido a que Función SUBJ
F IPS T G indica el valor “” de la eti- Vocablo récord
queta “Colocación”, que es el número de identifi- ID 
cación único de esta expresión en F IPS B D (Cua- Lema récord
dro 6). Por otra parte, F IPS tampoco tiene dificul- Colocación −
tades para identificar dicha expresión, incluso si Vocablo roto
el artículo indefinido “un” es sustituido por el ar- ID 
tículo definido “el”; para esto ha bastado indicar Lema romper
en F IPS B D que la expresión necesita la presencia Colocación −
de un artículo. Función SUB:récord
(11) Él rompió un récord. Cuadro 7: Valores de una expresión pasiva
(12) [TP [DP Él] rompió [VP [DP un [NP
Dentro de los valores del Cuadro 7, encontra-
récord]]]]
mos “SUB:récord” para “roto”. Este valor indica
Vocablo rompió que el analizador reconoció el lema como suje-
ID  to de “romper”; además, este valor se encuentra
Lema romper también asociado a la forma pasiva del verbo, de
Colocación  manera que la información es fácilmente recu-
Vocablo un perable. Se trata de una información referida al
ID  sujeto gramatical de la oración.
Lema un Las posibilidades de F IPS para el tratamiento
Función OBJ de las expresiones idiomáticas son inmensas, es
Vocablo récord así como existe otra estrategia, (Leoni de León,
ID  2008) que consiste en la proposición de un for-
Lema récord malismo correlacional, llamado Tsool, que co-
Colocación  difica el comportamiento morfosintáctico de las
expresiones idiomáticas. Dicho formalismo es
Cuadro 6: Valores de una expresión transitiva reproducido computacionalmente en un sistema
(llamado Mulkin) que interactúa con F IPS para
Ahora bien, la capacidad de F IPS para reco- explotar los análisis sintácticos de este sistema,
nocer la expresión (11) no se ve alterada aunque a fin de poder conjugar los análisis con las in-
el objeto directo esté modificado por un sintagma formaciones fraseológicas almacenadas, y así re-
preposicional (“Él rompió el récord de Claudia”) conocer las expresiones idiomáticas. Tanto Tsool
o, incluso, si, además, la expresión está realizada como Mulkin se encuentran en una etapa tempra-
como una oración pasiva, “El récord de Claudia na de desarrollo, y, como ya lo señalamos oportu-
ha sido roto”. De esta forma, como lo muestran namente, ambos se orientan hacia una represen-
tanto el análisis en (13), como los resultados de tación más cercana de la lexicografía. Dentro de
F IPS T G (Cuadro 7), F IPS no tiene ninguna difi- los elementos considerados podemos citar las re-
cultad para reconocer una expresión, aunque se laciones de rima, las posibilidades de conmuta-
hayan establecido relaciones de distancia. Esto ción y de permutación de las expresiones. Una
se consigue, por un lado, con la creación de una de las aplicaciones previstas para este sistema es

43
Jorge Antonio Leoni de León, Sandra Schwab y Eric Wehrli

la filtración de secuencias luego de una operación LATL. 2008. Laboratoire d’Analyse et de Tech-
de extracción a partir de corpus de gran tamaño. nologie du Langage. Página web. [Dirección
electrónica : http://www.latl.unige.ch/ ; Visi-
4. Conclusión tada el: 28 de abril de 2008].
F IPS es un analizador sintáctico capaz de identi- Leoni de León, Jorge Antonio. 2008. Modèle
ficar las relaciones profundas entre los constitu- d’analyse lexico-syntaxique des locutions es-
yentes de la oración. La arquitectura multilingüe pagnoles. Tesis en lingüística, Université de
de F IPS, basada en una serie de módulos espe- Genève, Ginebra, Suiza, Mayo.
cializados en conjuntos de fenómenos sintácticos
Leoni de León, Jorge Antonio y Athina Michou.
por familias o grupos de lenguas, facilita la inclu-
2006. Traitement des clitiques dans un envi-
sión de nuevas lenguas en el sistema, maximizan-
ronement multilingue. En Piet Mertens Cé-
do la utilización del código de la aplicación. Las
drick Fairon Anne Dister, y Patrick Watrin,
propiedades de F IPS se muestran particularmen-
editores, Verbum ex machina : Actes de la 13e
te útiles en el reconocimiento de secuencias idio-
conférence sur le traitement automatique des
máticas, puesto que estas no son necesariamente
langues naturelles (TALN 2006), volumen 1
estáticas, sino que pueden ser objeto de modifi-
de Cahiers du Cantal 2.1, páginas 541–550,
caciones, por las cuales sus constituyentes no se
Louvain-la-Neuve, Belgique, 10-13 avril. As-
realizan linealmente, sino de manera discontinua
sociation pour le Traitement Automatique des
(relaciones de distancia).
Langues, UCL Presses Universitaires de Lou-
vain.
Bibliografía
Atserias, Jordi, Bernardino Casas, Elisabet Co- LinGO Lab, CSLI. 2008. CSLI Linguistic
melles, Meritxell González, Lluís Padró, y Grammars Online. Página web. [URL:
Muntsa Padró. 2006. Freeling 1.3: Syntac- http://lingo.stanford.edu/ ; Visitada el 2 de
tic and semantic services in an open-source mayo de 2008].
nlp library. En Proceedings of the fifth inter- Nerima, Luka, Violeta Seretan, y Éric Wehrli.
national conference on Language Resources 2006. Le problème des collocations en TAL.
and Evaluation (LREC 2006), ELRA., Géno- Nouveaux cahiers de linguistique française,
va, Italia, Mayo. (27):95–115.
Bick, Eckhard. 2008. A constraint Seretan, Violeta. 2008. Collocation Extraction
grammar parser for spanish. Pá- in Syntactic Parsing. Ph.D. tesis, Université
gina web. [Dirección electrónica: de Genève, Juin.
http://beta.visl.sdu.dk/pdf/TIL2006.pdf ; Wehrli, Éric. 2004. Un modèle multilingue
Visitada el 2 de mayo de 2008]. d’analyse syntaxique. En Antoine Auchlin
Bresnan, J. 2001. Lexical Functional Syntax. Marcel burger Laurent Filliettaz Anne Gro-
Blackwell, Oxford. bet Jacques Moeschler Laurent Perrin, y Co-
rinne Rossari et Louis de Saussure, editores,
Chomsky, Noam. 1995. The Minimalist Pro- Structures et discours : Melanges offerts à
gram. MIT Press, Cambridge. Eddy Roulet, Langue et pratiques discursives.
Chomsky, Noam. 2004. Beyond Explanatory Éditions Nota bene, Canada, páginas 311–
Adequacy. En A. Belletti, editor, The Car- 332.
tography of Syntactic Structures. Oxford Uni- Wehrli, Éric. 2006. Twicpen: hand-held scan-
versity Press, Oxford. ner and translation software for non-native
Culicover, Peter y Ray Jackendoff. 2005. Sim- readers. En Proceedings of the COLING/ACL
pler Syntax. Oxford University Press, Ox- on Interactive presentation sessions, páginas
ford. 61–64, Morristown, NJ, USA. Association for
Computational Linguistics.
La Serna, Nora. 2004. Un analizador sintácti-
Wehrli, Éric. 2007. Fips, a “Deep” Linguistic
co eficiente para gramáticas del español. Rev.
Multilingual Parser. En ACL 2007 Workshop
investig. sist. inform., 1(1):19–26.
on Deep Linguistic Processing, páginas 120–
Laenzlinger, Christopher y Éric Wehrli. 1991. 127, Prague, Czech Republic, Juin. Associa-
FIPS : Un analyseur interactif pour le fra- tion for Computational Linguistics.
nçais. TA Informations, 32(2):35–49.

44

View publication stats

También podría gustarte