Está en la página 1de 16

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/39438446

Análisis sintáctico

Article · January 2008


Source: OAI

CITATIONS READS
0 517

2 authors:

Borja Navarro-Colorado Manuel Palomar Sanz


University of Alicante University of Alicante
68 PUBLICATIONS   415 CITATIONS    171 PUBLICATIONS   1,555 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

SIIA(PROMETEU/2018/089): TECNOLOGÍAS DEL LENGUAJE HUMANO PARA UNA SOCIEDAD INCLUSIVA IGUALITARIA Y ACCESIBLE View project

REDES: Reconocimiento de Entidades Digitales: Enriquecimiento y Seguimiento View project

All content following this page was uploaded by Manuel Palomar Sanz on 22 April 2014.

The user has requested enhancement of the downloaded file.


Departamento de Lenguajes y
Sistemas Informáticos
Índice

1. Introducción.
Tema 3 2. Componentes de la sintaxis.
Análisis Sintáctico 3. Modelos de representación
computacional.
Ingeniería
g del Lenguaje
g j Natural
4 Algoritmos
4. Al it d
de análisis
áli i sintáctico.
i tá ti
Curso 2007-2008
http://www dlsi ua es/assignatures/iln/
http://www.dlsi.ua.es/assignatures/iln/

ILN 2

¿Dónde estamos? ¿Dónde estamos?

• El análisis sintáctico es el esqueleto de • Dos problemas fundamentales:


la oraciones/textos.
oraciones/textos
• Con el análisis sintáctico conocemos:
1 cómo representar formalmente la
1.
– unidades mínimas de la oración: palabras; información sintáctica y gramatical,
– tipo de palabras: categoría gramatical; 2. d ll algoritmos
2 desarrollar l it y estrategias
t t i de d
– cómo se combinan las palabras para formar análisis para especificar automáticamente la
oraciones y textos
textos. estr ct ra sintáctica de oraciones y te
estructura textos.
tos

ILN 3 ILN 4
¿Dónde estamos? Índice

• Nivel fonológico
g Æ sonido 1. Introducción.
• Nivel morfo-léxico Æ palabra 2. Componentes de la sintaxis
• i tá ti Æ sintagma
Ni l sintáctico
Nivel i t Niveles de
Representación 3 Modelos
3. M d l d de representación
t ió
Lingüística
• Nivel semántico Æ significado*
g computacional
• Nivel pragmático Æ texto 4. Algoritmos de análisis sintáctico

ILN 5 ILN 6

Valor de la sintaxis Valor de la sintaxis

...palabras...
p • Orden de sintagmas
g

A t i quemaba
Antonio b corría
í porque Casa
C se a A t i corría
Antonio í a casa porque se quemaba
b

ILN 7 ILN 8
Valor de la sintaxis Valor de la sintaxis

• Relaciones entre sintagmas


g • Necesidad de Análisis Sintáctico en PLN:
Para establecer el sentido de una oración
“Mi h
hermano se comió
ió lla cena d
dell perro”” es necesario no sólo saber el sentido de
cada palabra, sino también la relación
j á i ((sintáctica)
jerárquica i tá ti ) que existe
i t entre
t llas
“El perro se comió la cena de mi hermano” palabras que forman la oración.

ILN 9 ILN 10

Propiedades de la sintaxis: Estructura general de la sintaxis


‰ Los constituyentes sintácticos están
formados por componentes más simples que ‰ Jerarquía de constituyentes:
lo determinan. oración
ió compleja
l j
‰ Ejemplo:
j p SP = Preposición
p + SN oración
(“De tu hermano”) sintagma complejo
‰ Recursividad: un componente
p p
puede estar Recursividad
sintagma
formado por componentes de su misma Palabra
g
categoría. (+ Categoría Gramatical)

‰ Ejemplo: SN = Nombre + Preposición + SN raíz/lema más


((“coche de caballos”)) afijos

ILN 11 ILN 12
Componentes de la sintaxis Componentes de la sintaxis
‰Componentes principales: ‰ Sintagma nominal:
Sintagmas
g y Oraciones
Palabra Æ Categoría Gramatical Æ Sintagma Æ Oración ‰ Para
P designar
d i objetos
bj t ((realesl o iimaginarios),
i i )
p de sintagma:
‰Tipos g conceptos, lugares, etc.
– Sintagma Nominal*: Núcleo nombre ‰Estructura General:
– Sintagma Adjetivo: Núcleo adjetivo Determinante + Núcleo* + Complementos p
– Sintagma Preposicional: Preposición + SN
Núcleo: Nombre o pronombre.
– Sintagma Adverbial: Núcleo adverbio
– Sintagma Verbal*: Núcleo verbal (oración) Determinante: Artículo,
A tí l Det.
D t Definido/indefinido,
D fi id /i d fi id N Numeral,
l etc.
t

– (...) Complementos: SP, SAdj, Or. Relativo, participio, etc.


* Obli
Obligatorio
t i
ILN 13 ILN 14

Componentes de la sintaxis sn

espec.ms grup.nom.ms F

• Sintagma nominal. Ejemplos di0ms0 ncms000 S.NF.P ,

SN SN SN SN un término aq0msp sp sp

tomado prep sn prep sn


DET N SP
N DET N DET N SAdj
sps00 espec.mp grup.nom.mp sps00 grup.nom.ms
Prep SN

de da0mp0 ncmp000 s.a.mp de ncms000 s.a.ms


Coche El coche El coche rojo El coche de mi hermano
los semiconductores aq0mp0 modo sadv aq0cs0

ILN 15 ILN 16
metálicos rg libre
Componentes de la sintaxis Unidad sintagmática

‰ Sintagma verbal:
‰ Para designar acciones
acciones, procesos
procesos, estados
estados, eventos
eventos,
• “El doce de septiembre volaré a Londres”
etc. • *“El doce volaré a Londres de septiembre ”
‰Estructura General:
Núcleo* + Compl. Argumentales + Compl. Adjuntos • El volaré doce de septiembre a Londres”
*“El Londres
Núcleo: Verbo (simple o complejo). • *“El doce de volaré a septiembre Londres”
Complemento Argumentales: (exigidos por el verbo) (Juravsky & Martin 2000)
SN, SP, SAdj., SAdv., SV (oración subordinada), etc.
C
Complementos
l t Adjuntos:
Adj t ( t ti
(optativos)
)
SN, SP, SAdj., SAdv., SV (oración subordinada), etc.
* Obligatorio

ILN 17 ILN 18

Relaciones gramaticales y
Problema: ambigüedad estructural
dependencias
‰ Dependencias entre sintagmas (Funciones sintácticas): ‰ Ambigüedad por ligamiento del Sintagma
‰ Cada sintagma
g asume una función sintáctica dentro de la oración,,
¾ Según su relación con el verbo (núcleo oracional)
Preposicional (pp-attachment)
‰ Principales funciones:
¾ S
Sujeto
¾ Complemento u Objeto Directo “La iglesia habla del problema del mal en el mundo”
¾ p
Complemento u Objeto
j Indirecto Complementos
p argumentales
g
¾ Complemento u Objeto Regido
S( Sn (ls iglesia) sv (habla sp (del problema (sp (del mal sp (en el
¾ Complemento predicativo mundo)))))
¾ Complemento circunstancial
Complementos adjuntos S( Sn (ls iglesia) sv (habla sp (del problema (sp (del mal)))) sp (en el
¾ Etc.
mundo))
Æ ¿Solución?: contexto,
contexto información semántica
semántica, ...
ILN 19 ILN 20
Índice Modelos de representación

‰ ¿Cómo representar computacionalmente el


1. Introducción. conocimiento lingüístico?
2. Componentes de la sintaxis – Redes de transición:
3 Modelos
3. M d l d de representación
t ió • Describen formalmente procesos de
computacional análisis/generación de oraciones de una lengua
natural.
natural
4. Algoritmos de análisis sintáctico – Gramáticas formales:
• R
Reglas
l
• Definen formalmente una lengua natural.

ILN 21 ILN 22

Redes de transición Redes de transición


• Aplicación de las nociones matemáticas • Autómata de Estados Finitos = (Q, S, D,
sobre la teoría de grafos y autómatas de q0 F)
q0,
estados finitos. – Q: conjunto de estados
• Consiste en un conjunto de nodos – Σ: alfabeto (categorías léxicas)
conectados entre sí mediante arcos:
– ∆: Función de transición qque hace corresponder
p
– Cada nodo representa un estado pares estado-símbolos a conjuntos de estados
– Los arcos muestran las transiciones de un ((Q x S -> P ((Q))
))
estado a otro
otro.
– q0: estado inicial
– F: conjunto de estados finales
ILN 23 ILN 24
Redes de transición Redes de transición

• Aceptación: si hay sucesión de arcos


que llevan desde q0 hasta alguno final
consumiendo toda la cadena.
– Cada i ió se acepta sii lla palabra
C d transición l b d de lla
cadena de entrada tiene una categoría igual
a la
l etiqueta
ti t del
d l arco.
– El tránsito de un estado a otro hace que
paralelamente se consuma una palabra en
la cadena a analizar.
ILN 25 ILN 26

Redes de transición Red de transición recursiva


• Las Redes de Transición simple no son lo
bastante potentes para describir lenguas
naturales:
– Redes de Transición Recursiva (RTN):
• Introducen recursividad: Las etiquetas de
los arcos pueden ser también otras redes
redes.
– Redes de Transición Aumentada (ATN):
• Cada arco puede incluir rasgos y valores de
esos rasgos (como variables).
ILN 27 ILN 28
Modelos de representación Gramáticas formales
• Gramáticas Independientes del Contexto (Context Free
• ¿Cómo representar computacionalmente el Grammars) o Gramáticas de Estructura Sintagmática:
conocimiento lingüístico? formalismo que permite modelar los constituyentes
– Redes de transición: sintácticos.
• Describe formalmente p
procesos de análisis/generación
g de • Ventajas (Moreno et al 1999 Jurafsky & Martin 2000):
al. 1999,
oraciones de una lengua natural.
– Representación: Lo suficientemente potentes como para
– Gramáticas formales: representar relaciones sintácticas complejas entre las palabras de
• Define formalmente una lengua natural. una oración y muchas estructuras de las lenguas naturales.
• Reglas – Análisis: Lo suficientemente restrictivas como para desarrollar
algoritmos de análisis eficientes.

ILN 29 ILN 30

Gramáticas formales: CFG Gramáticas formales: CFG


• G = (NT, T, S, P)
• G = (NT, T, S, P)
– NT: {{no_terminales},Æ
_ } Categorías
g g
gramaticales.
– NT:
NT {no_terminales},
{ t i l } – T: {terminales}, Æ Unidades léxicas.
– T: {terminales}, – S: Símbolo inicial Æ Oración.
– S: Símbolo inicial – P: Reglas de producción A Æ w:
– P: Reglas de producción A Æ w: • A ∈ NT
• A ∈ NT • w ∈ (NT U T)*
• w ∈ (NT U T)*

ILN 31 ILN 32
Gramáticas formales: CFG Gramáticas formales: CFG
• Ejemplo: • Limitaciones:
Li it i
– No permiten tratamiento de la concordancia de
S
género número y/o persona.
género, persona
NT ={S,NP,VP,nprop,n,v,det}, ?“Los niña corrían por la parque”
NP VP
T ={Pepe,manzamcome,una}, – No permite el tratamiento de constituyentes
P: discontinuos.
discontinuos
nprop v NP
“¿Qué películas hay de aventuras?”
1) S Æ NP VP
– No contiene diferenciaciones semánticas.
2) NP Æ nprop P
Pepe come dt
det n
“El pirómano quemó el bosque”
3) NP Æ det n una manzana vs.
4) VP Æ v “El
El fuego quemó el bosque”
bosque
5) VP Æ v NP

ILN 33 ILN 34

Gramáticas formales: CFG La Unificación


• Para solventar estas limitaciones, las CFG se • Definición:
ampliaron con diferentes formalismos. – Operación
p matemática q que combina dos estructuras
• El más desarrollado: uso de estructuras de rasgos junto de rasgos en una sola, siempre que la información
al formalismo de la unificación. que contengan sea consistente.
• Así se inició una familia de gramáticas caracterizadas por – La información sintáctica y semántica se almacena en
basarse en este formalismo: pares atributo-valor.
• GPSG y HPSG • U
Un valor
l se asigna
i a un d
determinado
t i d atributo
t ib t a ttravés
é dde lla
unificación.
• LFG
• PATR-II
PATR II
• DCG
• etc.
ILN 35 ILN 36
Estructura de rasgos y
La Unificación
unificación
• Ejemplo: unificación ER A1 y A2 = A3 • Añadido a las CFG, se obtienen gramáticas muy
A1 A2 potentes ya que unen las ventajas de las CFG
Categoría = nombre Categoría = nombre con la potencia del formalismo de la unificación.
Concordancia = Género = Concordancia = Género = femenino • Caso: Gramáticas de Cláusulas Definidas
Número = singular Número = singular (DCG)
A3
Categoría = nombre
Asignación
Concordancia = Género = femenino de valor
“femenino”
Número = singular al atributo
“Género”

ILN 37 ILN 38

Gramática de Cláusulas Gramática de Cláusulas


Definidas (DCG) Definidas (DCG)
• Descritas por F. Pereira y D.H. Warren (Pereira • Extensión de las CFG:
1980) – Expresan dependencias del contexto.
• Contienen todas las propiedades de las CFG: – Permiten incluir condiciones extra en las reglas de la
– Representan de manera clara y modular la estructura gramática (A --> b ):
recursiva de las oraciones utilizando la recursividad • A ∈ NT, y b ∈ (T U NT )* U {llamadas a
– Eficientes métodos de análisis. procedimientos}
• Incorporan el formalismo de la unificación f h (D M) Æ mes(M),
• fecha(D,M) (M) [D],
[D] {{entero(D),
t (D) 0<D0<D, D<32}
D<32}.
– Aumentan los símbolos no terminales con nuevos
argumentos:
• sn (Numero, Genero) --> n(Numero, Genero).

ILN 39 ILN 40
Gramática de Cláusulas DCG: tratamiento de la
Definidas (DCG) concordancia
• Ejemplo: • Tratamiento de la concordancia mediante
s --> np, vp. % Símbolos no terminales unificación:
np --> det,
d t n.
vp --> v, np.
– Gramática: sn Æ det, n
det --> [el]. % Símbolos terminales. sn ((sn(Det,N)),G,N,_) Æ
det --> [las]. Diccionario det ((det(Det)),G,N,_,),
det --> [un].
n ((n(N),G,N,_)).
n --> [perro]
[perro].
n --> [hueso]. – Léxico:
n --> [orejas]. det (det(el),masc,sing,_) --> [el].
v --> [comio].
n (n(parque),masc,sing,_) --> [parque].
v --> [movía].

ILN 41 ILN 42

DCG: tratamiento de la
concordancia Índice
• Tratamiento de la concordancia mediante
unificación: 1. Introducción.
– Gramática: sn Æ det, n G = masc 2. Componentes de la sintaxis
sn ((sn(Det,N)),G,N,_) Æ
N = sing 3 Modelos
3. M d l d de representación
t ió
det ((det(Det)),G,N,_,),
n ((n(N),G,N,_)). computacional
– Léxico: 4. Algoritmos de análisis sintáctico
det (det(el),masc,sing,_) --> [el].
n (n(parque),masc,sing,_) --> [parque].

ILN 43 ILN 44
Análisis sintáctico Análisis sintáctico
• Uso de la información lingüística en el • Tipos:
análisis sintáctico de oraciones. – Total o profundo: determina si una oración es
• Finalidad: correcta con relación a las reglas sintácticas
establecidas.
establecidas
– Asignar
A i una estructura
t t sintáctica
i tá ti a una
oración. – Parcial (chunk): sólo representa determinados
constituyentes no la oración completa (Abney
constituyentes,
1997).
• Ejemplo:
j p localizar sólo SN,, SP y SV.
• Siempre da una salida
j p
• Mejor para tareas de RI, QA, etc.
ILN 45 ILN 46

Estrategias de análisis Estrategias de análisis


• Paralelo vs. secuencial: • Paralelo vs. secuencial:
– Si el análisis es en paralelo,
paralelo entonces devuelve todas
las interpretaciones posibles simultáneamente.
• Descendente vs. ascendente.
– Un analizador q j en forma secuencial
que trabaje
devolverá un análisis tan pronto como lo encuentre,
dando por terminado el proceso.

• Descendente
esce de te vs.
s asce
ascendente.
de te

ILN 47 ILN 48
Estrategias de análisis Análisis descendente (I)
• Paralelo vs. secuencial: • Top-down.
• Comienza por la parte superior o símbolo
• Descendente vs. ascendente.
inicial.
– Top-down
T d
– Bottom-up • Finaliza cuando consume toda la cadena
objeto del análisis
análisis.
p estrategia:
• Principal g en pprofundidad y de
izquierda a derecha

ILN 49 ILN 50

Análisis descendente (II) Análisis ascendente (I)


• Secuencia de derivación:
El ingeniero conectó la impresora . S
• Bottom-up
p
NP VP

Det N VP • Inicio: las palabras de la cadena de


el N VP entrada,
entrada
el ingeniero VP

ell ingeniero
i i V NP
– se unen formando constituyentes
y más
el ingeniero conectó NP
complejos hasta completar la oración.
ell ingeniero
i i conectó
tó Det
D tN

el ingeniero conectó la N

el ingeniero conectó la impresora

ILN 51 ILN 52
Análisis ascendente (II) Análisis ascendente (III)
• Secuencia de derivación:
• Algoritmo “cambio – reduce”:
El ingeniero conectó la impresora . 1. Det ingeniero conectó la impresora

2. Det N conectó la impresora


– Shift
Shift-Reduce
Reduce
3. Det N V la impresora
– Utiliza una pila donde almacena la porción de texto
que yya ha sido analizada.
q
3. Det N V Det impresora
– El análisis se realiza mediante dos operaciones:
5. Det N V Det N
• “shift”: introduce un elemento de la oración en la pila
6. NP V Det N • “reduce”: utiliza la regla de la gramática para combinar dos
7. NP V NP
símbolos (terminal o no terminal) en un simbolo superior,
hasta llegar al símbolo inicial “S”
S.
8. NP VP

9. S

ILN 53 ILN 54

Ventajas e inconvenientes (I) Ventajas e inconvenientes (II)

• En un análisis ascendente el análisis • Ejemplo:


parcial se construirá sólo una vez, – El perro corre por el jardín
– mientras que el análisis descendente puede • (1) NP → Det, N, Adj
acabar re-expandiendo muchas veces un símbolo • (2) NP → Det, Adj, N
dado, comenzando en la misma palabra si ese • (3) NP → Det,N
símbolo aparece en contextos diferentes. – La estrategia descendente, analiza que la palabra
"el" es un determinante tres veces, una por cada
regla.

ILN 55 ILN 56
Ventajas e inconvenientes (III) Ventajas e inconvenientes (IV)
View publication stats

• Recursividad a izquierdas: La estrategia


• Las estrategia descendente son más descendente no ppuede manejar
j reglas
g de la forma:
predictivas, ya que están dirigidos por las
propias reglas gramaticales. NP → NP conj NP
– La estrategia ascendente, sin embargo, considera
todas las posibles categorías de las palabras. – Un gramática tiene el problema de la recursividad
a izquierdas si continen una categoría no terminal
que tiene una derivación que se incluye a sí
misma.
misma
– “Problema de la coordinación”
ILN 57 ILN 58

Análisis sintáctico probabilístico

• Basados en técnicas probabilísticas (no en


gramáticas creadas manualmente)
manualmente).
• Aprenden a partir de un corpus etiquetado.
• Ejemplos:
– Ratnaparkhi (1994): Modelos de Máxima Entropía.
• Aprendizaje a partir de rasgos contextuales.
– Charniak (1996): Treebanks grammars.
• Extracción
E t ió dde llos á
árboles
b l d de d
derivación
i ió dde un corpus.

ILN 59

También podría gustarte