Está en la página 1de 8

Análisis categorial

T
Tema 2.
2 Tercera
T parte.
1. Clases de palabras: las categorías
Análisis categorial gramaticales.
q
2. Etiquetado categorial
g ((PoS-tagging).
gg g)
Ingeniería del Lenguaje Natural 3. Técnicas de desambiguación categorial.
4 El análisis categorial en aplicaciones de
4.
Departamento de Lenguajes y Sistemas Informáticos
Universidad de Alicante PLN.
http://www dlsi ua es/asignaturas/iln
http://www.dlsi.ua.es/asignaturas/iln

ILN 2

Categorías gramaticales Categorías gramaticales

• Clases de palabras, categoría gramatical,


• Clases abiertas: • Clases cerradas:
categorías léxicas, part of speech….
– Nombre – Preposición
• Tipos de palabras según su categoría
gramatical: nombre
nombre, verbo
verbo, etc
etc. – Verbo – Determinante
– Palabras de la misma categoría comparten – Adjetivo – Conjunción
contextos de aparición similares
similares. – Adverbio – Numerales
• Diferentes clasificaciones:
– EAGLES Æ 12
– PennTreeBank Æ 45

ILN 3 ILN 4
Categorías gramaticales Categorías gramaticales

• EAGLES: • EAGLES:

ILN 5 ILN 6

Categorías gramaticales Categorías gramaticales

• EAGLES: • Corpus
p anotados con categoría
g
gramatical:
– Brown corpus (inglés)
– PennTreeBank (inglés) Æ
– CLIC-TALP
CLIC TALP (español
( ñ l y catalán)
lá )
–…

ILN 7 ILN 8
Etiquetado categorial

• PoS tagging.
• Proceso de asignar automáticamente la
categoría gramatical correspondiente a las
palabras
l b y tokens
t k d un ttexto.
de t
– Entrada Æ texto plano + lista de etiquetas
S lid Æ palabra
– Salida l b – (lema)
(l ) – etiqueta
ti t

Eti
Etiqueta
t = categoría
t í + información
i f f ló i .
ió morfológica
• Conjunto de etiquetas predefinido.
ILN 9 ILN 10

Ejemplo (MACO+ - Freeling) Ambigüedad categorial


su su DP3CS0
Gobierno Gobierno NP00000
podría poder VMIC3S0
rechazar rechazar VMN0000
la el DA0FS0
ayuda d ayuda
d NCFS000
• Problema: ambigüedad
g categorial.
g
internacional internacional AQ0CS0
que que CS
– Una palabra puede pertenecer a más de una
recibe recibir VMIP3S0
sii sii CS
categoría gramatical.
ésta este PD0FS000
se se P0000000 – En cada categoría gramatical, puede tener
condiciona condicionar VMIP3S0
a a SPS00 diferentes significados
significados.
que que CS
en en SPS00 • Ej. WordNet
el el DA0MS0
paísí paísí NCMS000
haya haber VASP3S0
" " Fe
convulsiones convulsión NCFP000
líti
políticas político
líti AQ0FP0
" " Fe
. . Fp ILN 11 ILN 12
Ambigüedad categorial Ambigüedad categorial
su su DP3CS0
Gobierno Gobierno NP00000
podría poder VMIC1S0 poder VMIC3S0
rechazar rechazar VMN0000
la el DA0FS0 la NCMS000 él PP3FSA00
ayuda d ayuda d NCFS000 ayudad NCMS000 ayudar
d VMIP3S0 ayudar
d VMM02S0
• Tipos
p de ambigüedad
g categorial.
g
internacional internacional AQ0CS0 internacional NCCS000 internacional NCFS000
que que CS que PR0CN000
– Ambigüedad intracategorial:
recibe recibir VMIP3S0 recibir VMM02S0
sii sii CS sii NCMS000 sii RG – Ambigüedad intercategorial:
ésta este PD0FS000
se se P0000000 él P0300000 él PP3CN000
condiciona condicionar VMIP3S0 condicionar VMM02S0
a a NCFS000 a SPS00
que que CS que PR0CN000
en en SPS00
el el DA0MS0
paísí paísí NCMS000
haya haber VAM03S0 haber VASP1S0 haber VASP3S0 haya NCFS000
" " Fe
convulsiones convulsionar VMSP2S0 convulsión NCFP000
líti
políticas política
líti NCFP000 político
líti AQ0FP0
" " Fe
. . Fp ILN 13 ILN 14

Ambigüedad categorial Ambigüedad categorial

• Ambigüedad
g intracategorial:
g • Ambigüedad
g intracategorial:
g
– Un mismo token sólo pertenece a una • Ambigüedad intercategorial:
categoría, pero dentro de ésta puede tener – Un mismo token puede pertenecer a más de
diferentes rasgos. una categoría.
– Ejemplo: “cantamos”
cantamos “diría”
diría .
• Ambigüedad intercategorial:

ILN 15 ILN 16
Ambigüedad categorial Técnicas de desambiguación categorial

• Casos más frecuentes de ambigüedad • Postura común: desambiguación


g p
por
i t
intercategorial:
t i l
contexto (local).
– Determinante-pronombre: “algunas”
– N b propio
Nombre i – Nombre
N b común: ú “generalísimo”
“ lí i ” – Palabras anteriores y posteriores en las que
– Nombre – verbo: “cuenta” aparece la palabra ambigua.
– Adjetivo calificativo – Determinante
– ...

ILN 17 ILN 18

Complejidad de la desambiguación Técnicas de desambiguación categorial

• La complejidad de la desambiguación • Técnicas básicas:


categorial
t i lddepende
d ddell contexto
t t en que
aparece la palabra 1. Basadas en reglas (conocimiento).
–N
No de
d lla cantidad
tid d d
de categorías
t í a llas que puede
d 2 Técnicas estocásticas.
2. estocásticas
pertenecer. 3. Técnicas híbridas.
• Las palabras de mayor uso son las más
ambiguas y las más difíciles de desambiguar.

ILN 19 ILN 20
Basado en reglas Basado en reglas

• Modelo racionalista
• ENGTWOL (Voutilainen, 1995)):
• Arquitectura
A it t básica:
bá i
– Inglés.
1. Diccionarios: todas las palabras agrupadas
– Palabra + lema + categoría + morfología
morfología.
por categorías gramaticales.
– 110 restricciones para casos incorrectos.
j
2. Conjunto de reglas
g de desambiguación:
g
• R
Reglas
l que iindican
di llo iincorrecto, b
basado
d en
– Creación manual. Gramáticas de restricciones (Constraint
Grammar Karlsson 1995)
Grammar, 1995).

ILN 21 ILN 22

Analizadores estocásticos Analizadores estocásticos


• Modelo empiricista
• Aprendizaje
p j appartir de un corpus
p yya • Modelos
ode os Ocu
Ocultos
os de Markov
a o ((HMM))
anotado con categorías gramaticales. – Aproximación clásica
• Representación
p del contexto • Otras aproximaciones:
p
– Palabra – etiqueta. – Trigramas: TnT parser (T. Brants)
– Bigramas y trigramas – Máxima entropía
– Técnicas de probabilidad: – Áb l d
Árboles de d
decisión
i ió
– Support Vector Machines
P(p|e) = P(p|e) * P(e|e
P(e|e_anterior)
anterior) – etc.
etc

ILN 23 ILN 24
Analizadores Híbridos Analizadores Híbridos

• Intentan combinar los aspectos positivos de • Transformation-based tagging (TBT) (Brill


cada aproximación.
p 1995)
– Inglés
• Aproximaciones básicas:
– Basado en un proceso de refinamiento y
1 Combinación de reglas creadas a mano con reglas
1. transformación de etiquetas
etiquetas.
extraídas automáticamente. – Consta de reglas que especifican etiquetas
t acc ó auto
2. Extracción automática
át ca de reglas,
eg as, a
análisis
á s s de e
errores
o es determinadas (manuales)
y corrección manual, y adición manual de nuevas • Basado en reglas
reglas. – Aprendizaje automático de nuevas reglas
• Estocástico.

ILN 25 ILN 26

Analizadores Híbridos Un último problema...


problema
• ¿Cómo analizar palabras que no están en los
• MACO+ y RELAX (Márquez 2000) (Freeling)
diccionarios?
– Español
Español, catalán e inglés
inglés. 1. Considerar la palabra nueva como ambigua: puede
– Combina restricciones lingüísticas (manuales) con pertenecer a todas la categorías gramaticales
diferentes técnicas de aprendizaje automático: – Luego aplicar reglas de desambiguación
• bigramas, 2. Según la probabilidad de cada categoría para
• trigramas,
g p p
aceptar palabras nuevas: nombre > verbo > adverbio
• árboles de decisión. / adjetivo >... > preposición / conjunción.
3. Con reglas manuales a partir de los morfemas
(s fijos prefijos
(sufijos, prefijos, etc
etc.):
)
• “-mente”Æadverbio; “-es”ÆNombre plural; “-ar” Æ verbo...
• Hayy ambigüedad:
g “solar/N”.
ILN 27 ILN 28
Análisis categorial en
aplicaciones de PLN
• Aporta mucha información sobre cada palabra
y su contexto local
– Permite un tratamiento más profundo que la simple
palabra (token-lemma).
• Necesario en todas aquellas aplicaciones que
necesiten un tratamiento profundo de la lengua:
– RI y EI: lematizador + análisis categorial: necesario
saber tipo de palabra de la consulta
consulta.
– WSD:
• Desambiguación
g del sentido a p
partir de la categoría
g g
gramatical;
• Información del contexto para desambiguar la semántica
– QA: Sobre qué se pregunta (nombre, verbo, etc.) y
su sentido.
ILN 29

También podría gustarte