Está en la página 1de 30

Índice

Tema 1
Introducción al Procesamiento 1. El lenguaje, las lenguas y su procesamiento
automático.
automático
del Lenguaje Natural 2. Aproximación histórica.
3. F d
Fundamentost fil
filosóficos.
ófi
Ingeniería del Lenguaje Natural 4. Módulos lingüísticos.
Departamento de Lenguajes y Sistemas Informáticos 5. A it t
Arquitectura generall de
d un sistema
i t de
d PLN.
PLN
Universidad de Alicante
http://www.dlsi.ua.es/asignaturas/iln
6. El problema de la ambigüedad.
7. Aplicaciones.
li i
8. Fuentes de información actuales.

El lenguaje Diversidad lingüística


„ El lenguaje es uno de los aspectos 1. “La razón de la sinrazón que a mi razón se face…”
fundamentales del comportamiento humano. 2. “Es un derecho de los ciudadanos el no presentar documentos
exigidos por las normas aplicables al procedimiento de que se
„ Principal vehículo de comunicación. trate o q
que y
ya se encuentren en ppoder de la administración
„ Socialización. actuante”
„ Razonamiento. 3. “Los hoteles cierran el mejor agosto en ocupación desde el
2000
2000”
„ Escrito: transmisión el conocimiento de una 4. “Introducir primeramente la parrilla por la bandeja 1 hasta la
generación a otra. posición de la figura”
„ Lenguaje y lenguas naturales 5. “La excitación de unidades corticales simples depende la
orientación del estímulo en una parte específica del campo
visual
visual”
6. “ok tkiero bs”.
Diversidad lingüística Diversidad lingüística
„ Actualmente existen más de 7000 lenguas. „ Constante evolución:
„ Muchas de ellas en peligro de extinción. „ Pequeñas variaciones llevan a grandes cambios.
„ Cada una es reflejo de una sociedad inteligente y „ “patético’’, “álgido”, etc.
ú
única en síí misma, con una historia propia. „ Introducción
ó de novedades continuamente:
„ Construcción gramatical y semántica específica. „ “Chatear”.
„ Reflejo de su categorización
ó cognitiva de la realidad y el „ C
Constante influencia
i fl i de
d unas sobre
b otras
mundo.
„ “shoping center”.

Sociedad de la información Sociedad de la información


„ Cantidad ingente de información disponible „ Cada día el ser humano genera grandes cantidades de
información mediante las lenguas naturales.
que el ser humano debe gestionar. „ 267 terabytes de datos en internet (2003)

„ Internet. „ Más de 35 terabytes de texto en html.


440 terabytes en mensajes de correo electrónico.
„ Necesidad de procesar la información para „

8 terabytes en libros al año


pasar a la sociedad del conocimiento:
p
„

„ 37 terabytes en periódicos y revistas


„ Capacidad de crear conocimiento „ 95 terabytes en documentos (literatura gris)
„ 16 terabytes en cine, 6 en música (CD), 22 en vídeo (DVD).
„ 1 terabyte = 1 biblioteca universitaria
Fuente: How Much Information? 2003 http://www2.sims.berkeley.edu/research/projects/how-
much info 2003/
much-info-2003/
Complejidad lingüística Ingeniería
g informática y las lenguas
g
„ La lengua objeto de interés para: „ Ingeniería Informática:
lilingüística,
üí i traducción,
d ió crítica
í i literaria,
li i
Inteligencia Artificial
„
„
„ filosofía, antropología, pedagogía,
„ psicología derecho,
psicología, derecho hermenéutica,
hermenéutica retórica
retórica, „ Ingeniería del Lenguaje Natural
Lingüística Computacional o Procesamiento
ingeniería en informática, etc.
„
„
del Lenguaje Natural
„ Cada disciplina estudia las lenguas desde
diferentes puntos de vista.
„ Estudio de las lenguas en toda su complejidad.
complejidad
„ Interrelación: cada una necesita de las otras para
j
alcanzar sus objetivos.

Ingeniería
g informática y las lenguas
g Ámbitos de aplicación del PLN
„ Ingeniería del Lenguaje Natural. Área de la „ El procesamiento automático de textos es
ingeniería
í que engloba a la LC o PLN en el necesario para gran cantidad de ámbitos:
á
proceso de creación de sistemas. „ Académicos (científico):
„ Reconocimiento del habla.
„ Lingüística de corpus, humanidades computacionales,
ciencia de la computación.
„ Lingüística Computacional o Procesamiento del
„ Económicos y sociales (ingeniería):
Lenguaje Natural. „ Interacción hombre máquina.
„ Aplicaciones.
Aplicaciones „ Gestión automática de información en formato textual.
„ Internet.
Objetivos del PLN
„ Encontrar mecanismos computacionales que
permitan
i comprender
d y generar textos en una lengua
l
natural.
„ Automatizar la facultad lingüística del ser humano.
humano
„ Diseñar modelos matemáticos que permitan la
automatización del procesamiento lingüístico

„
mediante ordenadores.
Formalización de las teorías y modelos lingüísticos y
APROXIMACIÓN HISTÓRICA.
su implementación en sistemas automáticos. ORÍGENES
Í DEL PLN.
„ …

PLN y la máquina inteligente Lenguaje


g j y procesamiento simbólico
„ El gran desafío de la informática es „ 1900.
desarrollar la máquina inteligente. „ Hipótesis: las lenguas naturales pueden ser
tratadas con mecanismos computacionales.
„ El principal rasgo de inteligencia es
Frege, Russell, Wittgenstein, Carnap, etc.
lingüístico:
„

„ Razonamiento matemático basado en la lógicag


„ Test de
d turing. aplicado a las lenguas.
„ Consideración de las lenguas como sistemas
formales sensibles al procesamiento automático
Lenguaje
g j y procesamiento simbólico Lenguaje
g j y procesamiento simbólico
„ Desarrollo de tres planteamientos (Bird et al. „ Desarrollo de tres planteamientos:
2007): „ Teoría lenguajes formales:
„ Teoría lenguajes formales „ Lenguaje entendido como el conjunto de
cadenas aceptadas por un autómata.
„ Lógica simbólica
„ Lenguaje independiente del contexto y autómata
„ P i i i de
Principio d composicionalidad
i i lid d descendente.
„ Base de la sintaxis computacional
„ Lógica
ó simbólica
ó
„ Principio de composicionalidad

Lenguaje
g j y procesamiento simbólico Lenguaje
g j y procesamiento simbólico
„ Desarrollo de tres planteamientos: „ Desarrollo de tres planteamientos:
„ Teoría lenguajes formales „ Teoría lenguajes formales
„ Lógica simbólica: „ Lógica simbólica
„ Lógica de primer orden y proposicional „ Principio de composicionalidad:
„ Método formal para representación semántica „ Correspondencia
C d i sintaxis
i t i y semántica.
á ti
no ambigua, la inferencia y la interpretación. „ Introduce al recursión:
„ ver(j,m)
j
„ p = ver(j
ver(j,m)
m)
„ Principio de composicionalidad „ ¬p
L primeros
Los i sistemas
i t de
d PLN L primeros
Los i sistemas
i t de
d PLN
AÑOS 50 AÑOS 50

„ Sistema de TA inglés
inglés-ruso,
ruso, basado en la „ El GAT (Georgetown Automatic Translator), y el
equivalencia de palabras. CETA (Centre d’études pour la Traduction
„ Traducción muy rudimentaria palabra a palabra: Automatique).
„ “The spirit is willing but the flesh is weak” „ Se hace patente la naturaleza de los problemas a
„ El espíritu es fuerte pero la carne es débil
tratar y las limitaciones tanto teóricas como
„ El vodka es bueno pero la carne está podrida
técnicas.

AÑOS 60 AÑOS 70
„ El informe ALPAC, en 1964, supuso un freno pero „ Primeras interfaces en lengua natural a base de
no un impedimento para el desarrollo de diversos datos:
sistemas. „ Sistema LUNAR de Woods
„ El PLN consistió principalmente en métodos de „ Aparecen diversos
A di analizadores
li d que usan
análisis de palabras clave y pattern matching, gramáticas incontextuales (CFG):
dando lugar a sistemas como: „ Sistema SAD
SAD-SAM
SAM de Lindsay (Schank75)
„ BASEBALL de Green (1963), „ Basado en las Gramática Generativa de N. Chomsky
„ ELIZA de Weizenbaum (1966) „ SHRDLU (Winograd 72) sistema para enviar
„ SIR de Raphael (1968), órdenes a un robot.
„ STUDENT
S U de Bobrow
ob o (1968)
( 968) „ Basado en las relaciones funcionales entre palabras
de Halliday: Systemic Grammar.
AÑOS 70 AÑOS 80
„ Desarrollo por Woods de las Redes de „ Aparecen
p diversos formalismos que,
q , además de
Transición
ó Aumentadas (ATN): contar con la potencia de las ATN, se basaban en
„ Mejora la potencia de las expresiones regulares y de estructuras teóricas mas formales.
l gramáticas
las á incontextuales
l all incorporar „ En 1983, Chomsky propuso su Teoría de Rección
restricciones.
y Ligamiento (Government and Binding).
„ Ej Concordancia
Ej. Concordancia.
„ Se da mayor importancia al léxico, que contiene toda
„ Permite que una ATN incorpore más información la información léxico, semántica y sintáctica para la
contextual cuando se genera un análisis
análisis. formación/análisis de la oración.
oración
„ Potencia la metodología de diseño “ad-hoc”, donde „ Se reduce el papel de la gramática a una serie de
cada nueva
ue a ap
aplicación
cac ó requiere
equ e e u
una
a nueva
ue a ATN. reglasde
g buena formación.

AÑOS 80 AÑOS 80
„ En esta línea surgen una serie de „ A partir de los trabajos de Colmerauer aparecen
gramáticas como las las gramáticas
á lógicas:
ó
Gramáticas de Cláusulas Definidas de Pereira y Warren
Gramáticas de Estructura de Frase
„
„
DCG (Pereira80).
( )
Generalizadas: GPSG (Sells 89)
„ Aplicaciones:
„ Gramáticas Léxico Funcionales de Bresnan: LFG
„ Ariane-78, EUROTRA o ATLAS, en el campo de la
(Bresnan 82), Traducción Automática, y
„ G
Gramáticas
áti d
de U
Unificación
ifi ió Funcionales
F i l de
d Kay:
K „ TEAM (Grosz 87), CHAT-80 (Warren 82), ORBI (Pereira
FUG (Dowty 85). 82) en el campo de las interfaces con Bases de Datos
AÑOS 90 AÑOS 90
„ Extensiones a formalismos ya introducidos „ Cambio de interés de los principales
en los años 80 organismos de I+D:
„ Representación de las dependencias a larga „ Años 60 se centraba en el control de procesos y
distancia y las estrategias requeridas para el las técnicas de programación,
análisis y eliminación de la ambigüedad del „ Actualmente se centra en la Inteligencia
texto. Artificial y sus aplicaciones.
„ Anáforas

SIGLO XXI
„ Paulatino abandono de sistemas de simbólicos (reglas
manuales) y desarrollo de técnicas estadísticas.
estadísticas
„ Jellinek en IBM
„ Sistemas a gran escala frente a los sistemas de pequeña
escala.
„ Desarrollo de métodos estadísticos
estadísticos, recuperación de
información, uso de corpus de textos grandes y de
diccionarios ya existentes. FUNDAMENTOS
„ Base para producir nuevos sistemas a gran escala con cierta
rapidez.
FILOSÓFICOS
Ó
„ Tendencia hacia el trabajo empírico.
empírico
Dos posturas Racionalistas
„ Debate filosófico (aún en vigor): „ Descartes, Leibniz, etc.
„ Inicio S. SVII – XVIII (Ilustración). „ El conocimiento tiene su origen en el
razonamiento humano, en el pensamiento.
„ El conocimiento NO proviene por
revelación divina. „ Innatismo.
„ R i
Racionalistas
li t vs Empiristas.
E ii t „ Chomsky
Chomsky.

Empiristas El debate en Lingüística


g y PLN
„ Locke, etc. „ Las lenguas, ¿sin innatas o se basan en la
„ La fuente primaria de conocimiento es la experiencia?
experiencia a través de nuestras facultades
sensitivas.
„ El razonamiento jjuega
g un papel,
p p , pero
p es
secundario.
„ Ej: Heliocentrismo de Galileo, basado en la
observación cuidadosa de los planetas.
El debate en Lingüística
g y PLN El debate en Lingüística
g y PLN
„ El Modelo racionalista: N. Chomsky. „ El Modelo empirista:
„ Una parte considerable del conocimiento que se „ El conocimiento lingüístico se puede inferir a partir
debe utilizar para el TL puede ser fijado de de la experiencia, que se puede recoger a través
antemano.
antemano de corpus
co p s te
textuales.
t ales
„ Prescrito, codificado e incorporado como „ Utilización de mecanismos como:
conocimiento inicial para cualquier proceso de TL.
TL „ La asociación o la generalización: conocer una palabra
por la compañía que lleva.
„ La distribución
„ Técnicas estadísticas y aprendizaje automático.

El debate en Lingüística
g y PLN Situación actual del PLN
„ Actualmente se buscas aproximaciones
„ Almacenamiento masivo de información
híbridas.
í
„ El ser humano nace con la capacidad innata de
„ Técnicas de aprendizaje automático
razonamiento analógio
ló y métodos
é d de d aprendizaje
d „ A t ió de
Anotación d corpus
que utiliza para identificar patrones semánticos „ La evaluación
por su experiencia sensible
sensible.
„ En PLN:
„ Desarrollo de reglas manuales (modelo racionalista)
„ Completado con información de corpus (modelo
empirista)
Situación actual Situación actual
„ Almacenamiento masivo de información „ Almacenamiento masivo de información
„ Uso de potentes algoritmo de indexación y búsqueda. „ Técnicas de aprendizaje automático
„ Basado en el modelo empirista.
„ Poco uso de conocimiento lingüístico.
„ Desarrollo de sistemas “reales”
reales , pero
„ Ejemplo: Google. „ Imposibilidad de desarrollar sistemas con precisión del
„ Técnicas de aprendizaje
p j automático 100%
„ Parcialidad
l d d de
d las
l técnicas
é de
d aprendizaje
d (clasificadores,
( l f d etc.).
)
„ Anotación de corpus „ Selección de rasgos de aprendizaje.
Error humano en las muestras de entrenamiento.
La evaluación
„
„
„ Creatividad: el carácter creativo del lenguaje hace imposible dar
cuenta de todos los casos en el uso de las lenguas.
„ Anotación de corpus
„ La evaluación

Situación actual Situación actual


„ Almacenamiento masivo de información „ Almacenamiento masivo de información
„ Técnicas
é de aprendizaje automático
á „ Técnicas
é de aprendizaje automático
á
„ Anotación de corpus „ Anotación de corpus
„ Detallar la información lingüística en los corpus „ Problema de la evaluación
(sintáctica, semántica, etc.). „ Necesidad de comparar los sistemas y evaluarlos de
„ M
Manual,l desarrollada
d ll d por expertos.
t manera empírica
í
„ Muestras de entrenamiento de los sistemas basado en „ Necesidad de métricas objetivas y recursos.
aprendizaje automático „ A i ió de
Aparición d competiciones:
ti i TREC,
TREC CLEF,
CLEF SENSEVAL,
SENSEVAL
„ Gold Standard: Muestras de análisis correcto para la etc.
evaluación de sistemas
„ Problema de la evaluación
Módulos lingüísticos
„ Módulo fonético y fonológico:
„ Sonidos de la lengua
„ Fonemas: “casa” vs “pasa”
„ Módulo morfológico (morfoléxico):
„ Unidades mínimas de las p
palabras: los monemas,,
morfemas y lexemas.
MÓDULOS LINGÜÍSTICOS. „ Flexión gramatical: “casa – casas”
NIVELES DE DESCRIPCIÓN
Ó “Deducir – deduje” …
Composición y derivación.
LINGÜÍSTICA.
LINGÜÍSTICA „

Módulos lingüísticos Módulos lingüísticos


„ Módulo sintáctico: „ Nivel Textual: cohesión y coherencia de los
„ Combinaciones de palabras en estructuras textos.
superiores:
p sintagmas
g y oraciones. „ Anáfora, desarrollo temático, intencionalidad, etc.
„ No es un módulo en sí mismo.
„ Módulo semántico:
„ Nivel Pragmático:
g
„ Significado
Si ifi d ded las
l palabras:
l b léxico-semántico
lé i á ti „ Relación del texto con el contexto comunicativo:
„ Significado completo de oraciones y textos. productor, receptor, mundo referencial, etc.
„ Aspectos que afectan directamente a la
interpretación de las oraciones.
„ No es un módulo en sí mismo.
Sistema de PLN El proceso de análisis
P
R Entrada Salida „ Análisis morfo-léxico o categorial:
O „ Tokenización: detección de palabras.
C
E A. morfo- Gramática „ Stemmer: detección de la raíz de las palabras y rasgos
Generación
S
sintáctico morfológicos.
ó
O lingüística
„ Clasificación de palabras por categoría gramatical.
D
E Análisis
A áli i „ Uso del diccionario y reglas morfológicas.
semántico Diccionario
Planificación
A
de la
„ Análisis sintáctico:
N
Interpretación
Á pragmática y respuesta „ Especificación de las relaciones sintácticas entre las
L
S
textual unidades léxicas:
I APLICACIÓN
Ó „ Constituyentes
S
„ Dependencias.

El proceso de análisis El proceso de análisis


„ Análisis semántico: „ Análisis textual:
C bi
Combinación
ió las
l interpretaciones
i i de
d las
l oraciones
i
Semántico-léxico:
„
„
para determinar el tema e intención del texto, etc.
„ Especificación del significado de las palabras. (según la aplicación).
„ Semántico-oracional: „ Análisis de fenómenos textuales: anáfora,
marcadores del discurso, tema-rema, etc.
„ A partir de la estructura sintáctica
sintáctica, generación de
la forma lógica asociada que representa el „ Análisis contextual o pragmático:
g
significado o sentido de la oración. „ Interpretación final del texto, en función de las
circunstancias del contexto comunicativo.
ARQUITECTURA GENERAL DE ARQUITECTURA GENERAL DE
SISTEMA ILN SISTEMA ILN
TEXTO VOZ IMAGEN
RECURSOS LINGÜÍSTICOS „ Reconocimiento del habla
ENTRADA
„ Análisis, comprensión y generación de la
lengua
Módulos PLN
„ Aplicación
Reconocer y Analizar y
Validar Comprender Aplicar Generar

TEXTO VOZ IMAGEN

SALIDA

ARQUITECTURA GENERAL DE ARQUITECTURA GENERAL DE


SISTEMA ILN SISTEMA ILN
„ Reconocimiento del habla „ Reconocimiento del habla
„ Reconocimiento y síntesis de voz „ Análisis, comprensión y generación de la
„ Objetivo: Traducir la entrada hablada en una lengua
salida escrita-digital Æ separación
ó de palabras, „ Procesamiento del Lenguaje Natural (PLN)
reconocimiento de fonemas, etc. „ Análisis léxico, morfológico, sintáctico, semántico y
„ Análisis,
A áli i comprensión
ió y generación
ió de
d la
l contextual de la lengua
lengua „ Comprensión conceptual del lenguaje.
„ Aplicación „ G
Generación
ió del
d l lenguaje
l j
„ Aplicación
ARQUITECTURA GENERAL DE
SISTEMA ILN
„ Reconocimiento del habla
„ Análisis,
á comprensión
ó y generación
ó de la lengua
„ Aplicación
„ Sistemas de Extracción de información.

„ Sistemas de recuperación de información.

„ Sistemas de búsqueda de respuestas.

„ Sistemas de diálogo e interacción hombre-máquina. LA AMBIGÜEDAD


„ Traducción automática.
LINGÜÍSTICA
ÜÍ EN PLN
„ Resúmenes automáticos…

El Problema de la Ambigüedad El Problema de la Ambigüedad


„ El principal problema del tratamiento del „ El tratamiento de la ambigüedad
lenguaje es la ambigüedad.
ambigüedad
„ Toda palabra u oración es ambigua si permite contempla dos sub-problemas:
más de una interpretación. „ La representación del problema: cómo las
„ Tipos: diversas interpretaciones se representan en
„ Ambigüedad
g léxica (categorial
( g o semántica)) un sistema.
„ Ambigüedad sintáctica
„ Ambigüedad semántica „ La interpretación del problema: qué
„ A bi ü d d
Ambigüedad textual
t t l estrategias se siguen cuando aparece una
„ Ambigüedad pragmática: referencial ambigüedad para determinar una u otra
interpretación.
interpretación
Ambigüedad léxica Ambigüedad léxica
„ Una palabra tiene más de un significado. „ Una palabra tiene más de un significado.
„ Tipos: „ Tipos:
„ Ambigüedad léxico-semántica:
léxico semántica: „ Ambigüedad léxica categorial:
„ La palabra pueden pertenecer a más de una
La que afecta sólo al nivel semántico.
categoría gramatical (nombre, verbo, etc.).
„

„ Ej
Ejemplos:
l „ Afecta morfo-sintáctico y semántico.
Juan dejó el periódico en el banco.
„
„ Ejemplos:
„ Se sentó en el banco.
banco „ "El cura iimpartió
ió ell santo sacrificio."
ifi i "
„ Entró en el banco y fue a la ventanilla. „ "La cura será muy dolorosa."
„ El avión localizó el banco y comunico su situación. „ "El médico
éd co cura
cu a aal e
enfermo."
e o

Resolución ambigüedad Resolución ambigüedad


léxica-categorial
g léxica-semántica
„ Asignar el sentido correcto a las palabras:
„ Part of speech tagger (PoS tagger): determinan
1. Resolución de la ambigüedad categorial
la categoría gramatical a partir del contexto.
2. Determinar el sentido correcto, pero ¿qué es un
„ Principales categorías: nombre,
nombre verbo,
verbo adjetivo,
adjetivo
sentido?
determinante, preposición y adverbio.
Este enfermo
f no tiene cura#N «Te voy a firmar la cara con la planta(?) de mi pié.»
Este médico cura#V sin dolor
El cura#N dirá misa a las 12:00
Resolución ambigüedad
léxica-semántica Ambigüedad
g sintáctica
„ Asignar el sentido correcto a las palabras „ Ambigüedad sintáctica
„ La vendedora de periódicos del barrio.
«Te voy a firmar la cara con la planta(?) de mi pié.»
„ Juan vio al ladrón con los prismáticos
WordNet 1.5
1. planta, piso -- a room or set of rooms comprising a single „ Pedro vio a Juan en lo alto de la montaña
level of a multi-level
multi level building
con los prismáticos
2. planta, flora -- a living organism lacking the power of
locomotion
3. planta -- the underside of the foot
4. planta, fábrica -- buildings for carrying on industrial labor
5
5. planta distribución -- a floor plan for the ground level of a
planta,
building

Ambigüedad
g sintáctica Ambigüedad Estructural
„ Ambigüedad sintáctica-estructural: „ Ambigüedad estructural de origen
„ La oración tiene diferentes estructuras sintácticas. coordinativo:
Se genera más de un árbol sintáctico de
„
„ Juan o Víctor y Elena deberían ir
derivación.
ó
„ Tipos:
„ De origen preposicional (pp-attachment).
„ De origen coordinativo.
„ Por composición de nombres.
S

Ambigüedad Estructural SN SV

„ Ambigüedad estructural de origen V OD SP

preposicional (pp-attachment) :
Juan observaba al chico sobre el tejado
„ Múltiples
Múlti l ligamientos
li i t que puede d tener
t un S

sintagma preposicional en una oración.


SN SV

V OD

Juan observaba al chico sobre el tejado

Ambigüedad Estructural SN

V OD
SV

SP

„ Ambigüedad estructural de origen


preposicional.
María dijo que Pedro lo dejara en la cena
„ Un SP puede unirse a más de un nodo
„ Soluciones I: S

„ El principio
i i i del
d l mínimo
í i ligamiento:
li i t SN SV

„ Consiste en la preferencia por el análisis


sintáctico
i tá ti que genere un número
ú menor ded V OD

nodos en el árbol de análisis. SN SP

María dijo que Pedro lo dejara en la cena


S

Ambigüedad Estructural SN

V
SV

OD SP

„ Ambigüedad estructural de origen


preposicional.
María dijo que Pedro lo dejara en la cena
„ Soluciones II:
„ El principio de la asociación a derechas o S

última clausura: SN SV

„ Consiste en las preferencias de los nuevos


constituyentes oracionales por ser V OD

interpretados como parte del actual elemento


SN SP
oracional en construcción,, en vez de parte
p de
algún constituyente superior en el árbol de María dijo que Pedro lo dejara en la cena

análisis.

Ambigüedad Estructural Ambigüedad Estructural


„ Ambigüedad estructural por „ Ambigüedad estructural por
composición de nombres: composición de nombres:
„ Este tipo de ambigüedades aparecen por la „ "Hombre
Hombre Rana",
Rana , "Hombre
Hombre jardín
jardín" o
unión de sustantivos, debido a que en "Tanque anfibio”, ...
un nivel puramente sintáctico cualquiera de SN SN

los sustantivos puede funcionar de núcleo


actuando los demás de modificadores. N MD ó MD N

T
Tanque anfibio
fibi Tanque fibi
anfibio
Análisis sintáctico Análisis sintáctico total
„ Dos opciones: S S
„ Análisis sintáctico total: profundo. NP VP
NP VP
„ Análisis sintáctico parcial (chunker): OD V OD PP
V
superficial. Nprop Nprop
CONT NP PP CONT NP PREP NP

NP NPROP DET N
NPROP PREP

DET N

Luis ve al hombre con el telescopio Luis ve al hombre con el telescopio

Análisis sintáctico parcial Ambigüedad Semántica


„ Una oración puede tener más de una forma
NP V PP PP lógica
ó asociada.
„ Ejemplo: Ambigüedad en el ámbito de la
Nprop CONT NP PREP NP cuantificación.
„ Aparecen
p en una misma oración un cuantificador
DET N
NPROP existencial y un cuantificador universal:
„ “El profesor recibió un regalo de todos
los padres”
Luis ve al hombre con el telescopio „ “Un juez decidió en cada sentencia”
Ambigüedad de ámbito de
Ambigüedad Semántica cuantificación
„ ”El profesor recibió un regalo „ En [Dahlgreen89] se indica:
de todos los padres” „ Existe una tendencia inherente a que los
„ ¿Un único regalo de todos los padres? cuantificadores universales tomen un
„ El cuantificador existencial toma mayor ámbito mayor ámbito que los existenciales.
que el universal. „ Excepción:
„ ¿Un regalo de cada padre? „ “Pedro prefiere una mujer con todos los
„ El cuantificador universal toma mayor ámbito que encantos
encantos”
el existencial.

Ambigüedad textual Ambigüedad textual


„ Diversas interpretaciones que puede „ Ejemplo. Solución en el contexto:
tener una oración
ió dependiendo
d di d del
d l „ "Luis Miranda parece un buen artista.
contexto. Felipe
p mi primo
p le encargo
g un retrato de su
„ Ejemplo: hija hace dos semanas. Fue a su taller a
„ “Luis Miranda tuvo que retocar el retrato de ver como había q quedado y no estaba muyy
Felipe”
conforme. Luis Miranda tuvo que retocar el
„ Para solucionarlas hay que conocer todo retrato de Felipe.
p Quizá
Q no tenía que
q haber
el texto donde aparece, no sólo
ó la ido a un pintor tan modernista."
oración.
Ambigüedad textual Ambigüedad
g textual y pragmática
g
„ Muchas ambigüedades de este tipo vienen „ Ambigüedad anafórica:
originadas por una ambigüedad léxica.
léxica „ Un pronombre o sintagma nominal definido
„ "Me he dejado el periódico en el banco." pueden tener más de una antecedente.
„ Tengo el gato en casa.
"Tengo casa " „ “El hermano de Luís es un mecánico.
„ Aunque algunas ambigüedades léxicas Él arregló su coche en un día”
pueden resolverse sólo con el contexto
oracional: „ “Juan Bravo fue recibido por el
„ "He
He ingresado el dinero en el banco esta director de SOL UNION S.A. El
mañana." fantástico hombre de negocios por fin
logró un éxito”.
„ "Se me averió el g
gato y no cambié la rueda."

El problema de la anáfora
á
Ambigüedad pragmática RESOLUCIÓN Y GENERACIÓN

„ La anáfora:
„ Mecanismo que permite hacer en un discurso „ Debe ser resuelta automáticamente por
una referencia abreviada a alguna entidad o el sistema para poder interpretar
entidades
tid d con lal confianza
fi de
d que ell receptor
t correctamente
t t ell ttexto.
t
del discurso sea capaz de interpretar la
referencia y por consiguiente determinar la
entidad a la que se alude (Hirst, 1981)
„ Pedroi y Maríaj son novios,
novios pero élj no quiere
casarse.
El problema de la anáfora
á El problema de la anáfora
á
ESTRATEGIAS DE RESOLUCIÓN DE LA ANÁFORA ESTRATEGIAS DE RESOLUCIÓN DE LA ANÁFORA

„ Estrategias basadas en conocimiento lingüístico „ Estrategias basadas en conocimiento lingüístico


„ IImitan
it fuentes
f t d
de conocimiento
i i t h humano
„ Estrategias basadas en corpus
„ Consultivos
„ una única fuente de información
„ Democráticos
„ combinan varias fuentes de información
„ mecanismos de restricciones y preferencias
„ reglas para descartar candidatos
„ reglas
g para
p ordenar los candidatos

„ Estrategias basadas en corpus

El problema de la anáfora
á El problema de la anáfora
á
ESTRATEGIAS DE RESOLUCIÓN DE LA ANÁFORA ESTRATEGIAS DE RESOLUCIÓN DE LA ANÁFORA

„ Estrategias basadas en conocimiento lingüístico „ Estrategias basadas en conocimiento lingüístico


„ Estrategias basadas en corpus „ Estrategias basadas en corpus
„ Estudian corpus a través de herramientas estadísticas
„ Proponen modelos probabilisticos: Aprendizaje Automático.
Ambigüedad y fases de
El problema de la anáfora
á
ESTRATEGIAS DE RESOLUCIÓN DE LA ANÁFORA análisis
„ Estrategias basadas en conocimiento lingüístico Principales tipos
Fase de análisis de ambigüedad en
„ Estrategias basadas en corpus
PLN
Análisis
A áli i morfo-
f Léxica-categorial,
Lé i i l
sintáctico estructural.
Léxico-semántica,
Análisis semántico diversidad de formas
lógicas.
lógicas
Análisis textual - Ambigüedad
pragmático
ái anafórica.
fó i

Ingeniería Lingüística
APLICACIONES

„ Aplicaciones basadas en tratamiento textual


„ Aplicaciones basadas en diálogos
á hombre-máquina
á

APLICACIONES
Ingeniería Lingüística I
Ingeniería
i í Lingüística
Li üí ti
APLICACIONES APLICACIONES

„ Aplicaciones basadas en tratamiento textual


Extracción de información
„ Extracción de Información (IE)
„ obtienen información relevante desde textos
„ Recuperación de Información (IR)
„ seleccionan textos según algún requisito de consulta
„ Búsqueda de Respuestas (QA)
„ Traducción automática bilingüe/multilingüe
„ Producción automática de resúmenes
„ Corrección automática de textos
„ procesadores de textos
„ Producción automática de textos

I
Ingeniería
i í Lingüística
Li üí ti Ingeniería Lingüística
APLICACIONES APLICACIONES

„ Aplicaciones basadas en tratamiento textual


Recuperación de información „ Aplicaciones basadas en diálogos
á hombre-máquina
á
Ingeniería Lingüística Ingeniería Lingüística
APLICACIONES APLICACIONES

„ Aplicaciones basadas en tratamiento textual „ Aplicaciones basadas en tratamiento textual


„ Aplicaciones basadas en diálogos
á hombre-máquina
á „ Aplicaciones basadas en diálogos
á hombre-máquina
á
„ Sistemas de diálogo
„ Automatización del comportamiento humano del diálogo
„ Formalización de aspectos intelectuales como:
„ Intenciones y deseos del usuario (emisión)
„ C
Conocimiento y creencias sobre
b ell mundo
d (recepción)
( ó )
„ Relación conocimiento-acción (acción)
„ Aplicaciones:
„ Orientados a tareas.
„ Orientados a la extracción y/o recuperación de información.

Recuperación de información
Sistemas de recuperación
ó de „ Documentos relevantes a una petición de
información información
f ó
„ Tareas de un sistema de IR:
„ Indexación:
„ Representación eficiente de documentos
„ Tratamiento de preguntas:
„ Representación interna de la preguntas
„ Comparación de preguntas y documentos:
„ Medida de similitud entre preguntas y documentos
Recuperación de Información
Sistemas de extracción
ó de
información

Extracción de Información Extracción de Información


„ Cowie y Lehnert (1996). “Técnica que
proporciona determinada información
denominada relevante de un conjunto
de textos todos ellos relevantes”
„ G i
Gaizauskas
k y Wilk
Wilks (1998).
(1998) “Es
“E la
l
actividad de extraer automáticamente
un tipo de información pre-especificada
desde textos”
Extracción de Información Extracción de Información
„ Los sistemas deben encontrar y relacionar información Análisis léxico Análisis de las
relevante, e ignorar información NO relevante. oraciones
Reconocimiento de entidades
„ La relevancia se determina a partir de guías predefinidas
de dominio, las cuales deben especificar con la mayor Análisis Sintáctico
exactitud posible el tipo de información a extraer.
Confrontación de patrones
„ Desde la perspectiva del PLN, los sistemas de EI deben
trabajar a distintos niveles: desde el reconocimiento de Resolución de Correferencias Análisis del texto
palabras hasta el análisis de oraciones y desde el
entendimiento a nivel de oracional hasta el texto Inferencias
p
completo. Plantillas
Generación de Plantillas rellenas

Los sistemas de diálogo


„ Arquitectura básica (Bernsen et al. 1998)
Sistemas de diálogo „

„
PLN ((comprensión
ió y generación)
ió )
Gestión del diálogo (control y contexto)
„ Procesamiento del habla ((reconocimiento y síntesis))
„ PLN en los sistemas de diálogo (Moreno et al. 1999)
„ análisis léxico
„ análisis morfológico
„ análisis sintáctico
„ análisis semántico
„ análisis contextual
Los sistemas de diálogo
á
ARQUITECTURA (Allen et al. 2001)

Reconocedor Sintetizador Gestor de

Fuentes y organizaciones
del habla de voz pantalla

Parser Planificador de contenidos

Planificador Gestor del contexto


de respuestas del discurso

Independiente
Gestor del discurso Gestor de referencias
del dominio

Dependiente
del dominio Agente de Gestor
comportamiento del plan

Fuentes y organizaciones Fuentes y organizaciones


CONGRESOS ESPECÍFICOS REVISTAS

ACL: Association for Computational Linguistics.


„
„ EACL: European chapter of the Association for Computational Linguistics
„ Computational Linguistics.
„ NAACL: North American chapter of the Association for Computational „ Journal of Artificial Intelligence Research
Linguistics
„ Artificial Intelligence
„ COLING: International Conference on Computational Linguistics
„ RANLP: Recent Advances in Natural Language Processing „ Computing and Humanities
„ SEPLN: Congreso
g de la Sociedad Española
p para
p el „ ACM of Communications
Procesamiento del Lenguaje Natural „ Machine Translation
„ Procesamiento del Lenguaje
g j Natural
„ Revista Iberoamericana de Inteligencia Artificial
Fuentes y organizaciones
DIRECCIONES DE INTERÉS

„ SEPLN- www.sepln.org
„ ACL- www.aclweb.org
„ COLING - www.coling.org
www coling org
„ …

También podría gustarte