Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ILN Tema1
ILN Tema1
Tema 1
Introducción al Procesamiento 1. El lenguaje, las lenguas y su procesamiento
automático.
automático
del Lenguaje Natural 2. Aproximación histórica.
3. F d
Fundamentost fil
filosóficos.
ófi
Ingeniería del Lenguaje Natural 4. Módulos lingüísticos.
Departamento de Lenguajes y Sistemas Informáticos 5. A it t
Arquitectura generall de
d un sistema
i t de
d PLN.
PLN
Universidad de Alicante
http://www.dlsi.ua.es/asignaturas/iln
6. El problema de la ambigüedad.
7. Aplicaciones.
li i
8. Fuentes de información actuales.
Ingeniería
g informática y las lenguas
g Ámbitos de aplicación del PLN
Ingeniería del Lenguaje Natural. Área de la El procesamiento automático de textos es
ingeniería
í que engloba a la LC o PLN en el necesario para gran cantidad de ámbitos:
á
proceso de creación de sistemas. Académicos (científico):
Reconocimiento del habla.
Lingüística de corpus, humanidades computacionales,
ciencia de la computación.
Lingüística Computacional o Procesamiento del
Económicos y sociales (ingeniería):
Lenguaje Natural. Interacción hombre máquina.
Aplicaciones.
Aplicaciones Gestión automática de información en formato textual.
Internet.
Objetivos del PLN
Encontrar mecanismos computacionales que
permitan
i comprender
d y generar textos en una lengua
l
natural.
Automatizar la facultad lingüística del ser humano.
humano
Diseñar modelos matemáticos que permitan la
automatización del procesamiento lingüístico
mediante ordenadores.
Formalización de las teorías y modelos lingüísticos y
APROXIMACIÓN HISTÓRICA.
su implementación en sistemas automáticos. ORÍGENES
Í DEL PLN.
…
Lenguaje
g j y procesamiento simbólico Lenguaje
g j y procesamiento simbólico
Desarrollo de tres planteamientos: Desarrollo de tres planteamientos:
Teoría lenguajes formales Teoría lenguajes formales
Lógica simbólica: Lógica simbólica
Lógica de primer orden y proposicional Principio de composicionalidad:
Método formal para representación semántica Correspondencia
C d i sintaxis
i t i y semántica.
á ti
no ambigua, la inferencia y la interpretación. Introduce al recursión:
ver(j,m)
j
p = ver(j
ver(j,m)
m)
Principio de composicionalidad ¬p
L primeros
Los i sistemas
i t de
d PLN L primeros
Los i sistemas
i t de
d PLN
AÑOS 50 AÑOS 50
Sistema de TA inglés
inglés-ruso,
ruso, basado en la El GAT (Georgetown Automatic Translator), y el
equivalencia de palabras. CETA (Centre d’études pour la Traduction
Traducción muy rudimentaria palabra a palabra: Automatique).
“The spirit is willing but the flesh is weak” Se hace patente la naturaleza de los problemas a
El espíritu es fuerte pero la carne es débil
tratar y las limitaciones tanto teóricas como
El vodka es bueno pero la carne está podrida
técnicas.
AÑOS 60 AÑOS 70
El informe ALPAC, en 1964, supuso un freno pero Primeras interfaces en lengua natural a base de
no un impedimento para el desarrollo de diversos datos:
sistemas. Sistema LUNAR de Woods
El PLN consistió principalmente en métodos de Aparecen diversos
A di analizadores
li d que usan
análisis de palabras clave y pattern matching, gramáticas incontextuales (CFG):
dando lugar a sistemas como: Sistema SAD
SAD-SAM
SAM de Lindsay (Schank75)
BASEBALL de Green (1963), Basado en las Gramática Generativa de N. Chomsky
ELIZA de Weizenbaum (1966) SHRDLU (Winograd 72) sistema para enviar
SIR de Raphael (1968), órdenes a un robot.
STUDENT
S U de Bobrow
ob o (1968)
( 968) Basado en las relaciones funcionales entre palabras
de Halliday: Systemic Grammar.
AÑOS 70 AÑOS 80
Desarrollo por Woods de las Redes de Aparecen
p diversos formalismos que,
q , además de
Transición
ó Aumentadas (ATN): contar con la potencia de las ATN, se basaban en
Mejora la potencia de las expresiones regulares y de estructuras teóricas mas formales.
l gramáticas
las á incontextuales
l all incorporar En 1983, Chomsky propuso su Teoría de Rección
restricciones.
y Ligamiento (Government and Binding).
Ej Concordancia
Ej. Concordancia.
Se da mayor importancia al léxico, que contiene toda
Permite que una ATN incorpore más información la información léxico, semántica y sintáctica para la
contextual cuando se genera un análisis
análisis. formación/análisis de la oración.
oración
Potencia la metodología de diseño “ad-hoc”, donde Se reduce el papel de la gramática a una serie de
cada nueva
ue a ap
aplicación
cac ó requiere
equ e e u
una
a nueva
ue a ATN. reglasde
g buena formación.
AÑOS 80 AÑOS 80
En esta línea surgen una serie de A partir de los trabajos de Colmerauer aparecen
gramáticas como las las gramáticas
á lógicas:
ó
Gramáticas de Cláusulas Definidas de Pereira y Warren
Gramáticas de Estructura de Frase
DCG (Pereira80).
( )
Generalizadas: GPSG (Sells 89)
Aplicaciones:
Gramáticas Léxico Funcionales de Bresnan: LFG
Ariane-78, EUROTRA o ATLAS, en el campo de la
(Bresnan 82), Traducción Automática, y
G
Gramáticas
áti d
de U
Unificación
ifi ió Funcionales
F i l de
d Kay:
K TEAM (Grosz 87), CHAT-80 (Warren 82), ORBI (Pereira
FUG (Dowty 85). 82) en el campo de las interfaces con Bases de Datos
AÑOS 90 AÑOS 90
Extensiones a formalismos ya introducidos Cambio de interés de los principales
en los años 80 organismos de I+D:
Representación de las dependencias a larga Años 60 se centraba en el control de procesos y
distancia y las estrategias requeridas para el las técnicas de programación,
análisis y eliminación de la ambigüedad del Actualmente se centra en la Inteligencia
texto. Artificial y sus aplicaciones.
Anáforas
SIGLO XXI
Paulatino abandono de sistemas de simbólicos (reglas
manuales) y desarrollo de técnicas estadísticas.
estadísticas
Jellinek en IBM
Sistemas a gran escala frente a los sistemas de pequeña
escala.
Desarrollo de métodos estadísticos
estadísticos, recuperación de
información, uso de corpus de textos grandes y de
diccionarios ya existentes. FUNDAMENTOS
Base para producir nuevos sistemas a gran escala con cierta
rapidez.
FILOSÓFICOS
Ó
Tendencia hacia el trabajo empírico.
empírico
Dos posturas Racionalistas
Debate filosófico (aún en vigor): Descartes, Leibniz, etc.
Inicio S. SVII – XVIII (Ilustración). El conocimiento tiene su origen en el
razonamiento humano, en el pensamiento.
El conocimiento NO proviene por
revelación divina. Innatismo.
R i
Racionalistas
li t vs Empiristas.
E ii t Chomsky
Chomsky.
El debate en Lingüística
g y PLN Situación actual del PLN
Actualmente se buscas aproximaciones
Almacenamiento masivo de información
híbridas.
í
El ser humano nace con la capacidad innata de
Técnicas de aprendizaje automático
razonamiento analógio
ló y métodos
é d de d aprendizaje
d A t ió de
Anotación d corpus
que utiliza para identificar patrones semánticos La evaluación
por su experiencia sensible
sensible.
En PLN:
Desarrollo de reglas manuales (modelo racionalista)
Completado con información de corpus (modelo
empirista)
Situación actual Situación actual
Almacenamiento masivo de información Almacenamiento masivo de información
Uso de potentes algoritmo de indexación y búsqueda. Técnicas de aprendizaje automático
Basado en el modelo empirista.
Poco uso de conocimiento lingüístico.
Desarrollo de sistemas “reales”
reales , pero
Ejemplo: Google. Imposibilidad de desarrollar sistemas con precisión del
Técnicas de aprendizaje
p j automático 100%
Parcialidad
l d d de
d las
l técnicas
é de
d aprendizaje
d (clasificadores,
( l f d etc.).
)
Anotación de corpus Selección de rasgos de aprendizaje.
Error humano en las muestras de entrenamiento.
La evaluación
Creatividad: el carácter creativo del lenguaje hace imposible dar
cuenta de todos los casos en el uso de las lenguas.
Anotación de corpus
La evaluación
SALIDA
Ej
Ejemplos:
l Afecta morfo-sintáctico y semántico.
Juan dejó el periódico en el banco.
Ejemplos:
Se sentó en el banco.
banco "El cura iimpartió
ió ell santo sacrificio."
ifi i "
Entró en el banco y fue a la ventanilla. "La cura será muy dolorosa."
El avión localizó el banco y comunico su situación. "El médico
éd co cura
cu a aal e
enfermo."
e o
Ambigüedad
g sintáctica Ambigüedad Estructural
Ambigüedad sintáctica-estructural: Ambigüedad estructural de origen
La oración tiene diferentes estructuras sintácticas. coordinativo:
Se genera más de un árbol sintáctico de
Juan o Víctor y Elena deberían ir
derivación.
ó
Tipos:
De origen preposicional (pp-attachment).
De origen coordinativo.
Por composición de nombres.
S
Ambigüedad Estructural SN SV
preposicional (pp-attachment) :
Juan observaba al chico sobre el tejado
Múltiples
Múlti l ligamientos
li i t que puede d tener
t un S
V OD
Ambigüedad Estructural SN
V OD
SV
SP
El principio
i i i del
d l mínimo
í i ligamiento:
li i t SN SV
Ambigüedad Estructural SN
V
SV
OD SP
última clausura: SN SV
análisis.
T
Tanque anfibio
fibi Tanque fibi
anfibio
Análisis sintáctico Análisis sintáctico total
Dos opciones: S S
Análisis sintáctico total: profundo. NP VP
NP VP
Análisis sintáctico parcial (chunker): OD V OD PP
V
superficial. Nprop Nprop
CONT NP PP CONT NP PREP NP
NP NPROP DET N
NPROP PREP
DET N
El problema de la anáfora
á
Ambigüedad pragmática RESOLUCIÓN Y GENERACIÓN
La anáfora:
Mecanismo que permite hacer en un discurso Debe ser resuelta automáticamente por
una referencia abreviada a alguna entidad o el sistema para poder interpretar
entidades
tid d con lal confianza
fi de
d que ell receptor
t correctamente
t t ell ttexto.
t
del discurso sea capaz de interpretar la
referencia y por consiguiente determinar la
entidad a la que se alude (Hirst, 1981)
Pedroi y Maríaj son novios,
novios pero élj no quiere
casarse.
El problema de la anáfora
á El problema de la anáfora
á
ESTRATEGIAS DE RESOLUCIÓN DE LA ANÁFORA ESTRATEGIAS DE RESOLUCIÓN DE LA ANÁFORA
El problema de la anáfora
á El problema de la anáfora
á
ESTRATEGIAS DE RESOLUCIÓN DE LA ANÁFORA ESTRATEGIAS DE RESOLUCIÓN DE LA ANÁFORA
Ingeniería Lingüística
APLICACIONES
APLICACIONES
Ingeniería Lingüística I
Ingeniería
i í Lingüística
Li üí ti
APLICACIONES APLICACIONES
I
Ingeniería
i í Lingüística
Li üí ti Ingeniería Lingüística
APLICACIONES APLICACIONES
Recuperación de información
Sistemas de recuperación
ó de Documentos relevantes a una petición de
información información
f ó
Tareas de un sistema de IR:
Indexación:
Representación eficiente de documentos
Tratamiento de preguntas:
Representación interna de la preguntas
Comparación de preguntas y documentos:
Medida de similitud entre preguntas y documentos
Recuperación de Información
Sistemas de extracción
ó de
información
PLN ((comprensión
ió y generación)
ió )
Gestión del diálogo (control y contexto)
Procesamiento del habla ((reconocimiento y síntesis))
PLN en los sistemas de diálogo (Moreno et al. 1999)
análisis léxico
análisis morfológico
análisis sintáctico
análisis semántico
análisis contextual
Los sistemas de diálogo
á
ARQUITECTURA (Allen et al. 2001)
Fuentes y organizaciones
del habla de voz pantalla
Independiente
Gestor del discurso Gestor de referencias
del dominio
Dependiente
del dominio Agente de Gestor
comportamiento del plan
SEPLN- www.sepln.org
ACL- www.aclweb.org
COLING - www.coling.org
www coling org
…