Está en la página 1de 8

ESTUDIO Y CASO PRÁCTICO PARA EL ANÁLISIS DE

SISTEMAS DE RESPUESTA AUTOMÁTICA


(QUESTION ANSWERING)
David Aparicio Escribano David Celaá Morales
Universidad Carlos III Universidad Carlos III
100055836@alumnos.uc3m.es 100047592@alumnos.uc3m.es

seleccionando, obtienen la mejor (en la mayoría de los casos) de


ABSTRACT las respuestas, o la información que buscaban para satisfacer su
El presente estudio se centra en la investigación de las técnicas dilema.
y estrategias que se emplean actualmente en los sistemas de
respuesta automática, más conocidos por su denominación Los sistemas de búsqueda de respuesta (en adelante QA,
inglesa Question Answering (QA), disciplina que forma parte Question Answering) hacen prácticamente lo mismo que los
de la Ingeniería Lingüística (rama de la Inteligencia Artificial usuarios anteriormente citados. Como si de una persona se
encargada del estudio y procesado del lenguaje natural) en tratara, realizan una consulta, buscan la información y
la que se diseñan sistemas capaces de interpretar preguntas seleccionan la respuesta adecuada.
que realizan los usuarios, para buscar los documentos
relacionados, extraer la información solicitada y devolver una
2.2 Arquitectura de un sistema de respuesta
respuesta completa. automática
Comúnmente los sistemas QA presentan una arquitectura tipo:
Para complementar este estudio se ha decidió realizar un caso
práctico y evaluado los resultados.

Palabras Clave
Sistema Question Answering, Recuperación de Información, ANÁLISIS DE
Respuesta Automática, Procesamiento del Lenguaje Natural. ¿? LA
1. INTRODUCCIÓN PREGUNTA

Brevemente, este estudio pretende adentrarse en las actuales


técnicas de procesamiento del lenguaje natural que se usan para
los sistemas de respuesta automática. Para ello, intenta tocar
todos los campos posibles sin especializarse en ninguno pero si
lo suficiente para aclarar todo lo referente a estos sistemas. BÚSQUEDA
Como se ha comentado, el estudio lleva consigo la
DE
implementación de un caso práctico con el que se pretende INFORMACIÓN
aprender y analizar las técnicas que brevemente se explican a
continuación.

EXTRACCIÓN
2. SISTEMAS DE RESPUESTA DE
AUTOMÁTICA LA
2.1 ¿Qué es la búsqueda de respuestas? RESPUESTA
Más allá de aspectos filosóficos, la búsqueda de respuestas no
es más que cubrir una necesidad, es decir, dar solución a un
problema, y en este caso es tan sencillo como responder.
El problema más importante en responder es la información de Figura 1. Arquitectura típica de un Sistema QA
la que se dispone. Es sencillo responder a una pregunta si se
dispone de la información adecuada y evidentemente, si no se
dispone de esta información es complicado responderla (por Análisis de la Pregunta: Esta parte se encarga de transformar
mucho que se invente o improvise la respuesta). Por esta misma una consulta a la forma correspondiente para que sea
razón se podría decir que no existen preguntas sin respuesta, si “entendible” por la máquina. Para ello se utilizan herramientas
no, falta de información. del Procesamiento del Lenguaje Natural donde además de hacer
Típicamente, los usuarios de los ordenadores, realizan consultas entendible la consulta, se categoriza, se analiza
en buscadores para obtener la información necesaria para morfológicamente, etc... En definitiva se extrae la suficiente
satisfacer sus preguntas. Primeramente obtienen una lista de cantidad de información para que el sistema sea más eficiente.
enlaces e información y después, tras un tiempo leyendo y
Búsqueda de Información: Es típico en los sistemas QA 3. LA FUENTE DE INFORMACIÓN
disponer de un sistema de de Recuperación de Información de La fuente de información de un sistema QA es, quizás, la
texto (documentos, párrafos...), que devuelva una colección de elección más delicada, puesto que va a condicionar todo el
documentos importantes y relevantes relacionada con la cadena sistema.
introducida.
Extracción de la Respuesta: Tras obtener una lista de La información a la que tiene acceso un usuario en internet,
documentos o texto relevante se ha de procederá a la elección periódicos, libros, etc... puede ser correcta o incorrecta, y es el
de la mejor respuesta y por supuesto extraerla. Para elegir la propio usuario quien se encarga de comprobar si es verídica o
mejor respuesta existen diferentes métodos. no por sus propias fuentes, argumentos u otros. Por contra, un
sistema QA debe tener la información lo más verídica y objetiva
2.3 Características de los sistemas QA posible, ya que, en caso de no ser fiable su información,
Estas características fueron fijadas en el 20021[2]: responderá incorrectamente.
Exactitud: El sistema debe ser todo lo exacto que pueda. Análogamente, el tamaño o cantidad de documentos y de
artículos de diferentes temas, hace que un sistema QA tenga
“Usabilidad”: Ha de responder de la manera más fiel al formato mas posibilidades de encontrar una respuesta. Gracias a que hoy
de la pregunta. día las limitaciones físicas, por suerte, no son un gran problema
Independiente en tiempo: Ha de dar respuesta a preguntas en el mundo de la informática, los sistemas QA pueden procesar
actuales y recientes. una cantidad asombrosa de datos y por lo tanto tratar fuentes de
información de tamaños realmente extensas.
Relevancia: Debe dar respuestas relevantes y si no es posible
debe consultar la usuario. Por otra parte, la información ha de ser dinámica, en constante
actualización para que día a día los usuarios tengan acceso a
Respuesta Completa: La respuesta ha de ser lo más completa más y más información. Como ocurre con las personas, un
posible aun siendo necesario la unión de frases que quizás están sistema QA debe tener las noticias del día, argumentos
en distintos documentos. novedosos y en general datos recientes con los que poder
responder a preguntas nuevas y de actualidad.
2.4 Desarrollo mundial y tipos de sistemas
Hoy día existen diferentes grupos en todo el mundo que Cuando estas tres características se unen, fiabilidad, tamaño y
investigan sobre los sistemas QA. En Estados unidos, en 1992, dinamismo, y se consigue una fuente de información que
nació el TREC (Text REtrieval Conference)2 con el fin de crear cumpla las tres a la perfección, se podría decir que ésta fuente
una comunidad de investigadores en sistemas de recuperación sería la elegida por todos los sistemas QA y en general por
de Información. cualquier usuario.

En Europa existe el CLEF(Cross-Languge Evaluation Forum)3 3.1 Wikipedia


con los mismos objetivos pero haciendo más hincapié en la Wikipedia7 es una enciclopedia libre multilingüe, a la que se
diversidad de las lenguas. accede a través de Internet, lo que permite que se actualice de
una manera peculiar siendo esta actualización una de sus
Desde la creación de estos dos organismos los Sistemas QA
características más curiosas e importantes. Y es que cualquier
mejoran año a año, el número de investigadores y
persona, que se haya registrado previamente, es capaz de editar
desarrolladores aumenta y a la vez el número de países
un artículo o crear uno nuevo (siempre bajo la revisión de
implicados.
colaboradores para evitar el mal uso de esta funcionalidad). De
Gracias en gran medida a CLEF, se ha aumentado el interés de este modo la enciclopedia va aunando los conocimientos de los
otros sistemas QA como pueden ser los sistemas bilingües o internautas que se atrevan a plasmar sus conocimientos en
multilingües. formato electrónico.
Es evidente que estos sistemas requieren de técnicas de Actualmente Wikipedia cuenta con más de 7.063.168 artículos
traducción y de otras medidas de procesamiento que no se van a en los 253 idiomas8, y estas cifras son solamente las actuales, ya
tratar en el presente artículo. que probablemente cuando se lea este escrito, estas cifras ya
hayan aumentado, ya que cada día las nuevas tecnologías están
Actualmente existe algunos sistemas QA en funcionamiento más metidas en nuestro día a día, y las personas, cada vez en
(entre otros): más número, se inclinan hacia estas nuevas tendencias, cuyo
- START, Natural Languaje Question Answering objetivo es simplificar y facilitar las tareas realizadas por los
Sistem4 seres humanos.

- AnswerBus5
- Answer.com6

1
Issues, Tasks and Program Structures to Roadmap Research in 7
Question & Answering (Q & A) Wikipedia, La enciclopedia libre. [Ver:
2
TREC [Ver: http://trec.nist.gov/] http://www.wikipedia.org/]
8
3
CLEF [Ver: http://clef.isti.cnr.it/] Véase [http://es.wikipedia.org/wiki/Wikipedia]
4
Ver [http://start.csail.mit.edu/]
5
Ver [http://www.answerbus.com/index.shtml]
6
Ver [http://www.answers.com/bb/]
4.1 Segmentación:
Para poder tratar a cada palabra como una entidad propia y así
poder categorizarla previamente se ha de hacer este paso que
consiste en la división de los artículos en fragmentos y palabras.

4.2 Análisis Morfológico:


El análisis morfológico consiste en determinar la forma, clase o
categoría gramatical de cada palabra de una oración.

Un ejemplo9 es el siguiente (Freeling [1]):


Figura 2. Logo de Wikipedia

Quizás el motivo más relevante para que Wikipedia sea tan


importante en tan poco tiempo, puede ser a que ya son muchos
los que prefieren buscar en Internet en vez de consultar en una
gran enciclopedia de 10 tomos.

4. PROCESADO DE LA INFORMACIÓN
Típicamente los Sistemas QA procesan la información antes de
indexarla.
Los procesos a los que se somete normalmente la información
son parecidos a los que se estudiarán en el siguiente apartado, Figura 4. Ejemplo de Análisis Morfológico, FeeLing
ya que este procesamiento ha de tener concordancia con el
análisis de la pregunta.
El siguiente esquema representa un proceso típico:
4.3 Detección de Entidades:
Algunos sistemas y herramientas del procesamiento del
Información lenguaje natural son capaces de detectar entidades tipo fechas,
ciudades, etc.
Esto ayuda bastante ya que permite procesar datos en otros
formatos.

Segmentación
4.4 Etiquetado:
El etiquetado consiste en asignar una marca formada por cifras
y letras en las que se indica la categoría gramatical, género,
número, persona, tiempo, modo…
Análisis Morfológico Un papel muy importante juega la desambiguación, Jesús
Fernández [4] explica:

Detección de entidades

Etiquetado

Figura 5. Ejemplo de desambiguación en Freeling


Análisis sintáctico “El caso más significativo de este ejemplo es la palabra ‘mesa’
… podrá comprobar que se atribuía mayor probabilidad a la o
pción de que su lema fuera “mesa”, perteneciendo a la categorí
a de nombre común; sin embargo, tras realizar este análisis, es
elegido como lema “mesar”, al ser etiquetada la palabra como
Información procesada verbo principal de la oración (VM...).”10

9
Figura 3. Procesado típico. Freeling 1.5 [Ver:
http://garraf.epsevg.upc.es/freeling/demo.php]
10
Sistema de Question Answering basado en Wikipedia.
Se podrán definir típicamente como los más relevantes los
siguientes tipos de preguntas11:
4.5 Análisis Sintáctico:
El paso último es el análisis sintáctico. De todos los niveles de
análisis, la sintaxis ha sido durante mucho tiempo y aún sigue Si / No
siendo el nivel al que la lingüística le ha prestado mayor Son aquellas preguntas que esperan una contestación de forma
atención. Esta casi exclusiva atención se justifica por dos "booleana", si/no, verdadero/falso... Suelen ser las más sencillas
razones principales en cuanto al tratamiento automático del de tratar y su evaluación es prácticamente trivial. No son
lenguaje natural (Rich & Knight 1994 [5]): preguntas muy frecuentes en los usuarios.
1.El procesamiento semántico funciona sobre los constituyentes Concretas
de la oración. Si no existe un paso de análisis sintáctico, el Cuando un usuario quiere saber dónde se encuentra el edificio
sistema semántico debe identificar sus propios constituyentes. más grande del mundo, podría, preguntárselo como: ¿Dónde
Por otro lado, si se realiza un análisis sintáctico, se restringe está el edificio más grande del mundo?. Lo que el usuario busca
enormemente el número de constituyentes a considerar por el es un dato en concreto, un país, una ciudad, en definitiva un
semántico, mucho más complejo y menos fiable. El análisis lugar. Estas preguntas son relativamente fáciles de categorizar
sintáctico es mucho menos costoso computacionalmente ya que, el usuario deja claro que quiere algo en concreto
hablando que el análisis semántico (que requiere inferencias ayudando a esta categorización y a su vez, de manera implícita
importantes). Por tanto, la existencia de un análisis sintáctico a la acotación del campo de búsqueda.
conlleva un considerable ahorro de recursos y una disminución
de la complejidad del sistema. Listas
Típicamente, lo que el usuario quiere saber, es el resultado de la
2.Aunque frecuentemente se puede extraer el significado de una
unión de un número de datos concretos, por ejemplo: ¿Qué
oración sin usar hechos gramaticales, no siempre es posible
países forman parte de la OTAN? . El usuario, claramente, esta
hacerlo.
pidiendo una lista de países. Este tipo de preguntas suelen ser
La sintaxis contempla dos modos diferentes, pero no por ello bastante problemáticas debido a que, el sistema, nunca puede
opuestos, de análisis. El primero es el análisis de constituyentes saber la cardinalidad de la misma, no podría tampoco, saber si
o análisis de estructura de frase: la estructuración de las existen contradicciones.
oraciones en sus partes constituyentes y la categorización de
estas partes como nominales, verbales, adjetivales, etc. El Definiciones
segundo es el análisis de las relaciones o funciones Son preguntas normalmente sencillas de identificar y
gramaticales: la asignación de relacionales gramaticales tales categorizar. Por contra, son bastante difíciles de responder. El
como Sujeto, Objeto, etc. cómo seleccionar una respuesta adecuada es quizás la parte más
compleja de estas preguntas.
¿Qué es la vida?
4.6 Indexado:
Una vez procesada la información es necesario indexarla. Esta Los aspectos filosóficos, científicos, ideológicos, etc, así como
parte será explicada más adelante. el tipo de usuario (experto, casual, periodista, etc...) juegan un
papel que para el sistema es imposible de comprobar. Por otra
parte, la tarea de escoger una parte de un articulo como
definición de algo, es más que compleja.
5. ANALISIS DE LA PREGUNTA
El análisis de la pregunta es quizás la parte más importante del Preguntas Resumen
sistema, lo que pretende este bloque es aumentar las Típicamente la respuesta a estas preguntas esta oculta en varios
posibilidades de encontrar la respuesta, para ello se utilizan documento, por ejemplo: ¿Qué se dijo sobre el avance del SIDA
distintas metodologías. En este estudio se han analizado las en el continente Africano, en la última Conferencia Mundial
siguientes: Contra el SIDA?'
5.1 El etiquetado de la pregunta: Para poder contestar a esta pregunta haría falta, posiblemente,
Típicamente, el primer paso en los sistemas QA, para analizar la obtener datos de varios artículos, o generar un resumen. Podría
pregunta es hacer una segmentación, identificando decirse, que respondiendo con una lista de datos (en este caso,
morfológicamente las palabras de la consulta. Esto ayuda a frases sobre el VIH) el usuario obtendría su respuesta.
elegir las palabras que se van a buscar ya que es muy común dar
más importancia a un nombre que a una preposición. Preguntas de Contexto
Cuando dos personas entablan conversación, es frecuente que se
5.2 El tipo de la pregunta: hagan preguntas tipo: ¿Quien es el ministro de exteriores?
Una buena clasificación de la pregunta ayudará a acotar el Es evidente que la respuesta varía con el contexto, en este caso
campo de búsqueda de la respuesta, centrando así en la depende del país. En este tipo de preguntas es necesario
categoría semántica de la respuesta y ayudando, por lo tanto, a mantener éste contexto para poder responder adecuadamente.
"intuir" la respuesta esperada.
Preguntas en Temas Específicos
Ésta medida ayuda de manera significativa a la funcionalidad de Cuando un grupo de personas entablan conversación sobre un
los sistemas de respuesta automática, no obstante, la cantidad de tema, todas las preguntas obtienen un contexto implícito que un
tipos de preguntas puede llegar a ser muy elevada. Este sistema QA no puede obtener, es decir. Si dos personas hablan
problema originó en el estudio del llamado "foco" del que más sobre el grupo musical Rage Againts The Machine y la pregunta
tarde se hablará. es: ¿Cuando sacaron su último disco?

11
Clasificación definida por Diego Mollá [3]
Evidentemente un sistema QA no puede dar una respuesta el singular y el plural de un sustantivo en el singular; el
correcta a dicha pregunta, es más, ni si quiera es capaz de dar masculino y el femenino de un adjetivo en el masculino.
una respuesta, ya que no sabe de que se esta hablando, es decir,
no conoce el tema ni el contexto de la pregunta. Con esto se consigue identificar familias de palabras para
Preguntas Abiertas considerarlas como una sola. Es un dato muy importante para la
búsqueda de información ya que se consigue hacer
Al igual que las definiciones, este tipo de preguntas son
bastante complejas. independiente la búsqueda de tiempos verbales y otros.

Son preguntas tipo, ¿cómo?, ¿por qué?... A la pregunta: ¿Como 5.4.3 La Reformulación de la pregunta:
realizar un estudio sobre Procesamiento de Lenguaje Natural? Una vez más es importante destacar que, cuanto más preguntas
de distinto modo se tenga es más fácil encontrar la respuesta,
El sistema deberá recopilar listas de datos de diferentes para ello existe la posibilidad de la reformulación, obteniendo
documentos y generar un único documento automáticamente así plantillas con nuevas preguntas. Un ejemplo para explicarlo
mediante técnicas de generación de textos. puede ser:
P: ¿Quién mato a Kennedy?
5.3 El Foco R1: <alguien> mató a Kennedy.
El foco es una palabra o conjunto de palabras que toma especial R2: <alguien> fue el asesino de Kennedy.
relevancia dentro de un contexto y que esta directamente R3: Kennedy fue asesinado por <alguien>.
relacionada con el tipo de respuesta. La siguiente pregunta se R4: <alguien> es el asesino de Kennedy.
podría analizar:
¿Cuántos libros ha escrito Eduardo Mendoza?
Tipo de pregunta: Cuantos/as 6. BUSQUEDA DE INFORMACION
Entidad de la respuesta: <cantidad> La búsqueda de información se ha de realizar tras haber
Foco: libros analizado la pregunta y extraído los elementos útiles para la
búsqueda y por lo tanto para una correcta, y lo más posible
completa, respuesta.
Es evidente que la respuesta será algo del tipo <cantidad>
<libros>, es decir, que aun teniendo el mismo tipo de pregunta,
ahora se exige que esa cantidad sea de un tipo concreto (libros). Una vez se tienen estos elementos, se han de utilizar índices
para una eficiencia mayor a la hora de buscar, ya que al poder
tratarse de grandísimos volúmenes de información, una de las
5.4 La Expansión de la consulta: mayores preocupaciones deberá ser la optimización de tiempo
Uno de los problemas más importantes en estos sistemas es que, de respuesta.
es muy común que las preguntas realizadas por el usuario no
encajen con los documentos que se dispone.

Para solucionar este problema existen métodos de expansión de


la búsqueda, se podría decir que los actuales métodos son: palabra1 AND palabra2

5.4.1 Expansión por Sinónimos y palabras “vacías”


Como es lógico un programa no solamente puede esperar que el
usuario introduzca la palabra justa con la que se tiene definida
Índice
en el sistema de información, el dato en cuestión.
Para intentar “entender” mejor la pregunta que se le ha
realizado se utiliza la expansión de sinónimos que se ejecuta
Respuesta
sobre las palabras que no son vacías ( que no aportan “ningún”
significado a la frase), añadiendo los sinónimos de estas
palabras a la consulta hará en el índice. Así hay más posibilidad
de contestar adecuadamente a la pregunta, ya que en un buen Búsqueda en la
programa que utilice análisis sintáctico podrá definir cada parte Base de Datos
de la frase, y utilizar la acepción correspondiente en cada caso,
ya que una palabra dependiendo del contexto puede tener
significados totalmente distintos.
Figura 6. Esquema de Consultas
Las palabras vacías mencionadas anteriormente pueden variar
mucho, dependiendo sobre todo de la funcionalidad
implementada, así para un programa sin análisis sintáctico o El uso de estos índices es simple, se comprueba que las palabras
morfológico, los determinantes como “el” o “una” podrían ser están en el índice y si aparecen, en cada una de las entradas hay
eliminados puesto que serán elementos a descartar siendo un campo que indica donde se encuentran las coincidencias.
analizados solo los sustantivos y el tipo de pregunta.
Tras encontrar las coincidencias y extraídas las frases, artículos
5.4.2 Lematización: o documentos, es necesario pasar al siguiente módulo para
Lematizar consiste en la reducción de las diferentes formas ponderar y valorar todos los fragmentos encontrados y así poder
flexivas de una palabra a la forma canónica, su lema, es decir decidir cual es el que representa la respuesta más adecuada.
reagrupar las distintas inflexiones de un verbo en el infinitivo;
7. EXTRACCIÓN DE LA RESPUESTA 8. IMPLEMENTACIÓN DE UNA
Ahora es necesario obtener la respuesta correcta, esto no es una APLICACIÓN PARA EL ESTUDIO DE
cuestión trivial y actualmente existen muchas maneras de
realizarlo. SISTEMAS QUESTION ANSWERING
Se ha optado por implementar un “mini” sistema para realizar
pruebas y hacer estudios sobre los resultados obtenidos tras
Típicamente los sistemas siguen el siguiente esquema: probar diferentes metodologías.

7.1: Selección de frases relevantes: 8.1 El Sistema


Una vez que se tiene toda una lista de frases es necesario El programa implementado en cuestión se trata de un sistema de
eliminar aquellas que no contengan ninguna palabra o expresión respuesta automática que analizará la pregunta introducida por
de la consulta. el usuario mediante un interfaz Web, programado en PHP12 y
HTML13.
7.2: Selección de frases candidatas a El dominio de las preguntas serán las ciudades españolas y la
respuestas: fuente de información será Wikipedia donde se encuentran
Aquellas frases que han pasado el primer filtrado, son ahora recogidas, en un archivo, alrededor de unas 7000 ciudades, y la
categorizadas semánticamente, etiquetadas y analizadas junto a información relacionada con ellas.
la pregunta par comprobar su similitud en cuanto a Las preguntas tipo para este sistema serán algunas como por
concordancia. ejemplo “¿Cuál es el código postal de Barcelona?”

7.3 Eliminación-unión de frases similares: 8.2 Arquitectura del Sistema


Tras el filtro anterior, ahora se procede a eliminar-unir las frases Como es normal en estos sistemas, mantiene la arquitectura
similares, por ejemplo: “un millón” y “1.000.000. típica:

7.4 Cálculo de la frase más relevante: 8.2.1 Procesado de Información


Existen muchos métodos de puntuar las respuestas obtenidas en La elección fue Wikipedia de la que se extrajeron todos los
este paso, normalmente queda a gusto del desarrollador. Es artículos de ciudades españolas.
evidente que esto solo se usa para complementar. Wikipedia es fácil de tratar debido a su estructura simple.
Todos los artículos están en un único documento y muy bien
definidos

La sintaxis de un artículo de Wikipedia es la siguiente:


Lista de Relevantes
<page>
Frases
Frases <title>[...]</title>

<id> [...] </id>


Frases eliminadas [...](otras etiquetas de la página)
Candidatas <text>
[...] (contenido)
</text>
No similares </revision>
Frases
Frases </page>

En el caso estudiado solamente, se procesó la información de


las ciudades españolas, estas ciudades corresponde con:
Técnicas
propias {{Infobox ciudad España
| atributo 1 = valor_atributo 1
[...]
| atributo n = valor_atributo n
}}

Respuesta
12
PHP es un acrónimo de “PHP: Hypertext Preprocessor”.
Lenguaje de código abierto que puede ser embebido en páginas
HTML (típicas páginas web) y que se ejecuta en el servidor.
[Ver: http://www.php.net/]
13
Figura 7. Pasos de la Extracción de la Respuesta HTML es un acrónimo de “Hyper Text Markup
Language”, [Ver: http://es.wikipedia.org/wiki/HTML]
Tras extraer la información, el sistema (parte que se realiza a la
hora de mostrar la respuesta) limpia el resto de gramática de
Wikipedia (paréntesis, imágenes, etc).
La información es guardada en un fichero por cada ciudad
encontrada.
A su vez se realiza un índice de todas las ciudades encontradas,
dicho índice tomará un papel importante en el análisis de la
pregunta.

Queda patente que no se han utilizado ninguna de las técnicas


estudiadas sobre el procesamiento de la información. De aquí se
derivan muchos de los problemas que se expondrán más
adelante.

8.2.2 Análisis de la pregunta


El análisis de la de este sistema se caracteriza por buscar un
foco específico, es decir, el sistema busca una ciudad concreta
en la pregunta, para después buscar frases sobre esta ciudad.

Esto hace que el sistema sea capaz de responder a preguntas


tipo ¿cual el es gentilicio de Madrid? mientras que es imposible
que responda a ¿de donde son los Matritenses? ya que no
encuentra ningún nombre de ciudad.
No obstante este módulo si dispone de la expansión por Figura 8. Ejemplo de respuesta
sinónimos ayudando a la búsqueda.
8.3.2 Expansión por sinónimos
8.2.3 Búsqueda de la respuesta
Como se ha comentado, inicialmente se basa en el foco (en la
ciudad) donde el sistema busca dicha ciudad en el índice, para
después, tras encontrar esta ciudad proceder a buscar la
información relativa a la pregunta.
El sistema busca las palabras y si no las encuentra procede a la
expansión por sinónimos.
8.2.4 Extracción de la respuesta
Este sistema tiene una extracción trivial ya que, el formato de
información es atributo1 = respuesta1, de esta manera no hace
falta ponderar las respuestas.
Queda bastante claro que este sistema solo es capaz de
responder a preguntas donde la consulta disponga de palabras
claves que sean atributoN (o sinónimos de la misma).
Siendo así, queda patente que el sistema nunca podrá responder
a preguntas como ¿que ciudades tienen por población más de 1
millón de personas? ya que la pregunta no indica un atributo
sino una respuesta. Figura 9. Ejemplo de respuesta con expansión por sinónimos
Claramente el sistema responde ante preguntas que necesitan de
sinónimos.
8.3 Contestando a Preguntas:
Un dato a tener en cuenta es la lentitud que conlleva realizar la
A continuación se van a estudiar tres casos simples14: expansión por sinónimos.
8.3.1 Respuesta Correcta:
Como se puede observar, el sistema responde correctamente 8.3.3 Respuesta Incorrecta:
ante preguntas tan simples como esta.
Al realizar ciertas consultas, el programa no “entiende”
Es importante advertir que las palabras que se están haciendo en expresiones que signifiquen lo mismo que las palabras que tiene
la pregunta son exactamente las que se va a encontrar en la almacenadas.
fuente de información, de ahí que el sistema conteste sin ningún Esto podría solucionarse con el análisis sintáctico de palabras e
problema. interpretando el significado de estas frases, así como se puede
ver en el ejemplo “¿Quién gobierna en Madrid?” sería el alcalde
de una determinada de esta ciudad.
Además el programa intenta realizar la expansión de sinónimos
14
Para acceder a este programa lo que conlleva también lentitud en la respuesta, además de no
[http://plato.it.uc3m.es/~daparicio/IRC/buscainfo.php] ser correcta.
Únicamente estará disponible a fecha de enero de 2008.
complejas dentro del campo del Procesamiento del Lenguaje
Natural.
Los Sistemas QA depende de distintas partes que por sí solas
son bastante complicadas.

Una fuente de información debe ser fiable, estos datos deben ser
procesados con complejas técnicas de etiquetado y análisis con
el fin de hacer los sistemas más rápidos, fiables, seguros y
eficaces.
Los sistemas de ficheros y gestores de bases de datos con sus
módulos de búsqueda de datos juegan un papel más que
relevante pues, en gran medida, de sus capacidades dependerá
tanto la eficacia, como la seguridad y la rapidez del sistema.

Por otra parte, y puede que sea la más importante, el análisis de


la pregunta es lo que verdaderamente va a indicar que datos se
han de buscar. Un buen procesado de la consulta permitirá
Figura 10. Ejemplo de respuesta no respondida acotar el dominio de la búsqueda a la vez que expandir las
posibilidades en las que puede estar escrita la respuesta.
Quizás lo más relevante de este caso sea que el sistema no es
Por último y no menos importante la extracción de la respuesta
que no disponga de la información, sino que no es capaz de
y el procesado que ello conlleva, es lo que finalmente va a
encontrarla. Las técnicas que se estudiaron en apartados
extraer la respuesta a la pregunta hecha. Este módulo debe estar
anteriores sobre el procesamiento de la información y más aún
bien estudiado ya que de las diferentes metodologías que se
las estudiadas en el análisis de la pregunta, hubiesen hecho que
utilicen para elegir la respuesta adecuada dependerá todo el
respondiese correctamente.
sistema.
Estudiando el primer caso, ¿Quién gobierna en Madrid?, si se
Existen otros casos de estudio como los sistemas bilingües o
hubiese hecho un análisis morfológico y una simple
multilingües donde los sistemas tienen la capacidad de
reformulación de la pregunta se hubiese tenido una frase tipo:
responder en cualquier idioma.
<alguien> es gobernador de Madrid
Como gobernador es un sinónimo de alcalde, el sistema hubiese
Para concluir, se dirá que existen tres líneas de investigación
respondido correctamente.
claramente definidas:
- Análisis de la Pregunta
9. CONCLUSIONES Y LINEAS FUTURAS - Procesado y búsqueda de la información.
- Extracción de la respuesta
9.1 Sobre el Sistema
Una mejora importante a tener en cuenta sería el desarrollo de
algún tipo de función o un módulo que se encargara de analizar 10.REFERENCIAS
sintácticamente las sentencias, puesto que una palabra puede [1] Atserias, J., B. Casas, E. Comelles, M.González, L. Padró
significar distintas cosas dependiendo del papel que desempeñe. y M. Padró. 2006.
Freeling 1.3: Syntactic and semantic services in an open-
Análogamente al punto anterior, el etiquetado morfológico es source NLP library. Proceedings of the 5th International
imprescindible para la mejora de este sistema. Conference on Language Resources and Evaluation
(LREC'06). Genoa, Italy.
En base a la optimización en cuanto a tiempo de acceso sería, http://www.lsi.upc.es/~bcasas/publications/
ya que como se conocen las respuestas que se van a dar se Ver más referencias de freeling:
puede intuir las preguntas que se realizarán y por tanto eliminar http://garraf.epsevg.upc.es/freeling/index.php?option=co
líneas del archivo de sinónimos que muy probablemente no se m_content&task=view&id=20&Itemid=49
utilicen. Siempre y cuando la expansión por sinónimos se haga [2] Burger, John y Claire Cardie, Vinay Chaudhri, Robert
en la parte referente a la información y no a la consulta Gaizauskas, Sanda Harabagiu, David Israel, Christian
evidentemente. Jacquemin, Chin-Yew Lin, Steve Maiorano, George
Miller, Dan Moldovan, Bill Ogden, John Prager, Ellen
Por supuesto, el aumento de información siempre hace que un Riloff, Amit Singhal, Rohini Shrihari, Tomek
sistema tenga más posibilidad de responder, el sistema Strzalkowski, Ellen Voorhees y Ralph Weishedel.
implementado depende de un dominio demasiado pequeño. Issues, Tasks and Program Structures to Roadmap
Research in Question & Answering (Q & A)
Una funcionalidad que podría tener mucha utilidad sobre todo http://www-
para extranjeros que quieran visitar determinadas ciudades del nlpir.nist.gov/projects/duc/papers/qa.Roadmap-
país y quieren consultar información, sería realizar la paper_v2.doc
aplicación, al menos, bilingüe. Necesitaría de un módulo [3] Diego Mollá.
traductor. Sistemas de Búsqueda de Respuesta.
[4] Jesús Fernández Benito.
9.2 Sobre el Estudio: Sistema de Question Answering basado en Wikipedia,
Proyecto de fin de Carrera.
Tras este estudio, se puede concluir que los Sistemas de [5] Rich, E. & K. Knight, 1991. Artificial Intelligence. New
Respuesta Automática son quizás las herramientas más York: McGraw-Hill.

También podría gustarte