Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Palabras Clave
Sistema Question Answering, Recuperación de Información, ANÁLISIS DE
Respuesta Automática, Procesamiento del Lenguaje Natural. ¿? LA
1. INTRODUCCIÓN PREGUNTA
EXTRACCIÓN
2. SISTEMAS DE RESPUESTA DE
AUTOMÁTICA LA
2.1 ¿Qué es la búsqueda de respuestas? RESPUESTA
Más allá de aspectos filosóficos, la búsqueda de respuestas no
es más que cubrir una necesidad, es decir, dar solución a un
problema, y en este caso es tan sencillo como responder.
El problema más importante en responder es la información de Figura 1. Arquitectura típica de un Sistema QA
la que se dispone. Es sencillo responder a una pregunta si se
dispone de la información adecuada y evidentemente, si no se
dispone de esta información es complicado responderla (por Análisis de la Pregunta: Esta parte se encarga de transformar
mucho que se invente o improvise la respuesta). Por esta misma una consulta a la forma correspondiente para que sea
razón se podría decir que no existen preguntas sin respuesta, si “entendible” por la máquina. Para ello se utilizan herramientas
no, falta de información. del Procesamiento del Lenguaje Natural donde además de hacer
Típicamente, los usuarios de los ordenadores, realizan consultas entendible la consulta, se categoriza, se analiza
en buscadores para obtener la información necesaria para morfológicamente, etc... En definitiva se extrae la suficiente
satisfacer sus preguntas. Primeramente obtienen una lista de cantidad de información para que el sistema sea más eficiente.
enlaces e información y después, tras un tiempo leyendo y
Búsqueda de Información: Es típico en los sistemas QA 3. LA FUENTE DE INFORMACIÓN
disponer de un sistema de de Recuperación de Información de La fuente de información de un sistema QA es, quizás, la
texto (documentos, párrafos...), que devuelva una colección de elección más delicada, puesto que va a condicionar todo el
documentos importantes y relevantes relacionada con la cadena sistema.
introducida.
Extracción de la Respuesta: Tras obtener una lista de La información a la que tiene acceso un usuario en internet,
documentos o texto relevante se ha de procederá a la elección periódicos, libros, etc... puede ser correcta o incorrecta, y es el
de la mejor respuesta y por supuesto extraerla. Para elegir la propio usuario quien se encarga de comprobar si es verídica o
mejor respuesta existen diferentes métodos. no por sus propias fuentes, argumentos u otros. Por contra, un
sistema QA debe tener la información lo más verídica y objetiva
2.3 Características de los sistemas QA posible, ya que, en caso de no ser fiable su información,
Estas características fueron fijadas en el 20021[2]: responderá incorrectamente.
Exactitud: El sistema debe ser todo lo exacto que pueda. Análogamente, el tamaño o cantidad de documentos y de
artículos de diferentes temas, hace que un sistema QA tenga
“Usabilidad”: Ha de responder de la manera más fiel al formato mas posibilidades de encontrar una respuesta. Gracias a que hoy
de la pregunta. día las limitaciones físicas, por suerte, no son un gran problema
Independiente en tiempo: Ha de dar respuesta a preguntas en el mundo de la informática, los sistemas QA pueden procesar
actuales y recientes. una cantidad asombrosa de datos y por lo tanto tratar fuentes de
información de tamaños realmente extensas.
Relevancia: Debe dar respuestas relevantes y si no es posible
debe consultar la usuario. Por otra parte, la información ha de ser dinámica, en constante
actualización para que día a día los usuarios tengan acceso a
Respuesta Completa: La respuesta ha de ser lo más completa más y más información. Como ocurre con las personas, un
posible aun siendo necesario la unión de frases que quizás están sistema QA debe tener las noticias del día, argumentos
en distintos documentos. novedosos y en general datos recientes con los que poder
responder a preguntas nuevas y de actualidad.
2.4 Desarrollo mundial y tipos de sistemas
Hoy día existen diferentes grupos en todo el mundo que Cuando estas tres características se unen, fiabilidad, tamaño y
investigan sobre los sistemas QA. En Estados unidos, en 1992, dinamismo, y se consigue una fuente de información que
nació el TREC (Text REtrieval Conference)2 con el fin de crear cumpla las tres a la perfección, se podría decir que ésta fuente
una comunidad de investigadores en sistemas de recuperación sería la elegida por todos los sistemas QA y en general por
de Información. cualquier usuario.
- AnswerBus5
- Answer.com6
1
Issues, Tasks and Program Structures to Roadmap Research in 7
Question & Answering (Q & A) Wikipedia, La enciclopedia libre. [Ver:
2
TREC [Ver: http://trec.nist.gov/] http://www.wikipedia.org/]
8
3
CLEF [Ver: http://clef.isti.cnr.it/] Véase [http://es.wikipedia.org/wiki/Wikipedia]
4
Ver [http://start.csail.mit.edu/]
5
Ver [http://www.answerbus.com/index.shtml]
6
Ver [http://www.answers.com/bb/]
4.1 Segmentación:
Para poder tratar a cada palabra como una entidad propia y así
poder categorizarla previamente se ha de hacer este paso que
consiste en la división de los artículos en fragmentos y palabras.
4. PROCESADO DE LA INFORMACIÓN
Típicamente los Sistemas QA procesan la información antes de
indexarla.
Los procesos a los que se somete normalmente la información
son parecidos a los que se estudiarán en el siguiente apartado, Figura 4. Ejemplo de Análisis Morfológico, FeeLing
ya que este procesamiento ha de tener concordancia con el
análisis de la pregunta.
El siguiente esquema representa un proceso típico:
4.3 Detección de Entidades:
Algunos sistemas y herramientas del procesamiento del
Información lenguaje natural son capaces de detectar entidades tipo fechas,
ciudades, etc.
Esto ayuda bastante ya que permite procesar datos en otros
formatos.
Segmentación
4.4 Etiquetado:
El etiquetado consiste en asignar una marca formada por cifras
y letras en las que se indica la categoría gramatical, género,
número, persona, tiempo, modo…
Análisis Morfológico Un papel muy importante juega la desambiguación, Jesús
Fernández [4] explica:
Detección de entidades
Etiquetado
9
Figura 3. Procesado típico. Freeling 1.5 [Ver:
http://garraf.epsevg.upc.es/freeling/demo.php]
10
Sistema de Question Answering basado en Wikipedia.
Se podrán definir típicamente como los más relevantes los
siguientes tipos de preguntas11:
4.5 Análisis Sintáctico:
El paso último es el análisis sintáctico. De todos los niveles de
análisis, la sintaxis ha sido durante mucho tiempo y aún sigue Si / No
siendo el nivel al que la lingüística le ha prestado mayor Son aquellas preguntas que esperan una contestación de forma
atención. Esta casi exclusiva atención se justifica por dos "booleana", si/no, verdadero/falso... Suelen ser las más sencillas
razones principales en cuanto al tratamiento automático del de tratar y su evaluación es prácticamente trivial. No son
lenguaje natural (Rich & Knight 1994 [5]): preguntas muy frecuentes en los usuarios.
1.El procesamiento semántico funciona sobre los constituyentes Concretas
de la oración. Si no existe un paso de análisis sintáctico, el Cuando un usuario quiere saber dónde se encuentra el edificio
sistema semántico debe identificar sus propios constituyentes. más grande del mundo, podría, preguntárselo como: ¿Dónde
Por otro lado, si se realiza un análisis sintáctico, se restringe está el edificio más grande del mundo?. Lo que el usuario busca
enormemente el número de constituyentes a considerar por el es un dato en concreto, un país, una ciudad, en definitiva un
semántico, mucho más complejo y menos fiable. El análisis lugar. Estas preguntas son relativamente fáciles de categorizar
sintáctico es mucho menos costoso computacionalmente ya que, el usuario deja claro que quiere algo en concreto
hablando que el análisis semántico (que requiere inferencias ayudando a esta categorización y a su vez, de manera implícita
importantes). Por tanto, la existencia de un análisis sintáctico a la acotación del campo de búsqueda.
conlleva un considerable ahorro de recursos y una disminución
de la complejidad del sistema. Listas
Típicamente, lo que el usuario quiere saber, es el resultado de la
2.Aunque frecuentemente se puede extraer el significado de una
unión de un número de datos concretos, por ejemplo: ¿Qué
oración sin usar hechos gramaticales, no siempre es posible
países forman parte de la OTAN? . El usuario, claramente, esta
hacerlo.
pidiendo una lista de países. Este tipo de preguntas suelen ser
La sintaxis contempla dos modos diferentes, pero no por ello bastante problemáticas debido a que, el sistema, nunca puede
opuestos, de análisis. El primero es el análisis de constituyentes saber la cardinalidad de la misma, no podría tampoco, saber si
o análisis de estructura de frase: la estructuración de las existen contradicciones.
oraciones en sus partes constituyentes y la categorización de
estas partes como nominales, verbales, adjetivales, etc. El Definiciones
segundo es el análisis de las relaciones o funciones Son preguntas normalmente sencillas de identificar y
gramaticales: la asignación de relacionales gramaticales tales categorizar. Por contra, son bastante difíciles de responder. El
como Sujeto, Objeto, etc. cómo seleccionar una respuesta adecuada es quizás la parte más
compleja de estas preguntas.
¿Qué es la vida?
4.6 Indexado:
Una vez procesada la información es necesario indexarla. Esta Los aspectos filosóficos, científicos, ideológicos, etc, así como
parte será explicada más adelante. el tipo de usuario (experto, casual, periodista, etc...) juegan un
papel que para el sistema es imposible de comprobar. Por otra
parte, la tarea de escoger una parte de un articulo como
definición de algo, es más que compleja.
5. ANALISIS DE LA PREGUNTA
El análisis de la pregunta es quizás la parte más importante del Preguntas Resumen
sistema, lo que pretende este bloque es aumentar las Típicamente la respuesta a estas preguntas esta oculta en varios
posibilidades de encontrar la respuesta, para ello se utilizan documento, por ejemplo: ¿Qué se dijo sobre el avance del SIDA
distintas metodologías. En este estudio se han analizado las en el continente Africano, en la última Conferencia Mundial
siguientes: Contra el SIDA?'
5.1 El etiquetado de la pregunta: Para poder contestar a esta pregunta haría falta, posiblemente,
Típicamente, el primer paso en los sistemas QA, para analizar la obtener datos de varios artículos, o generar un resumen. Podría
pregunta es hacer una segmentación, identificando decirse, que respondiendo con una lista de datos (en este caso,
morfológicamente las palabras de la consulta. Esto ayuda a frases sobre el VIH) el usuario obtendría su respuesta.
elegir las palabras que se van a buscar ya que es muy común dar
más importancia a un nombre que a una preposición. Preguntas de Contexto
Cuando dos personas entablan conversación, es frecuente que se
5.2 El tipo de la pregunta: hagan preguntas tipo: ¿Quien es el ministro de exteriores?
Una buena clasificación de la pregunta ayudará a acotar el Es evidente que la respuesta varía con el contexto, en este caso
campo de búsqueda de la respuesta, centrando así en la depende del país. En este tipo de preguntas es necesario
categoría semántica de la respuesta y ayudando, por lo tanto, a mantener éste contexto para poder responder adecuadamente.
"intuir" la respuesta esperada.
Preguntas en Temas Específicos
Ésta medida ayuda de manera significativa a la funcionalidad de Cuando un grupo de personas entablan conversación sobre un
los sistemas de respuesta automática, no obstante, la cantidad de tema, todas las preguntas obtienen un contexto implícito que un
tipos de preguntas puede llegar a ser muy elevada. Este sistema QA no puede obtener, es decir. Si dos personas hablan
problema originó en el estudio del llamado "foco" del que más sobre el grupo musical Rage Againts The Machine y la pregunta
tarde se hablará. es: ¿Cuando sacaron su último disco?
11
Clasificación definida por Diego Mollá [3]
Evidentemente un sistema QA no puede dar una respuesta el singular y el plural de un sustantivo en el singular; el
correcta a dicha pregunta, es más, ni si quiera es capaz de dar masculino y el femenino de un adjetivo en el masculino.
una respuesta, ya que no sabe de que se esta hablando, es decir,
no conoce el tema ni el contexto de la pregunta. Con esto se consigue identificar familias de palabras para
Preguntas Abiertas considerarlas como una sola. Es un dato muy importante para la
búsqueda de información ya que se consigue hacer
Al igual que las definiciones, este tipo de preguntas son
bastante complejas. independiente la búsqueda de tiempos verbales y otros.
Son preguntas tipo, ¿cómo?, ¿por qué?... A la pregunta: ¿Como 5.4.3 La Reformulación de la pregunta:
realizar un estudio sobre Procesamiento de Lenguaje Natural? Una vez más es importante destacar que, cuanto más preguntas
de distinto modo se tenga es más fácil encontrar la respuesta,
El sistema deberá recopilar listas de datos de diferentes para ello existe la posibilidad de la reformulación, obteniendo
documentos y generar un único documento automáticamente así plantillas con nuevas preguntas. Un ejemplo para explicarlo
mediante técnicas de generación de textos. puede ser:
P: ¿Quién mato a Kennedy?
5.3 El Foco R1: <alguien> mató a Kennedy.
El foco es una palabra o conjunto de palabras que toma especial R2: <alguien> fue el asesino de Kennedy.
relevancia dentro de un contexto y que esta directamente R3: Kennedy fue asesinado por <alguien>.
relacionada con el tipo de respuesta. La siguiente pregunta se R4: <alguien> es el asesino de Kennedy.
podría analizar:
¿Cuántos libros ha escrito Eduardo Mendoza?
Tipo de pregunta: Cuantos/as 6. BUSQUEDA DE INFORMACION
Entidad de la respuesta: <cantidad> La búsqueda de información se ha de realizar tras haber
Foco: libros analizado la pregunta y extraído los elementos útiles para la
búsqueda y por lo tanto para una correcta, y lo más posible
completa, respuesta.
Es evidente que la respuesta será algo del tipo <cantidad>
<libros>, es decir, que aun teniendo el mismo tipo de pregunta,
ahora se exige que esa cantidad sea de un tipo concreto (libros). Una vez se tienen estos elementos, se han de utilizar índices
para una eficiencia mayor a la hora de buscar, ya que al poder
tratarse de grandísimos volúmenes de información, una de las
5.4 La Expansión de la consulta: mayores preocupaciones deberá ser la optimización de tiempo
Uno de los problemas más importantes en estos sistemas es que, de respuesta.
es muy común que las preguntas realizadas por el usuario no
encajen con los documentos que se dispone.
Respuesta
12
PHP es un acrónimo de “PHP: Hypertext Preprocessor”.
Lenguaje de código abierto que puede ser embebido en páginas
HTML (típicas páginas web) y que se ejecuta en el servidor.
[Ver: http://www.php.net/]
13
Figura 7. Pasos de la Extracción de la Respuesta HTML es un acrónimo de “Hyper Text Markup
Language”, [Ver: http://es.wikipedia.org/wiki/HTML]
Tras extraer la información, el sistema (parte que se realiza a la
hora de mostrar la respuesta) limpia el resto de gramática de
Wikipedia (paréntesis, imágenes, etc).
La información es guardada en un fichero por cada ciudad
encontrada.
A su vez se realiza un índice de todas las ciudades encontradas,
dicho índice tomará un papel importante en el análisis de la
pregunta.
Una fuente de información debe ser fiable, estos datos deben ser
procesados con complejas técnicas de etiquetado y análisis con
el fin de hacer los sistemas más rápidos, fiables, seguros y
eficaces.
Los sistemas de ficheros y gestores de bases de datos con sus
módulos de búsqueda de datos juegan un papel más que
relevante pues, en gran medida, de sus capacidades dependerá
tanto la eficacia, como la seguridad y la rapidez del sistema.