Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DE LA INFORMACIN
INGENIERA INFORMTICA
RECUPERACIN Y ACCESO A LA
INFORMACIN
MODELOS DE RECUPERACION
AUTOR:
1
INDICE
2
1- INTRODUCCIN A LOS MODELOS DE RECUPERACIN.
Segn la mayora de estudios que se han estado realizando en los ltimos aos la
recuperacin y organizacin de la informacin es uno de los aspectos que han
cobrado un mayor relevancia. En la actualidad estos estudios resaltan la vital
importancia que ha cobrado ese campo. Esto se debe en gran medida a que los
buscadores de internet estn situados como el primer mtodo utilizado para obtener
cualquier tipo de informacin sea para el uso que sea (acadmico, ldico, empresarial).
Debido a esto es de vital importancia conocer cuales son los mtodos o modelos
de recuperacin utilizados por los grandes buscadores (booleano, probabilstico,
vectorial). En los ltimos aos y debido a los intereses econmicos derivados de
buenos posicionamientos en los distintos buscadores se est produciendo un boom en
todos los campos relacionados con este tema, por tanto es necesario conocer como se
estructuran los modelos de recuperacin con anterioridad.
3
Modelo Probabilistico: El modelo de recuperacin probabilstico se basa en la
equiparacin probabilstica, dados un documento y una pregunta, es posible
calcular la probabilidad de que ese documento sea relevante para esa pregunta.
3.1.-Caractersticas Principales
Es un modelo de recuperacin simple, basado en la teora de conjuntos y el
lgebra booleana. Dada su inherente simplicidad y su pulcro formalismo ha recibido
gran atencin y sido adoptado por muchos de los primeros sistemas bibliogrficos
comerciales. Su estrategia de recuperacin est basada en un criterio de decisin binario
(pertinente o no pertinente) sin ninguna nocin de escala de medida, sin nocin de un
emparejamiento parcial en las condiciones de la pregunta.
4
El mtodo de ordenacin puede ser el nmero de identificacin de los
documentos que agrupan los trminos a recuperar. Para todo esto necesitaremos, una
funcin que nos devuelva los identificadores de los documentos que contienen el
trmino de la bsqueda, lo cual es sencillo si miramos el archivo invertido y luego se
mezclan las listas.
4.2.- Funcionamiento.
d1=(1, 2, 0, 0, 0, ... ... ..., 1, 3) : Siendo cada uno de estos valores el nmero de
veces que aparece cada trmino en el documento.
La longitud del vector de documentos sera igual al total de trminos de la matriz (el
nmero de columnas).
5
De esta manera, un conjunto de m documentos se almacenara en una matriz de
m filas por n columnas, siendo n el total de trminos almacenamos en ese conjunto de
documentos. La segunda idea asociada a este modelo es calcular la similitud entre la
pregunta (que se convertira en el vector pregunta, expresado en funcin de la aparicin
de los n trminos en la expresin de bsqueda) y los m vectores de documentos
almacenados. Los ms similares seran aquellos que deberan colocarse en los primeros
lugares de la respuesta.
Para finalizar, la del coseno no es la nica funcin de similitud. Existen otras, las
cuales no son difciles de calcular sino ms bien de interpretar y que por tanto son
menos aplicadas en Recuperacin de Informacin.
6
4.4.1- Funcionamiento.
P(rel) = n/ N
P(rel) = 1 - P (rel) = N - n/ N
7
Obviamente, los documentos no son elegidos aleatoriamente, sino que se eligen
sobre la base de la equiparacin con la pregunta basado en el anlisis de los trminos
contenidos en ambos. As, la idea de relevancia est relacionada con los trminos de
la pregunta que aparecen en el documento.
Una pregunta dada divide la coleccin de documentos en dos conjuntos: los que
responden a la pregunta y los que no.