Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sistemas de
Recuperación de la
Información
Prof. Antonio Muñoz Jiménez
PSI Biblioteconomía y Documentación
antonio.munoz@uco.es
Tema 2. Sistemas de Recuperación de la
Información
1. La información documental
1. El proceso de información documental
2. Fases del proceso de información documental
3. El concepto de información documental
4. Tipología documental
5. Estudio de usuarios
2. La documentación, modo informativo
1. Los sistemas de conservación
2. La organización documental
3. La recuperación de la información
1. La Recuperación de Datos (RD) vs. la Recuperación de la Información (RI)
2. Sistemas de Recuperación de Información (SRI)
1. Funciones del SRI
2. Evolución del SRI
3. Modelos de SRI
4. Componentes del SRI
De la necesidad de información a la RI
Problem space
(INGWERSEN, 1992)
1. La información documental
RECEPTOR
Información
Proceso de
Tratamiento y información
Situación: necesidad elaboración de un documental
de información mensaje
Recopilación de
datos
DOCUMENTALISTA
1.1. El proceso de información documental
Recopilación. Fase acumulativa con el objetivo de conservar esos mensajes para el futuro. Por
esta vía, el documento se incorpora a un fondo.
«Fase de traslado». Paso del mensaje a un soporte que garantice su supervivencia a lo largo del
tiempo.
Análisis. Debe aportar los datos más importantes del documento en cuestión, de forma abreviada
y lo más completa posible. Así pues, incluirá su identificación (catalogación), su ordenación
temática (clasificación) y la descripción de su contenido (resumen).
Organización y conservación. Por un lado, estaría la ordenación de los materiales, uno de los
procesos más importantes y delicados. Por su parte, la conservación tiende tanto al
almacenamiento como al mantenimiento en sí de la documentación. Organización —i.e.
accesibilidad— y conservación —i.e. disponibilidad— son dos elementos que no se pueden
desligar el uno del otro.
Fase de difusión. Puesta a disposición del «público».
Recuperación de la información
1.3. El concepto de información
documental La información transmitida no es la
original, ¿Modifica su
conocimiento?
RECEPTOR
Información
Proceso de
Tratamiento y información
Situación: necesidad elaboración de un documental
de información mensaje
Recopilación de
datos
DOCUMENTALISTA
Depende de:
La naturaleza del soporte documental
El carácter de los documentos
Agentes destructores
2.1. Los sistemas de conservación
Digitalizar
Adoptar prohibiciones que eviten los daños
Extremar la limpieza
Procesos conservativos
Deacidificación del papel
Evitar la exposición a luz
Control de las condiciones atmosféricas
Ubicación propicia
Separación
2.2. La organización documental
Labor de almacenamiento: operación que consiste en disponer los documentos en las mejores
condiciones posibles de conservación y utilización.
Depende de las posibilidades de las que dispongamos
Tipo de local y equipamiento
Naturaleza y tipos de documentos
Frecuencia de consulta
Formas de almacenamiento
Horizontal
Perpendicular
Vertical
Formas de ordenación
Numérica: por orden de entrada
Sistemática: por temáticas
3. La recuperación de la información
Son una clase de sistemas de información que tratan con las bases de datos compuestas por
documentos (DOCS) y procesan las consultas de los usuarios permitiéndoles acceder a la
información relevante en un intervalo de tiempo apropiado.
Las consultas (REQS) son sentencias formales mediante las cuales el usuario expresas sus
necesidades de información, formuladas en un lenguaje de consulta (LANG).
3.2.1. Funciones del SRI
CHORDHURY (1999)
1. Identificar las fuentes de información relevantes a las áreas de interés de las solicitudes de los usuarios.
2. Analizar los contenidos de los documentos.
3. Representar los contenidos de las fuentes analizadas de una manera que sea adecuada para compararlas con
las preguntas de los usuarios.
4. Analizar las preguntas de los usuarios y representarlas de una forma que sea adecuada para compararlas con
las representaciones de los documentos de la base de datos.
5. Realizar la correspondencia entre la representación de la búsqueda y los documentos almacenados en la base
de datos.
6. Recuperar la información relevante
7. Realizar los ajustes necesarios en el sistema basados en la retroalimentación con los usuarios
3.2.2. Evolución del SRI
BAEZA-YATES (1999)
Desarrollos iniciales. Ya existían métodos de recuperación de información en las antiguas colecciones de papiros.
Otro ejemplo clásico que se ha venido utilizando es la tabla de contenidos de un libro, sustituida por otras
estructuras más complejas a medida que ha crecido el volumen de información. La evolución lógica de la tabla de
contenidos es el índice, estructura que aún constituye el núcleo de los SRI actuales.
Recuperación de información en las bibliotecas. Fueron las primeras instituciones en adoptar estos sistemas.
Originalmente fueron desarrollados por ellas mismas y posteriormente se ha creado un mercado informático
altamente especializado, en el que participan empresas e instituciones.
La World Wide Web. La evolución lógica de los SRI ha sido hacia la web, donde han encontrado una alta aplicación
práctica y un aumento del número de usuarios, especialmente en el campo de los directorios y motores de
búsqueda4. El alto grado de consolidación de la web está siendo favorecido por el vertiginoso abaratamiento de la
tecnología informática, por el espectacular o desarrollo de las telecomunicaciones y por la facilidad de publicación
de cualquier documento que un autor considere interesante, sin tener que pasar por el filtro de los tradicionales
círculos editoriales.
3.2.2. Evolución del SRI
Proyectos Cranfield
Cranfield I (1957-62)
Cranfield II (1963-66)
Cyril W. Cleverdon
Gerard Salton
3.2.3. Modelos de SRI
DOMINICH (2000)
Modelos clásicos: booleano, espacio vectorial y probabilístico.
Modelos alternativos: basados en la lógica Fuzzy.
Modelos lógicos: basados en la lógica formal. RI = Proceso inferencial
Modelos basados en la interactividad: incluyen posibilidades de expansión del alcance de la búsqueda y
hacen feedback por la relevancia de los documentos recuperados.
Modelos basados en la IA: bases de conocimiento, redes neuronales, algoritmos genéticos y
procesamiento del lenguaje natural.
3.2.4. Componentes del SRI
1. La Base de Datos
Tipos de bases de datos:
Referenciales: contiene información estructurada a través de tablas.
Documentales: los registros están relacionados con documentos almacenados a través
de números de identificación.
Según la cobertura temática:
Multidisciplinares.
Especializadas.
Según la cobertura geográfica;
Internacionales.
Nacionales.
3.2.4. Componentes del SRI
D = (di)
di = T
T = (tjn)
F:DxT → [0, 1]
3.2.4. Componentes del SRI
tfi,j * idfi
Dim (D1) = T1 * Q + T2 * Q ….
3.2.4. Componentes del SRI
Ejemplo
Si preguntamos:
1. La Base de Datos Documental “¿Cuál es el caudal del río Danubio?”
Resultado:
1. D3: el río Rhin y el río Danubio tienen mucho caudal
2. D2: el caudal de un río asciende en Invierno
3. D1: el río Danubio pasa por Viena, su color es azul
4. D4: si un río es navegable, es porque tiene mucho caudal
3.2.4. Componentes del SRI
Ejemplo
1. La Base de Datos Documental (para resolver en clase)
3º Elaboramos la tabla de frecuencias absolutas indicando los términos en las columnas y los
documentos en las filas. Añadimos una fila para la pregunta que será formulada (Q).
3.2.4. Componentes del SRI
Ejemplo
1. La Base de Datos Documental (para resolver en clase)
4º Completamos la tabla de frecuencias absolutas contabilizando el número de veces que un término se repite en
cada documento y la pregunta “¿Por qué región mediterránea pasa el río Segura?”.
* La pregunta no añade términos a la tabla de frecuencias. Solamente es indicar la similitud (1) con los términos que
aparezcan en la tabla.
3.2.4. Componentes del SRI
Ejemplo
1. La Base de Datos Documental (para resolver en clase)
Ante la pregunta (Q) “¿Por qué región mediterránea pasa el río Segura?”, la BDD nos
devuelve rankeados los siguientes documentos por relevancia:
2. El Subsistema de Consulta
Interfaz que permite al usuario formular consultas sobre los datos indizados.
Incluye un lenguaje de consulta.
3. El Subsistema de Evaluación
Representa el contenido de los documentos que componen la base de datos y también de las consultas
que se realizan.
Calcula el grado en el que las representaciones de los documentos satisfacen los requisitos indicados en
la consulta (relevancia).
3.2.4. Componentes del SRI