Tema 2. Sistemas de Recuperación de La Información

Tema 2.
Sistemas de
Recuperación de la
Información
Prof. Antonio Muñoz Jiménez
PSI Biblioteconomía y Documentación
antonio.munoz@uco.es
Tema 2. Sistemas de Recuperación de la
Información
1. La información documental
1. El proceso de información documental
2. Fases del proceso de información documental
3. El concepto de información documental
4. Tipología documental
5. Estudio de usuarios
2. La documentación, modo informativo
1. Los sistemas de conservación
2. La organización documental
3. La recuperación de la información
1. La Recuperación de Datos (RD) vs. la Recuperación de la Información (RI)
2. Sistemas de Recuperación de Información (SRI)
1. Funciones del SRI
2. Evolución del SRI
3. Modelos de SRI
4. Componentes del SRI
De la necesidad de información a la RI
Problem space
(INGWERSEN, 1992)
1. La información documental
1. El proceso de información documental

2. Fases del proceso de información documental
3. El concepto de información documental
4. Tipología documental
5. Estudio de usuarios
1.1. El proceso de información documental
RECEPTOR
Información
Proceso de
Tratamiento y información
Situación: necesidad elaboración de un documental
de información mensaje
Recopilación de
datos
DOCUMENTALISTA
1.1. El proceso de información documental
 Elementos básicos del proceso de información documental:

 El emisor, el documentalista que actúa de intermediario, recogiendo el mensaje de una fuente, tratándolo y
difundiéndolo.
 El receptor, el usuario cuyas necesidades informativas trata de resolver el emisor-documentalista y que a su vez se
convertirá en emisor de un mensaje elaborado con la información.
 El mensaje, el propio documento, o para ser más exactos, la noticia de la existencia de tales o cuales documentos
sobre el tema de interés del receptor. Se trata de una información de carácter meramente descriptivo: «existen estos
documentos, originados en el pasado, que están relacionados con su investigación». La información documental es
por completo independiente de la información que puedan aportar los documentos per se. Es decir, que el trabajo
del documentalista es hallar los documentos —entiéndase en el sentido más amplio del término—, mientras que su
interpretación corresponderá al receptor-usuario.
 Un canal de difusión de la información, que pueden ser los canales usuales de la comunicación social o los canales
específicos de la Documentación como ciencia o disciplina científica, léase las revistas especializadas.
1.2. Fases del proceso de información
documental
 Recopilación. Fase acumulativa con el objetivo de conservar esos mensajes para el futuro. Por
esta vía, el documento se incorpora a un fondo.
 «Fase de traslado». Paso del mensaje a un soporte que garantice su supervivencia a lo largo del
tiempo.
 Análisis. Debe aportar los datos más importantes del documento en cuestión, de forma abreviada
y lo más completa posible. Así pues, incluirá su identificación (catalogación), su ordenación
temática (clasificación) y la descripción de su contenido (resumen).
 Organización y conservación. Por un lado, estaría la ordenación de los materiales, uno de los
procesos más importantes y delicados. Por su parte, la conservación tiende tanto al
almacenamiento como al mantenimiento en sí de la documentación. Organización —i.e.
accesibilidad— y conservación —i.e. disponibilidad— son dos elementos que no se pueden
desligar el uno del otro.
 Fase de difusión. Puesta a disposición del «público».
 Recuperación de la información
1.3. El concepto de información
documental La información transmitida no es la
original, ¿Modifica su
conocimiento?
RECEPTOR
Información
Proceso de
Tratamiento y información
Situación: necesidad elaboración de un documental
de información mensaje
Recopilación de
datos
DOCUMENTALISTA
El documento no solo debe ser

novedoso o relevante, sino que
también debe ser pertinente para el
receptor (para su necesidad de
información)
documental
¿Qué papel juega la traducción e

interpretación en el proceso?
documental
1.4. Tipología documental
Diversas clasificaciones de los documentos

 Triple dimensión del documento  Según la naturaleza del soporte
 Soporte físico  El código empleado en el mensaje
 Mensaje informativo  El rigor científico
 Posibilidad de transmisión/difusión del conocimiento  El área de conocimiento o temática

 La estructuración del documento
 La capacidad de difusión
1.5. Estudio de usuarios
Objetivo: conocer las necesidad y hábitos concretos de información de los receptores en la

cadena documental.
 ¿Quién?  ¿Cuándo?  ¿Cómo?

 Investigadores y  Antes: detección de  Método Delphi
docentes. necesidades.
 Cuestionarios
 Administradores y  Durante/Después: mejora
 Entrevistas
políticos. continua.
 Análisis de citas
 El ciudadano medio.
 Análisis de referencias
 Análisis de peticiones
2. La documentación, modo informativo
1. Los sistemas de conservación

2. La organización documental
2.1. Los sistemas de conservación
 Depende de:
 La naturaleza del soporte documental
 El carácter de los documentos
 Agentes destructores
2.1. Los sistemas de conservación
 Digitalizar
 Adoptar prohibiciones que eviten los daños
 Extremar la limpieza
 Procesos conservativos
 Deacidificación del papel
 Evitar la exposición a luz
 Control de las condiciones atmosféricas
 Ubicación propicia
 Separación
2.2. La organización documental
 Labor de almacenamiento: operación que consiste en disponer los documentos en las mejores
condiciones posibles de conservación y utilización.
 Depende de las posibilidades de las que dispongamos
 Tipo de local y equipamiento
 Naturaleza y tipos de documentos
 Frecuencia de consulta
 Formas de almacenamiento
 Horizontal
 Perpendicular
 Vertical
 Formas de ordenación
 Numérica: por orden de entrada
 Sistemática: por temáticas
1. La Recuperación de Datos (RD) vs. la Recuperación de la Información (RI)

2. Sistemas de Recuperación de Información (SRI)
1. Funciones del SRI
2. Evolución del SRI
3. Modelos de SRI
4. Componentes del SRI
1. La Base de Datos Documental
2. El subsistema de consulta
3. El subsistema de evaluación
1. El modelo booleano de consultas
PROCESO DE RECUPERACIÓN DE INFORMACIÓN

Conjunto de tareas mediante las cuales
el usuario localiza y accede a los
recursos de información útiles que son
pertinentes para la resolución del
problema planteado
3.1. La Recuperación de Datos (RD) vs. la
Recuperación de la Información (RI)
 Information Retrieval (IR) = Recuperación de la información (RI)

 Problemas en cuanto a su definición:
 Glosario de la Asociación de Bibliotecarios Americanos: recuperación de la
información (Information Retrieval) = recuperación de datos (Data Retrieval)
 MEADOW (1992): considera que la RI es una disciplina que involucra la localización
de una determinada información dentro de una base de datos. Por lo tanto es
selectiva (criterio discriminatorio).
 PÉREZ-CARBALLO (2000): la RI como traer documentos relevantes desde un gran
archivo en respuesta a una pregunta formulada y ordenarlos de acuerdo a su
relevancia.
BLAIR (Language and representation in information retrieval, 1990)

Data Retrieval Information Retrieval
Recuperación de Datos Recuperación de Información
Según la forma de responder a la Preguntas altamente formalizadas, Las preguntas resultan difíciles de
pregunta cuya respuesta es directamente la trasladar a lenguaje normalizado, y la
información deseada respuesta es un conjunto de
documentos que pueden, o no,
contener lo deseado
Según la relación entre el Relación determinística entre la Relación probabilística, a causa del
requerimiento al sistema y la pregunta y la satisfacción nivel de incertidumbre presente en la
satisfacción de usuario respuesta.
Según el criterio de éxito Corrección y exactitud Criterio personal de utilidad

Según la rapidez de la respuesta Depende del soporte físico y de la Depende de las decisiones y acciones
perfección del algoritmo de búsqueda del usuario durante el proceso de
interrogación
VAN RIJSBERGEN (1975)

Data Retrieval Information Retrieval
Recuperación de Datos Recuperación de Información
Equiparación Exacta Parcial o mejor
Inferencia Deductiva / Algebráica Inductiva
Modelo Determinista Probabilístico

Clasificación Monotética Poliética
Lenguaje de la pregunta Artificial; fuertemente estructurado Natural
Especificación de la pregunta Completa y precisa Incompleta e imprecisa
Ítems buscados Equiparación exacta Relevantes
Error en la respuesta Sensible Insensible
* Añadir: el factor de predicción

3.2. Sistemas de Recuperación de
Información (SRI)
Son una clase de sistemas de información que tratan con las bases de datos compuestas por
documentos (DOCS) y procesan las consultas de los usuarios permitiéndoles acceder a la
información relevante en un intervalo de tiempo apropiado.
Las consultas (REQS) son sentencias formales mediante las cuales el usuario expresas sus
necesidades de información, formuladas en un lenguaje de consulta (LANG).
3.2.1. Funciones del SRI
 CHORDHURY (1999)
1. Identificar las fuentes de información relevantes a las áreas de interés de las solicitudes de los usuarios.
2. Analizar los contenidos de los documentos.
3. Representar los contenidos de las fuentes analizadas de una manera que sea adecuada para compararlas con
las preguntas de los usuarios.
4. Analizar las preguntas de los usuarios y representarlas de una forma que sea adecuada para compararlas con
las representaciones de los documentos de la base de datos.
5. Realizar la correspondencia entre la representación de la búsqueda y los documentos almacenados en la base
de datos.
6. Recuperar la información relevante
7. Realizar los ajustes necesarios en el sistema basados en la retroalimentación con los usuarios
3.2.2. Evolución del SRI
 BAEZA-YATES (1999)
 Desarrollos iniciales. Ya existían métodos de recuperación de información en las antiguas colecciones de papiros.
Otro ejemplo clásico que se ha venido utilizando es la tabla de contenidos de un libro, sustituida por otras
estructuras más complejas a medida que ha crecido el volumen de información. La evolución lógica de la tabla de
contenidos es el índice, estructura que aún constituye el núcleo de los SRI actuales.
 Recuperación de información en las bibliotecas. Fueron las primeras instituciones en adoptar estos sistemas.
Originalmente fueron desarrollados por ellas mismas y posteriormente se ha creado un mercado informático
altamente especializado, en el que participan empresas e instituciones.
 La World Wide Web. La evolución lógica de los SRI ha sido hacia la web, donde han encontrado una alta aplicación
práctica y un aumento del número de usuarios, especialmente en el campo de los directorios y motores de
búsqueda4. El alto grado de consolidación de la web está siendo favorecido por el vertiginoso abaratamiento de la
tecnología informática, por el espectacular o desarrollo de las telecomunicaciones y por la facilidad de publicación
de cualquier documento que un autor considere interesante, sin tener que pasar por el filtro de los tradicionales
círculos editoriales.
 Primeros ordenadores → procesamiento de grandes cantidades de datos

 Años 40-60: primeros investigadores para el desarrollo de los SRI
Karen Spärck Jones

Calvin Mooers
 Proyectos Cranfield
 Cranfield I (1957-62)
 Cranfield II (1963-66)
Cyril W. Cleverdon
Gerard Salton
3.2.3. Modelos de SRI
 DOMINICH (2000)
 Modelos clásicos: booleano, espacio vectorial y probabilístico.
 Modelos alternativos: basados en la lógica Fuzzy.
 Modelos lógicos: basados en la lógica formal. RI = Proceso inferencial
 Modelos basados en la interactividad: incluyen posibilidades de expansión del alcance de la búsqueda y
hacen feedback por la relevancia de los documentos recuperados.
 Modelos basados en la IA: bases de conocimiento, redes neuronales, algoritmos genéticos y
procesamiento del lenguaje natural.
3.2.4. Componentes del SRI
1. La Base de Datos
 Tipos de bases de datos:
 Referenciales: contiene información estructurada a través de tablas.
 Documentales: los registros están relacionados con documentos almacenados a través
de números de identificación.
 Según la cobertura temática:
 Multidisciplinares.
 Especializadas.
 Según la cobertura geográfica;
 Internacionales.
 Nacionales.
D = (di)
di = T
T = (tjn)
F:DxT → [0, 1]

1º Preprocesamiento
• Procedimiento: análisis de los patrones

léxicos del documento para eliminar
aquellos fragmentos de texto que no tienen
que ver con el documento a tratar.
• Resultado: documento delimitado sin

cabeceras informativas sin utilidad.
1. Palabras más frecuentes son las
más cortas (y vacías)
3.2.4. Componentes del SRI 2. Las palabras más cortas suelen
tener mayor número de significados
3. La frecuencia de las palabras en un
texto (corpus) crece con el número de
1. La Base de Datos Documental significados
2º Extracción de las palabras vacías
• Procedimiento: aplicación del principio del

mínimo esfuerzo (leyes de Zipf) para
eliminar las palabras vacías (stopwords).
f*p≈c
• Resultado: reducción del texto a las
palabras más comunes, para ser
empleadas como términos (vectorización).

3º Stemming
• Procedimiento: reducción de los términos a

su raíz, eliminando afijos, por ejemplo.
• Resultado: obtención de la lexical

canónica.

4º Ponderación del término
• Procedimiento: cálculo de la importancia de

los distintos términos (Inverse Document
Frequency).
idfi = log (N/ni)
tfi,j * idfi
• Resultado: documentos ordenados por

relevancia
Ejemplo
Tenemos cinco documentos para ser indexados (ya

1º Preprocesamiento preprocesados):
Ejemplo
1º Preprocesamiento 1º Eliminamos las palabras vacías aplicando las Leyes de Zipf

Ejemplo
2º Vectorización (extracción de palabras vacías)

* En este caso no es necesario el Stemming
Ejemplo
Si preguntamos:
1. La Base de Datos Documental “¿Cuál es el caudal del río Danubio?”

(cálculo de Frecuencia documental inversa)
idfi = log (N/ni)
Después, calculamos el peso de cada término con la fórmula idf * Tf

Ejemplo
Si preguntamos:
(Cálculo de similitudes)
Dim (D1) = T1 * Q + T2 * Q ….
Ejemplo
Si preguntamos:
Resultado:
1. D3: el río Rhin y el río Danubio tienen mucho caudal
2. D2: el caudal de un río asciende en Invierno
3. D1: el río Danubio pasa por Viena, su color es azul
4. D4: si un río es navegable, es porque tiene mucho caudal
Ejemplo
1. La Base de Datos Documental (para resolver en clase)
D1: El río Segura pasa por Murcia y desemboca en el Mediterráneo.

D2: Murcia es una región mediterránea seca con gran producción agrícola.
D3: El río Mundo es afluente del río Segura.
D4: Los ríos Turia, Júcar y Segura son ríos que desembocan en el Mediterráneo.
D5: El río Segura riega las huertas de Alicante y Murcia
Q: ¿Por qué región mediterránea pasa el río Segura?

Ejemplo
(para resolver en clase)
 1º Eliminamos las palabras vacías aplicando las Leyes de Zipf

Ejemplo
(para resolver en clase)
2º Realizamos el proceso de stemming (si se puede; no siempre se puede hacer):
D1: río Segura pasa Murcia desemboca Mediterráneo.

D2: Murcia región mediterránea seca producción agrícola.
D3: río Mundo afluente río Segura. Mediterráne-
D4: ríos Turia, Júcar Segura ríos desembocan Mediterráneo.
D5: río Segura riega huertas Alicante Murcia
Ya tendríamos los términos que representarían al documento

Ejemplo
3º Elaboramos la tabla de frecuencias absolutas indicando los términos en las columnas y los
documentos en las filas. Añadimos una fila para la pregunta que será formulada (Q).
Ejemplo
4º Completamos la tabla de frecuencias absolutas contabilizando el número de veces que un término se repite en
cada documento y la pregunta “¿Por qué región mediterránea pasa el río Segura?”.
* La pregunta no añade términos a la tabla de frecuencias. Solamente es indicar la similitud (1) con los términos que
aparezcan en la tabla.
Ejemplo
Son las veces que ese término aparece en la BD

Ejemplo
Ejemplo
Ejemplo
Ante la pregunta (Q) “¿Por qué región mediterránea pasa el río Segura?”, la BDD nos
devuelve rankeados los siguientes documentos por relevancia:

D1: Córdoba es una ciudad de Andalucía
D2: El río Guadalquivir pasa por Córdoba y Sevilla, dos importantes ciudades andaluzas
D3: Desde el río Guadalquivir podemos ver la Mezquita de Córdoba
D4: Andalucía es una comunidad autónoma de España
Q: ¿En qué ciudad andaluza encontramos el río Guadalquivir?
Comunidad España
Córdoba Ciudad Andalu- Río Guadalquivir Pasa Sevilla Podemos Ver Mezquita
autónoma
D1 1 1 1 0 0 0 0 0 0 0 0 0
D2 1 1 1 1 1 1 1 0 0 0 0 0
D3 1 0 0 1 1 0 0 1 1 1 0 0
D4 0 0 1 0 0 0 0 0 0 0 1 1
Q 0 1 1 1 1 0 0 0 0 0 0 0
CÁLCULO DE LA FRECUENCIA DOCUMENTAL

INVERSA ( idf = Log (N/n) ) N= nº de documentos idf (pasa) = Log (4/1) = 0,602
/ n= nº veces que se aparece el término idf (Sevilla) = Log (4/1) = 0,602
idf (ciudades) = Log (4/1) = 0,602
idf (Córdoba) = Log (4/3) = 0,124 idf (podemos) = Log (4/1) = 0,602
idf (Ciudad) = Log (4/2) = 0,301 idf (ver) = Log (4/1) = 0,602
idf (Andalu-) = Log (4/3) = 0,124 idf (mezquita) = Log (4/1) = 0,602
idf (río) = Log (4/2) = 0,301 idf (com, autónoma) = Log (4/1) = 0,602
idf (Guadalquivir) = Log (4/2) = 0,301 idf (España) = Log (4/1) = 0,602
Matriz de frecuencias idf*Tf

Comunidad España
Córdoba Ciudad Andalu- Río Guadalquivir Pasa Sevilla Podemos Ver Mezquita
autónoma
D1 0,124 0,301 0,124 0 0 0 0 0 0 0 0 0
D2 0,124 0,301 0,124 0,301 0,301 0,602 0,602 0 0 0 0 0
D3 0,124 0 0 0,301 0,301 0 0 0,602 0,602 0,602 0 0
D4 0 0 0,124 0 0 0 0 0 0 0 0,602 0,602
Q 0 0,301 0,124 0,301 0,301 0 0 0 0 0 0 0
D2: El río Guadalquivir pasa por Córdoba y
Sevilla, dos importantes ciudades andaluzas
CÁLCULO DE SIMILITUDES ( Sim D1= T1 * Q + T2 * Q + T3 * Q + T4 * Q + T5 * Q ) D3: Desde el río Guadalquivir podemos ver la
Sim D1*Q =0,124*0+0,301*0,301+0,124*0,124+0*0,301+0*0,301+0*0+0*0+0*0+0*0+0*0+0*0+0*0 = 0,1059 Mezquita de Córdoba
Sim D2*Q =0,124*0+0,301*0,301+0,124*0,124+0,301*0,301+0,301*0,301+0,602*0+0,602*0+0*0+0*0+0*0+0*0+0*0 = 0,2871 D1: Córdoba es una ciudad de Andalucía
Sim D3*Q = 0,124*0+0*0,301+0*0,124+0,301*0,301+0,301*0,301+0*0+0*0+0,602*0+0,602*0+0,602*0+0*0+0*0 = 0,1812 D4: Andalucía es una comunidad autónoma
Sim D4*Q = 0*0+0*0,301+0,124*0,124+0*0,301+0*0,301+0*0+0*0+0*0+0*0+0*0+0,602*0+0,602*0 = 0,015 de España

 Ventajas del modelo vectorial
 Es muy versátil y eficiente a la hora de generar rankings de precisión en colecciones de gran tamaño, lo que le hace
idóneo para determinar la equiparación parcial de los documentos.
 Tiene en cuenta los pesos Tf-IDF para determinar la representatividad de los documentos de la colección.
 Inconvenientes del modelo vectorial
 Sólo tiene en cuenta la intersección de los términos del documento con respecto a la consulta (similitud con Q), por
lo que la gradación de los resultados no es tan precisa.
 Necesita de la intersección de los términos de la consulta con los documentos (similitud con Q), en caso contrario no
se produce la recuperación de información.
 Al ser un modelo estadístico-matemático, no tiene en cuenta la estructura sintáctico-semántica del lenguaje natural.
2. El Subsistema de Consulta
 Interfaz que permite al usuario formular consultas sobre los datos indizados.
 Incluye un lenguaje de consulta.
3. El Subsistema de Evaluación
 Representa el contenido de los documentos que componen la base de datos y también de las consultas
que se realizan.
 Calcula el grado en el que las representaciones de los documentos satisfacen los requisitos indicados en
la consulta (relevancia).
3.2.4.1. El Modelo Booleano de consultas

Operadores lógicos booleanos:

 AND
 OR
 NOT
 XOR
 IF…THEN

Los operadores de intersección (Y / AND)
Operador sumatorio o de suma lógica (O / OR)

Operador de exclusión (NO / NOT)

Operador de complemento (XOR)


 Ventajas del modelo booleano
 El modelo booleano permite procesar colecciones muy grandes rápidamente. Resulta sistemático y ello supone
una gran velocidad de recuperación.
 Es un modelo flexible ya que permite el empleo de distintas conectivas para precisar la consulta del usuario.
Permite aproximar bastante las consultas por frase exacta y resulta perfectamente válido para recuperar por
medio de vocabulario controlado.
 Entraña ventajas para efectuar una recuperación de información igualada, en el sentido de que el sistema de
información presente la mejor respuesta a una necesidad de información expresada por ciertas palabras clave.

 Limitaciones del modelo booleano
 Sin un grado aceptable de preparación es difícil formular peticiones que incluyan los
operadores booleanos. Además el usuario puede hacer una formulación incorrecta.
 Existe muy poco control sobre el volumen del resultado producido por una petición
concreta.
 Se obtiene como resultado una división simple de los documentos que componen la Base
de datos: los que se equiparan a la petición y los que no. Supuestamente, todos los
registros recuperados son de utilidad para el usuario (pero no ordena la relevancia).
 No prescribe formas explicitas de reflejar la importancia relativa de los diferentes
componentes de la pregunta (todos los términos tienen un peso de 1 o 0).
 Estos aspectos se han corregido con el modelo booleano ordenado, basado en el uso del Tf

Tema 2. Sistemas de Recuperación de La Información

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 2. Sistemas de Recuperación de La Información

Cargado por

Copyright:

Formatos disponibles

Tema 2.

1. El proceso de información documental

 Elementos básicos del proceso de información documental:

El documento no solo debe ser

¿Qué papel juega la traducción e

Diversas clasificaciones de los documentos

 Soporte físico  El código empleado en el mensaje

 Mensaje informativo  El rigor científico

 Posibilidad de transmisión/difusión del conocimiento  El área de conocimiento o temática

Objetivo: conocer las necesidad y hábitos concretos de información de los receptores en la

 ¿Quién?  ¿Cuándo?  ¿Cómo?

1. Los sistemas de conservación

1. La Recuperación de Datos (RD) vs. la Recuperación de la Información (RI)

PROCESO DE RECUPERACIÓN DE INFORMACIÓN

 Information Retrieval (IR) = Recuperación de la información (RI)

BLAIR (Language and representation in information retrieval, 1990)

Según el criterio de éxito Corrección y exactitud Criterio personal de utilidad

VAN RIJSBERGEN (1975)

Modelo Determinista Probabilístico

Lenguaje de la pregunta Artificial; fuertemente estructurado Natural

Especificación de la pregunta Completa y precisa Incompleta e imprecisa

Ítems buscados Equiparación exacta Relevantes

Error en la respuesta Sensible Insensible

* Añadir: el factor de predicción

 Primeros ordenadores → procesamiento de grandes cantidades de datos

 Años 40-60: primeros investigadores para el desarrollo de los SRI

Karen Spärck Jones

1. La Base de Datos Documental

1. La Base de Datos Documental

• Procedimiento: análisis de los patrones

• Resultado: documento delimitado sin

2º Extracción de las palabras vacías

• Procedimiento: aplicación del principio del

1. La Base de Datos Documental

• Procedimiento: reducción de los términos a

• Resultado: obtención de la lexical

1. La Base de Datos Documental

• Procedimiento: cálculo de la importancia de

idfi = log (N/ni)

• Resultado: documentos ordenados por

Tenemos cinco documentos para ser indexados (ya

1º Preprocesamiento 1º Eliminamos las palabras vacías aplicando las Leyes de Zipf

2º Vectorización (extracción de palabras vacías)

3º Ponderación del término

idfi = log (N/ni)

Después, calculamos el peso de cada término con la fórmula idf * Tf

D1: El río Segura pasa por Murcia y desemboca en el Mediterráneo.

Q: ¿Por qué región mediterránea pasa el río Segura?

 1º Eliminamos las palabras vacías aplicando las Leyes de Zipf

D1: El río Segura pasa por Murcia y desemboca en el Mediterráneo.

2º Realizamos el proceso de stemming (si se puede; no siempre se puede hacer):

D1: río Segura pasa Murcia desemboca Mediterráneo.

Ya tendríamos los términos que representarían al documento

Son las veces que ese término aparece en la BD

D1: El río Segura pasa por Murcia y desemboca en el Mediterráneo.

CÁLCULO DE LA FRECUENCIA DOCUMENTAL

Matriz de frecuencias idf*Tf

1. La Base de Datos Documental

3.2.4.1. El Modelo Booleano de consultas

3.2.4.1. El Modelo Booleano de consultas

Operadores lógicos booleanos:

3.2.4.1. El Modelo Booleano de consultas

3.2.4.1. El Modelo Booleano de consultas