Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Índice invertido:
Para cada término t, tenemos que guardar todos los documentos que contienen t
Identificar cada documento por un docId, que es un número incremental
Tendremos dos partes bien definidas: el diccionario y las listas de postings, que son básicamente una serie
de listas, una por cada término, donde iremos insertando los docIds de los documentos.
Veamos un ejemplo:
diccionario postings
el diccionario es siempre mucho más chico en espacio y suele estar en memoria mientras que las listas
están en disco, cuando las listas son traídas a memoria pueden ser implementadas con listas enlazadas.
El siguiente esquema refleja el ciclo habitual a través del cual tendremos que pasar para construir un
índice invertido:
doc 1:
Insoportablemente soñé con un exiguo y nítido laberinto: en el centro había un cántaro.
doc 2:
Repechando colinas arenosas, habían llegado al laberinto.
Palabras Documento
Insoportablemente 1
soñé 1
con 1
un 1
exiguo 1
y 1
nítido 1
laberinto 1
en 1
el 1
centro 1
había 1
un 1
cántaro 1
Repechando 2
colinas 2
arenosas 2
habían 2
llegado 2
al 2
laberinto 2
Ordenamos la lista alfabéticamente:
Palabras Documento
al 2
arenosas 2
cántaro 1
centro 1
colinas 2
con 1
el 1
en 1
exiguo 1
había 1
habían 2
Insoportablemente 1
laberinto 1
laberinto 2
llegado 2
nítido 1
Repechando 2
soñé 1
un 1
un 1
y 1
NOTA: Para calcular el espacio total que necesitaremos para el índice en sí debemos tener en
cuenta el espacio que ocupan las palabras, el campo de la frecuencia y el puntero a la lista.
Es necesario optimizar estos espacios, incluyendo el tamaño de las listas.