Está en la página 1de 4

Investigacin 1

NDICES
INVERTIDOS
Noem Guadalupe Cervantes Manrquez
Cod. 209708472
Taller de Estructura de Archivos

ndices invertidos
Un ndice Invertido es un mecanismo orientado a palabras para
indexacin de documentos. Es la estructura ms elemental para
recuperacin de palabras. Est formado por 2 elementos: el vocabulario
(conjunto de trminos distintos del texto) y las listas de ocurrencias
(para cada termino, la lista de documentos donde este aparece).
Un ndice invertido es una estructura de datos de ndice de
almacenamiento de una asignacin de contenido, como palabras o
nmeros, a sus ubicaciones en un archivo de base de datos o en un
documento o conjunto de documentos. El objetivo de un ndice invertido
es permitir rpidas bsquedas de texto completo, a un costo de
procesamiento mayor cuando se aade un documento a la base de
datos. El archivo invertido puede ser el propio archivo de base de datos,
en lugar de su ndice. Es la estructura de datos ms popular utilizado en
los sistemas de recuperacin de documentos, que se utiliza a gran
escala.
A los archivos que son como los ndices secundarios, en los que una
llave secundaria lleva a un conjunto de una o ms llaves primarias, se
les llama listas invertidas. El sentido en el que se invierte una lista debe
quedar claro si se considera que se trabaja retrocediendo de una llave
secundaria a la llave primaria y al registro mismo.

Caractersticas
* Un ndice invertido nivel de registro contiene una lista de referencias
de los documentos para cada palabra.
* Palabras ndice invertido nivel contiene adems las posiciones de cada
palabra dentro de un documento. Esta ltima forma ofrece ms
funcionalidad, pero necesita ms tiempo y espacio para crear.

Construccin
Se recorre la coleccin de textos secuencialmente. Para cada trmino, se
busca en el vocabulario. Si no existe, se agrega al vocabulario con una
lista de ocurrencias vaca. Se agrega el documento actual al final de la
lista de ocurrencias del trmino. Una vez leda la coleccin, el ndice se
graba en disco. El mayor problema que se presenta en la prctica a la
hora de construir un ndice invertido es que la RAM se termine antes de

poder procesar todo el texto. En este caso, cada vez que la RAM se
agota, se graba en disco un ndice parcial y se libera la memoria. Al final,
se realiza un merge de los ndices parciales. La mezcla consiste en
combinar los vocabularios ordenados. Si aparece el mismo trmino en
ambos ndices se mezclan sus listas de ocurrencias.

Bsqueda
Bsqueda en el vocabulario: Se buscan las palabras y los patrones de la
consulta, Las consultas por frases y proximidad se dividen en palabras.
Recuperacin de ocurrencias: Se recupera la lista de ocurrencias de las
palabras encontradas. Manipulacin de ocurrencias: Resolucin de
operaciones booleanas, consultas de frases, proximidad, etc. La
bsqueda siempre comienza en el vocabulario, por lo que es interesante
tenerlo en un fichero separado. As es posible que quepa en memoria
incluso en caso de colecciones grandes.
La bsqueda de trminos en el vocabulario puede realizarse utilizando
una estructura como hashing o arboles B. Si los trminos se almacenan
en orden lexicogrfico, en lugar de orden de entrada, se reduce el
espacio y se mejora el rendimiento, dado que se pueden aplicar
bsquedas binarias.

NRR
El nmero relativo de registro es un nmero que indica la posicin fsica
del registro (lo de fsico es relativo) dentro del archivo. Se le conoce
como relativo porque indica el desplazamiento que debe hacerse desde
el origen del archivo hasta el registro en cuestin (imagina que es como
el ndice de un vector aplicado a un archivo)
Por ejemplo:
[1] juan, 12, activo<EOR>
[2] pedro, 21, anulado<EOR>
[3] susana, 15, activo<EOR>
[4] manuel, 27, activo<EOR>
[5] felipe, 15, anulado<EOR>

Mostrar el NRR de los registros que estn anulados: 2, 5


Este nmero toma mucha importancia en los archivos de organizacin
relativa (acceso directo) con espacio reducido (o de tamao definido) en
los cuales es necesario crear una buena estrategia de colocacin del
registro dentro del archivo para su fcil acceso y el mejor uso del
espacio disponible (y como la colocacin se realiza mediante el NRR es
ah el porqu es importante este nmero).