Está en la página 1de 4

ÍNDICES INVERTIDOS

Investigación 1

Noemí Guadalupe Cervantes Manríquez
Cod. 209708472
Taller de Estructura de Archivos

Construcción Se recorre la colección de textos secuencialmente. Esta última forma ofrece más funcionalidad. Un índice invertido es una estructura de datos de índice de almacenamiento de una asignación de contenido. El mayor problema que se presenta en la práctica a la hora de construir un índice invertido es que la RAM se termine antes de poder procesar . El archivo invertido puede ser el propio archivo de base de datos. a sus ubicaciones en un archivo de base de datos o en un documento o conjunto de documentos. Se agrega el documento actual al final de la lista de ocurrencias del término. Para cada término. se agrega al vocabulario con una lista de ocurrencias vacía.Índices invertidos Un índice Invertido es un mecanismo orientado a palabras para indexación de documentos. * Palabras índice invertido nivel contiene además las posiciones de cada palabra dentro de un documento. El sentido en el que se invierte una lista debe quedar claro si se considera que se trabaja retrocediendo de una llave secundaria a la llave primaria y al registro mismo. Está formado por 2 elementos: el vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada termino. Si no existe. se les llama listas invertidas. pero necesita más tiempo y espacio para crear. se busca en el vocabulario. la lista de documentos donde este aparece). Características * Un índice invertido nivel de registro contiene una lista de referencias de los documentos para cada palabra. Es la estructura más elemental para recuperación de palabras. El objetivo de un índice invertido es permitir rápidas búsquedas de texto completo. A los archivos que son como los índices secundarios. Es la estructura de datos más popular utilizado en los sistemas de recuperación de documentos. en lugar de su índice. en los que una llave secundaria lleva a un conjunto de una o más llaves primarias. a un costo de procesamiento mayor cuando se añade un documento a la base de datos. que se utiliza a gran escala. Una vez leída la colección. como palabras o números. el índice se graba en disco.

21. activo<EOR> [2] pedro. Se le conoce como relativo porque indica el desplazamiento que debe hacerse desde el origen del archivo hasta el registro en cuestión (imagina que es como el índice de un vector aplicado a un archivo) Por ejemplo: [1] juan. activo<EOR> [5] felipe. en lugar de orden de entrada. 15. La búsqueda de términos en el vocabulario puede realizarse utilizando una estructura como hashing o arboles B. activo<EOR> [4] manuel. 15. etc. Al final. Búsqueda Búsqueda en el vocabulario: Se buscan las palabras y los patrones de la consulta. por lo que es interesante tenerlo en un fichero separado. Si aparece el mismo término en ambos índices se mezclan sus listas de ocurrencias. consultas de frases. anulado<EOR> [3] susana. En este caso. se graba en disco un índice parcial y se libera la memoria.todo el texto. Así es posible que quepa en memoria incluso en caso de colecciones grandes. proximidad. 12. La búsqueda siempre comienza en el vocabulario. Recuperación de ocurrencias: Se recupera la lista de ocurrencias de las palabras encontradas. Las consultas por frases y proximidad se dividen en palabras. Manipulación de ocurrencias: Resolución de operaciones booleanas. dado que se pueden aplicar búsquedas binarias. anulado<EOR> . se realiza un merge de los índices parciales. cada vez que la RAM se agota. NRR El número relativo de registro es un número que indica la posición física del registro (lo de físico es relativo) dentro del archivo. La mezcla consiste en combinar los vocabularios ordenados. Si los términos se almacenan en orden lexicográfico. 27. se reduce el espacio y se mejora el rendimiento.

5 Este número toma mucha importancia en los archivos de organización relativa (acceso directo) con espacio reducido (o de tamaño definido) en los cuales es necesario crear una buena estrategia de colocación del registro dentro del archivo para su fácil acceso y el mejor uso del espacio disponible (y como la colocación se realiza mediante el NRR es ahí el porqué es importante este número). .Mostrar el NRR de los registros que están anulados: 2.