Indices Invertidos

Cargado por

Criss Lemache

0% encontró este documento útil (0 votos)

12 vistas3 páginas

Título original

Indices Invertidos.docx

Derechos de autor

Formatos disponibles

DOCX, PDF, TXT o lea en línea desde Scribd

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Denunciar este documento

Copyright:

Formatos disponibles

Descargue como DOCX, PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

0% encontró este documento útil (0 votos)

12 vistas3 páginas

Indices Invertidos

Cargado por

Criss Lemache

Copyright:

Formatos disponibles

Descargue como DOCX, PDF, TXT o lea en línea desde Scribd

Marcar por contenido inapropiado

Saltar a página

Está en la página 1de 3

Buscar dentro del documento

Recuperación de información (Information Retrieval)

Búsqueda en la Web (Web Search)

Índices invertidos
Los índices invertidos son la estructura de datos más utilizada en los sistemas de recuperación de
información, en particular en aquellos con grandes volúmenes de datos a manejar como los motores
de búsqueda.

Índice invertido:
 Para cada término t, tenemos que guardar todos los documentos que contienen t
 Identificar cada documento por un docId, que es un número incremental
Tendremos dos partes bien definidas: el diccionario y las listas de postings, que son básicamente una serie
de listas, una por cada término, donde iremos insertando los docIds de los documentos.

Veamos un ejemplo:

diccionario postings

Brutus => 1, 2, 4 , 11 , 45 , 113 , 124

Caesar => 1, 2, 4, 5, 6, 110, 174
Calpurnia => 2, 31, 54

el diccionario es siempre mucho más chico en espacio y suele estar en memoria mientras que las listas
están en disco, cuando las listas son traídas a memoria pueden ser implementadas con listas enlazadas.

Construcción paso a paso de un índice invertido:

El siguiente esquema refleja el ciclo habitual a través del cual tendremos que pasar para construir un
índice invertido:

 La tokenización es el proceso de separar un documento dado en palabras.

 Luego de tener las palabras separadas es lógico pensar en llevarlas todas hacia un estándar, una
forma normal o canónica, hay un proceso llamado normalización de palabras.
 Finalmente creamos el índice con las palabras ya identificadas y normalizadas.
NOTA: es muy común que haya palabras que no nos interese guardar, por lo general no guardamos las
palabras que son tan frecuentes que aparecen en todos los documentos, por ejemplo: "a", "por", "el", "la",
"los", "y", "o", etc. estas palabras de llaman: stop words

Ejemplo: Supongamos que tengo dos documentos:

doc 1:
Insoportablemente soñé con un exiguo y nítido laberinto: en el centro había un cántaro.

doc 2:
Repechando colinas arenosas, habían llegado al laberinto.

Identificamos las palabras, las listamos e indicamos a que documento pertenecen:

Palabras Documento
Insoportablemente 1
soñé 1
con 1
un 1
exiguo 1
y 1
nítido 1
laberinto 1
en 1
el 1
centro 1
había 1
un 1
cántaro 1
Repechando 2
colinas 2
arenosas 2
habían 2
llegado 2
al 2
laberinto 2

Ordenamos la lista alfabéticamente:
Palabras Documento
al 2
arenosas 2
cántaro 1
centro 1
colinas 2
con 1
el 1
en 1
exiguo 1
había 1
habían 2
Insoportablemente 1
laberinto 1
laberinto 2
llegado 2
nítido 1
Repechando 2
soñé 1
un 1
un 1
y 1

Luego eliminamos los duplicados, pero guardamos la frecuencia de cada término y vamos

insertando los distintos docsIds en las listas de postings. Al crear las listas indicamos con un
puntero en el índice la ubicación de esta.

Palabras Frecuencia puntero Listas invertidas

al 1 -> 2
arenosas 1 -> 2
cántaro 1 -> 1
centro 1 -> 1
colinas 1 -> 2
con 1 -> 1
el 1 -> 1
en 1 -> 1
exiguo 1 -> 1
había 1 -> 1
habían 1 -> 2
Insoportablemente 1 -> 1
laberinto 2 -> 1->2
llegado 1 -> 2
nítido 1 -> 1
repechando 1 -> 2
soñé 1 -> 1
un 2 -> 1->2
y 1 -> 1

NOTA: Para calcular el espacio total que necesitaremos para el índice en sí debemos tener en
cuenta el espacio que ocupan las palabras, el campo de la frecuencia y el puntero a la lista.
Es necesario optimizar estos espacios, incluyendo el tamaño de las listas.

También podría gustarte

Dosificación Mensual Enero Segundo
Documento2 páginas
Dosificación Mensual Enero Segundo
Maria Abigail Romero Caraveo
Aún no hay calificaciones
Ejemplo de Lista de Utiles
Documento1 página
Ejemplo de Lista de Utiles
MARLY
Aún no hay calificaciones
CLEAVER
Documento2 páginas
CLEAVER
capacitacion.fhlogistica
Aún no hay calificaciones
Cómo Mejorar en La PSU de Lenguaje. Plan de Redacción PDF
Documento19 páginas
Cómo Mejorar en La PSU de Lenguaje. Plan de Redacción PDF
Felipe Pezoa
0% (2)
Inventario 2022 Parte 1
Documento4 páginas
Inventario 2022 Parte 1
Aldricks Darwich
Aún no hay calificaciones
Trabajo Axel Guardar
Documento21 páginas
Trabajo Axel Guardar
MAX AXEL LAIRTON FLORES GUTIERREZ
Aún no hay calificaciones
Inventario
Documento3 páginas
Inventario
Karen del Carmen Avalos Sandova
Aún no hay calificaciones
Inventario de Biblioteca
Documento10 páginas
Inventario de Biblioteca
jeanneth diaz
Aún no hay calificaciones
Biblioteca de Aula 1° PDF
Documento2 páginas
Biblioteca de Aula 1° PDF
marcela chavez
Aún no hay calificaciones
Repasemos n2
Documento2 páginas
Repasemos n2
Carla Medina Benavides
Aún no hay calificaciones
T31055
Documento483 páginas
T31055
anpolomo
Aún no hay calificaciones
Conjuntos y Numeros Naturales
Documento14 páginas
Conjuntos y Numeros Naturales
DCruz Mika
Aún no hay calificaciones
Guia Lectores Competentes 2 PDF
Documento81 páginas
Guia Lectores Competentes 2 PDF
Kevin L Garcia Rico
72% (18)
Semana 9 Sesión 25 Estimación de Intervalos para El Cociente de Varianzas y Diferencia de Medias
Documento21 páginas
Semana 9 Sesión 25 Estimación de Intervalos para El Cociente de Varianzas y Diferencia de Medias
Kenia Huacre Vila
Aún no hay calificaciones
07 Historia - Dioses Griegos
Documento6 páginas
07 Historia - Dioses Griegos
Carlos Roa Aburto
Aún no hay calificaciones
Lista de Utiles 1C 2024
Documento2 páginas
Lista de Utiles 1C 2024
viviana.diaz
Aún no hay calificaciones
Travail Espagnol 2nd
Documento4 páginas
Travail Espagnol 2nd
redianzs art
Aún no hay calificaciones
Plantilla Septima Edicion
Documento13 páginas
Plantilla Septima Edicion
Laura bolaños
Aún no hay calificaciones
Cuaderno de Trabajo Leoe I 2021-2022
Documento1 página
Cuaderno de Trabajo Leoe I 2021-2022
JACQUELINE SANCHEZ
Aún no hay calificaciones
Funcion Exponencial
Documento7 páginas
Funcion Exponencial
Vane Planchu
Aún no hay calificaciones
S03.s2 - Material
Documento23 páginas
S03.s2 - Material
jhon caldas
Aún no hay calificaciones
CE Fracciones Parciales
Documento5 páginas
CE Fracciones Parciales
Karina Andrea Mansilla
Aún no hay calificaciones
Sofía de 6ºEP 28 Abril - 17 Mayo PDF
Documento15 páginas
Sofía de 6ºEP 28 Abril - 17 Mayo PDF
Josetxu Miguel Valiente
Aún no hay calificaciones
1 Aptitud Verbal - 2°
Documento36 páginas
1 Aptitud Verbal - 2°
Carlita Yaranga Medoza
Aún no hay calificaciones
Útiles Escolares
Documento1 página
Útiles Escolares
Omaira Rosado Macias
Aún no hay calificaciones
Ejercicio Grupos Etnicos
Documento2 páginas
Ejercicio Grupos Etnicos
Claudia Perez
Aún no hay calificaciones
INVENTARIO
Documento1 página
INVENTARIO
Alberto Delgado Espinal
Aún no hay calificaciones
LISTADO DE ÚTILES ESCOLARES DE 2o.
Documento1 página
LISTADO DE ÚTILES ESCOLARES DE 2o.
irma ciramagua
Aún no hay calificaciones
Utiles 2022 4
Documento1 página
Utiles 2022 4
Fabio Alfonso Bayona Ramon
Aún no hay calificaciones
Como Plantear en Plan de Redacción para Tercero de Secundaria
Documento7 páginas
Como Plantear en Plan de Redacción para Tercero de Secundaria
Citlali
Aún no hay calificaciones
2024 Lista Utiles
Documento5 páginas
2024 Lista Utiles
alissonflori21
Aún no hay calificaciones
Refuerzo Morfología
Documento2 páginas
Refuerzo Morfología
Conchi Camino Rentería
Aún no hay calificaciones
Aptitud Verbal Juan Manuel Salazar Monje
Documento8 páginas
Aptitud Verbal Juan Manuel Salazar Monje
Marielena Vite Huancas
Aún no hay calificaciones
Trabajo Estadisticas
Documento40 páginas
Trabajo Estadisticas
Rey Rey
Aún no hay calificaciones
Lista de Útiles
Documento3 páginas
Lista de Útiles
pimg890831
Aún no hay calificaciones
Prevention Activities
Documento1 página
Prevention Activities
Ivan Oliva
Aún no hay calificaciones
06 Razonamiento Verbal Parte 1
Documento28 páginas
06 Razonamiento Verbal Parte 1
Walter Cruz
Aún no hay calificaciones
Clases de Piano Milo
Documento18 páginas
Clases de Piano Milo
Ivan Alvis
Aún no hay calificaciones
Prática Calificada de Homonimia, Polisemia y Paronimia
Documento5 páginas
Prática Calificada de Homonimia, Polisemia y Paronimia
Lidia Jimenez
Aún no hay calificaciones
FICHA
Documento9 páginas
FICHA
Gianella Yanqui fernandez
Aún no hay calificaciones
1.dimensión Ética y Religiosa de La Persona 2. Raíces de La Moral Cristiana en El Antiguo Testamento
Documento18 páginas
1.dimensión Ética y Religiosa de La Persona 2. Raíces de La Moral Cristiana en El Antiguo Testamento
Michael Andres Martinez Coronado
Aún no hay calificaciones
Planeación 2° Nem Enero
Documento39 páginas
Planeación 2° Nem Enero
liliana najar
Aún no hay calificaciones
Ficha 2da Unidad Hast 3 de Junio
Documento12 páginas
Ficha 2da Unidad Hast 3 de Junio
Yossita Castillo Córdova
Aún no hay calificaciones
Inventario Libros de Ciencias Naturales Primaria de 2 A Tercero
Documento3 páginas
Inventario Libros de Ciencias Naturales Primaria de 2 A Tercero
Suarez May
Aún no hay calificaciones
Lista de Utiles Escolares 2017
Documento6 páginas
Lista de Utiles Escolares 2017
Gypsy Gypsy
Aún no hay calificaciones
Guia 5 RV Palabras Homonimas
Documento2 páginas
Guia 5 RV Palabras Homonimas
Anita BM
Aún no hay calificaciones
Noveno
Documento1 página
Noveno
angelicalilianafonsecapalencia
Aún no hay calificaciones
Proyecto de Aprendizaje
Documento7 páginas
Proyecto de Aprendizaje
Dario Dyl DaLa
Aún no hay calificaciones
PAUTA
Documento43 páginas
PAUTA
Betty Ortiz Vega
Aún no hay calificaciones
Palabras y Oraciones Homofonas
Documento9 páginas
Palabras y Oraciones Homofonas
myrosalesortiz
67% (3)
Para Dani
Documento22 páginas
Para Dani
Angeles
Aún no hay calificaciones
Anexos U2 PDF
Documento16 páginas
Anexos U2 PDF
Carito Mejías Rojas
Aún no hay calificaciones
Unidad 3 Adecuado
Documento8 páginas
Unidad 3 Adecuado
EmiliaMcLoughlin
Aún no hay calificaciones
GAL4XIA - Cartas de Nivel
Documento3 páginas
GAL4XIA - Cartas de Nivel
Ruben Gar Ce
Aún no hay calificaciones
Vocabulario y Preguntas Del Examen UD - La Europa Feudal
Documento1 página
Vocabulario y Preguntas Del Examen UD - La Europa Feudal
JIs Laymon
Aún no hay calificaciones
2ESO Ejercicios Repaso
Documento30 páginas
2ESO Ejercicios Repaso
clara.adarve
Aún no hay calificaciones
229 - PDFsam - 280017548 Lenguaje SM 5 PDF
Documento3 páginas
229 - PDFsam - 280017548 Lenguaje SM 5 PDF
Jhon Rider Jr.
100% (1)
Rubrica Trabajos
Documento1 página
Rubrica Trabajos
Romina Barrera
Aún no hay calificaciones
1000 cuestiones, 2000 opciones
De Everand
1000 cuestiones, 2000 opciones
Luis Urbaneta
Aún no hay calificaciones
Unidad 05 - Recuperación de Información Web
Documento52 páginas
Unidad 05 - Recuperación de Información Web
Criss Lemache
Aún no hay calificaciones
Unidad 01 - Recuperación de Información - Introducción
Documento38 páginas
Unidad 01 - Recuperación de Información - Introducción
Criss Lemache
Aún no hay calificaciones
TEMA: Análisis Del Punto de Equilibrio de Los Proyectos de Inversión
Documento3 páginas
TEMA: Análisis Del Punto de Equilibrio de Los Proyectos de Inversión
Criss Lemache
Aún no hay calificaciones
Normalización Del Texto
Documento2 páginas
Normalización Del Texto
Criss Lemache
Aún no hay calificaciones
Unidad 02 - Recuperación de Información - Indexación de Documentos y Procesado de Consultas
Documento36 páginas
Unidad 02 - Recuperación de Información - Indexación de Documentos y Procesado de Consultas
Criss Lemache
Aún no hay calificaciones
Unidad 04 - Recuperación de Información - Evaluación de Eficacia de RI
Documento47 páginas
Unidad 04 - Recuperación de Información - Evaluación de Eficacia de RI
Criss Lemache
Aún no hay calificaciones
Unidad 03 - Recuperación de Información - Modelos Clásicos
Documento53 páginas
Unidad 03 - Recuperación de Información - Modelos Clásicos
Criss Lemache
Aún no hay calificaciones
Tokenización
Documento2 páginas
Tokenización
Criss Lemache
Aún no hay calificaciones
GuiaInformeLabCD1 EvaluacionRendimiento
Documento1 página
GuiaInformeLabCD1 EvaluacionRendimiento
Criss Lemache
Aún no hay calificaciones
UNIT 3-4 Vocabulary
Documento2 páginas
UNIT 3-4 Vocabulary
Criss Lemache
Aún no hay calificaciones
UNIT 1 Vocabulary
Documento2 páginas
UNIT 1 Vocabulary
Criss Lemache
Aún no hay calificaciones
Módulo 7 / Solución: Ejercicio: Matriz de Comunicaciones
Documento2 páginas
Módulo 7 / Solución: Ejercicio: Matriz de Comunicaciones
Criss Lemache
Aún no hay calificaciones
Tareas Unidad 2 Machine
Documento2 páginas
Tareas Unidad 2 Machine
Criss Lemache
Aún no hay calificaciones
Relative Pronouns
Documento5 páginas
Relative Pronouns
Criss Lemache
Aún no hay calificaciones
Unidad 4 Past Perfect
Documento3 páginas
Unidad 4 Past Perfect
Criss Lemache
Aún no hay calificaciones
Modulo 1 Ejercicio Acta de Constitucion
Documento3 páginas
Modulo 1 Ejercicio Acta de Constitucion
Pablo Aviles
Aún no hay calificaciones
Rayos FRL Huracan
Documento23 páginas
Rayos FRL Huracan
Criss Lemache
Aún no hay calificaciones
Prueba Practica de Sistema de Gestor de Base de Datos
Documento1 página
Prueba Practica de Sistema de Gestor de Base de Datos
Criss Lemache
Aún no hay calificaciones
Criss Simm
Documento4 páginas
Criss Simm
Criss Lemache
Aún no hay calificaciones
Ejercicio Estructura de Desglose Del Trabajo
Documento4 páginas
Ejercicio Estructura de Desglose Del Trabajo
Criss Lemache
Aún no hay calificaciones
Asset-V1 IDBx+IDB6x+2T2022+type@asset+block@Modulo 5
Documento3 páginas
Asset-V1 IDBx+IDB6x+2T2022+type@asset+block@Modulo 5
Criss Lemache
Aún no hay calificaciones
Actividad en Clase. Hablar en Público
Documento4 páginas
Actividad en Clase. Hablar en Público
Criss Lemache
Aún no hay calificaciones
Criss Rap
Documento7 páginas
Criss Rap
Criss Lemache
Aún no hay calificaciones
Corrección de La Prueba
Documento3 páginas
Corrección de La Prueba
Criss Lemache
Aún no hay calificaciones
Mapa Conceptual
Documento1 página
Mapa Conceptual
militabonilla
Aún no hay calificaciones
Mapa Conceptual de Anomalías CODD
Documento1 página
Mapa Conceptual de Anomalías CODD
Criss Lemache
Aún no hay calificaciones
Criss Simm
Documento4 páginas
Criss Simm
Criss Lemache
Aún no hay calificaciones
1 - Manual Actualizacion Firmware OLT GP3600-16 V1
Documento14 páginas
1 - Manual Actualizacion Firmware OLT GP3600-16 V1
fermac telecomunicaciones
Aún no hay calificaciones
AL-01 Procedimiento de Recepción de Productos
Documento4 páginas
AL-01 Procedimiento de Recepción de Productos
DanielitaJesusito
Aún no hay calificaciones
Nota Revisión de Literatura y Palabras Clave
Documento3 páginas
Nota Revisión de Literatura y Palabras Clave
TELEPALMERITAS ORIENTACION ESCOLAR
Aún no hay calificaciones
Medicina y Formas Plantillas de Powerpoint
Documento14 páginas
Medicina y Formas Plantillas de Powerpoint
errwe
Aún no hay calificaciones
PW 14 Zyro
Documento4 páginas
PW 14 Zyro
Ariana K. - MARV
Aún no hay calificaciones
Documento 7
Documento15 páginas
Documento 7
Pepperoni Con Anchoas
Aún no hay calificaciones
Manual Dreamweaver
Documento43 páginas
Manual Dreamweaver
FAK U
Aún no hay calificaciones
Historia de Windows XP
Documento15 páginas
Historia de Windows XP
Hernán Gamboa
Aún no hay calificaciones
Manual de Usuario - Foro SISGALENPLUS
Documento6 páginas
Manual de Usuario - Foro SISGALENPLUS
Manuel Jose Sanchez Rodriguez
Aún no hay calificaciones
PPT Sensibilizacion Vigias 20 ENE22 OSIBN6
Documento25 páginas
PPT Sensibilizacion Vigias 20 ENE22 OSIBN6
huber.rodriguez.roldan
Aún no hay calificaciones
Oficio N 00131 - 2022 - Sbs-Pri
Documento1 página
Oficio N 00131 - 2022 - Sbs-Pri
CALEP ANTONIO SOTO RAMOS
Aún no hay calificaciones
10.6.10 Packet Tracer - Back Up Configuration Files - ILM
Documento7 páginas
10.6.10 Packet Tracer - Back Up Configuration Files - ILM
diego rubio
Aún no hay calificaciones
Nomad 900 Series Manual Spanish Rev B
Documento71 páginas
Nomad 900 Series Manual Spanish Rev B
Luis Ernesto Salmeron
Aún no hay calificaciones
Cronograma de Matricula 2022 1
Documento1 página
Cronograma de Matricula 2022 1
Francisco
Aún no hay calificaciones
Paquete Estadistico para Las Ciencias Sociales (SPSS) Basico e Investigacion
Documento5 páginas
Paquete Estadistico para Las Ciencias Sociales (SPSS) Basico e Investigacion
Martin Mariño
Aún no hay calificaciones
Mantenimiento Preventivo Demo
Documento362 páginas
Mantenimiento Preventivo Demo
Daniel Marquez
Aún no hay calificaciones
Examen de Español
Documento31 páginas
Examen de Español
Daniel Martinez Diaz
Aún no hay calificaciones
Solicitud de Empleo PDF
Documento2 páginas
Solicitud de Empleo PDF
Ana Lucía Maltos Gaytán
Aún no hay calificaciones
Practica 3 Arcgis Vectorizacion Cuenca
Documento3 páginas
Practica 3 Arcgis Vectorizacion Cuenca
mario
Aún no hay calificaciones
Programacion de Bajo Nivel - Laboratorio 1
Documento11 páginas
Programacion de Bajo Nivel - Laboratorio 1
Maria Perea
Aún no hay calificaciones
Modelo OSI Ejemplos
Documento17 páginas
Modelo OSI Ejemplos
noemi escobar
Aún no hay calificaciones
Poly Studio Ds Es XL
Documento2 páginas
Poly Studio Ds Es XL
Rolando Hinostroza
Aún no hay calificaciones
Agregación y Composición
Documento17 páginas
Agregación y Composición
Allison Omayra Lucas Sanchez
Aún no hay calificaciones
Exámenes Del Medio Término: Enero-Junio 2023 Programación de Sexto Semestre
Documento1 página
Exámenes Del Medio Término: Enero-Junio 2023 Programación de Sexto Semestre
Kevin Yh HN
Aún no hay calificaciones
Libro VRML
Documento49 páginas
Libro VRML
Gerardo Reaño
Aún no hay calificaciones
Ex Amen Complex Ivo
Documento244 páginas
Ex Amen Complex Ivo
Jhon Harrynson Jiménez Ruir
Aún no hay calificaciones
Guia 3
Documento14 páginas
Guia 3
Jose Isidro Cordero
Aún no hay calificaciones
T00 Juego de Instrucciones de La CPU Elemental
Documento1 página
T00 Juego de Instrucciones de La CPU Elemental
juampiin
Aún no hay calificaciones
Manual de Comandos Arduino
Documento10 páginas
Manual de Comandos Arduino
davidsantana96
Aún no hay calificaciones
Actividad de Puntos Evaluables - Escenario 2 MODELOS de TOMA de DECISIONES 20-50
Documento5 páginas
Actividad de Puntos Evaluables - Escenario 2 MODELOS de TOMA de DECISIONES 20-50
Camilo
Aún no hay calificaciones