Dispersión

GESTIÓN DE DATOS
Dispersión
Dispersión
 Un archivo con acceso directo es un archivo en el cual

cualquier registro puede ser accedido sin acceder antes
a otros registros.
 El almacenamiento en disco de los archivos directos
debe permitir una rápida recuperación de la
información contenida en el archivo, que es el objetivo
principal que se persigue con un archivo directo.
 El mecanismo que trata de asegurar una recuperación
rápida de registros, en un solo acceso promedio, recibe
el nombre de dispersión o hashing.
Dispersión
 Podemos definir dispersión como una técnica de

almacenamiento y recuperación que usa una función
para mapear registros en direcciones de
almacenamiento secundario.
Dirección
Clave
Llave #intermedio Dirección
base
Conversión
Conversión de
del # a una
llave aa número
clave número
dirección
Dispersión
 La técnica de dispersión presenta una serie de

atributos que pueden resumirse en los siguientes:
• No requiere almacenamiento adicional. Esto significa
que cuando se elige la opción de dispersión como
método de organización de archivos, es el archivo de
datos el que resulta disperso.
• Facilita la inserción y eliminación rápida de registros en
el archivo. En general, con un solo acceso a disco, un
registro puede ser insertado o eliminado del archivo.
• Localiza registros dentro del archivo, en promedio, con
un solo acceso a disco.
Dispersión
 Sin embargo, presenta ciertas limitaciones:

• No es posible aplicar la técnica de dispersión en
registros de longitud variable. Esto se debe a que cada
dirección física obtenida debe tener capacidad para
almacenar un registro de tamaño conocido. Es decir,
cuando se obtiene una dirección de almacenamiento,
asociada a ésta hay un espacio de almacenamiento
conocido y acotado. No puede ocurrir que el registro a
almacenar no quepa en dicho espacio.
• No es posible obtener un orden lógico. Los registros son
esparcidos en el archivo de datos de acuerdo con la
dirección que se obtiene con el uso de la función de
hash.
• No es posible tratar con claves duplicadas.
Dispersión
 Tipo de dispersión
• Dispersión con espacio de direccionamiento estático:
El espacio disponible para dispersar los registros de un
archivo de datos está previamente fijado.
• Dispersión con espacio de direccionamiento
dinámico: El espacio disponible para dispersar los
registros de un archivo de datos aumenta o disminuye
en función de las necesidades de espacio que en cada
momento tiene el archivo.
Dispersión estática
 La técnica de dispersión estática presenta cuatro

parámetros esenciales que definen su comportamiento:
• Función de hash.
• Tamaño de cada nodo de almacenamiento.
• Densidad de empaquetamiento.
• Tratamiento de desbordes.
• Función de hash
 Es una función H(x) que transforma un valor, que representa una
clave primaria de un registro, en otro valor que se utiliza como
dirección física de acceso para insertar un registro en un archivo
de datos.
 Como la función de hash podría retornar cualquier valor y el
conjunto de direcciones disponibles es fijo, es necesario mapear
dicho valor dentro del rango de direcciones posibles. Para ello
se utiliza la función MOD (resto de la división entera) de la
siguiente forma:
H(x) MOD #direcciones físicas disponibles
A continuación se presenta un ejemplo de una función de hash:
La función ASCII retorna el

código correspondiente al
carácter indicado
• Función de hash
 La función anterior es muy sencilla, fácil de implementar y
rápida en ejecución. Sin embargo, tiene asociado un
inconveniente. Si aplicamos la función anterior a dos claves
diferentes (por ej. ARMA y RAMA), obtendremos el mismo
resultado. Por lo tanto, los registros asociados a ambas claves
se deberían almacenar en el mismo lugar de memoria. Esta
situación genera una colisión entre ambos registros.
 Se denominan sinónimos a las claves que al aplicarles la
misma función de dispersión obtienen el mismo resultado.
 Las colisiones ocasionan problemas. No es posible almacenar
dos registros en el mismo espacio físico. Las alternativas de
soluciones son dos:
1. Elegir un algoritmo de dispersión que no genere colisiones. Se
ha demostrado que obtener este tipo de funciones resulta
extremadamente difícil. En general, intentar generar estos
algoritmos no es una opción válida.
2. Minimizar el número de colisiones a una cantidad aceptable.
Existen diferentes modos de reducir el número de colisiones,
las alternativas disponibles son:
 Distribuir los registros de la forma más aleatoria posible,
buscando una función de dispersión que distribuya su
resultado de la forma más aleatoria posible (Fig. 1).
 Utilizar más espacio de disco, siendo la desventaja
asociada el desperdicio de espacio.
 Almacenar más de un registro por cada dirección física en
el archivo. Esto es, que cada dirección obtenida por la
función de hash sea la dirección de un nodo o sector de
disco donde es posible almacenar más de un registro. No
obstante, la capacidad de un nodo es limitada, o sea,
puede albergar una cantidad máxima fija de registros
asociados a claves sinónimos.
Función de dispersión Peor función de dispersión Función de dispersión
perfecta posible aceptable
Clave Dirección Clave Dirección Clave Dirección
A 1 A 1 A 1
2 2 2
B B B
3 3 3
C C C
4 4 4
D D D
5 5 5
E 6 E 6 E 6
Función utilizada.
Figura 1
• Tamaño de cada nodo de almacenamiento

 La capacidad de un nodo queda determinada por la
posibilidad de transferencia de información en cada operación
de entrada/salida desde RAM hacia disco, y viceversa.
• Densidad de empaquetamiento
 Esla relación entre el espacio disponible para el archivo de
datos y la cantidad de registros que integran dicho archivo.
Cantidad de registro que componen el archivo
DE =
Espacio disponible
 El espacio disponible se define como la cantidad de nodos

direccionables por la función de hash * la cantidad de registros
que cada nodo puede almacenar.
 Si se debieran esparcir 30 registros entre 10 direcciones con
capacidad de 5 registros por cada dirección:
DE = (30/ 10 * 5) = 0.6 o sea 60%
• Densidad de empaquetamiento
 Cuanto mayor sea la DE, mayor será la posibilidad de
generarse colisiones, dado que se dispone de menos espacio
para esparcir registros.
 Por el contrario, si la DE se mantiene baja, se dispone de mayor
espacio para esparcir registros y, por ende, disminuye la
probabilidad de colisiones.
 Por otra parte, cuando la DE se mantiene baja, se desperdicia
espacio en el disco, do que se utiliza menor espacio que el
reservado, generando fragmentación.
• Tratamiento de desbordes (overflow)

 Un desborde u overflow ocurre cuando un registro es
direccionado a un nodo que no dispone de capacidad para
almacenarlo.
 Cuando esto ocurre, deben realizarse dos acciones:
1. Encontrar lugar para el registro en otra dirección.
2. Asegurarse de que el registro posteriormente sea encontrado en
esa nueva dirección.
 Para efectivizar estas dos acciones, existen diferentes métodos:
 Saturación progresiva
 Saturación progresiva encadenada.
 Dispersión doble
Saturación progresiva
 Consiste en almacenar el registro en la dirección siguiente más
próxima al nodo donde se produce la saturación.
 Supongamos el caso de la Fig 2, donde cada nodo tiene capacidad
de 2 registros, y se quiere agregar a Díaz. La función de hash
retorna como dirección base al nodo 22. Esta situación genera
desborde debido a que el nodo 22 está completo. La primera
dirección del nodo posterior que tiene capacidad para contener a
Díaz es la dirección 24. Por lo tanto, el registro es almacenado he
dicho lugar (Fig. 3).
 El proceso de búsqueda debe estar adaptado. Si se busca a Díaz,
la dirección base que determina la función de hash seguirá siendo
22. Como el elemento no se encuentra en dicho lugar y el nodo está
completo, se debe continuar la búsqueda en los nodos siguientes
hasta encontrar el elemento o hasta encontrar un nodo que no esté
completo.
 Se debe notar la simpleza del método, pero además su limitada
eficiencia. En este ejemplo fueron necesarios tres accesos para
encontrar el registro.
 Supongamos ahora que en la Fig, 3 se elimina el registro
correspondiente a Gómez (Fig. 4)
 Si nuevamente se intenta localizar a Díaz, se presenta un
inconveniente. Al chequear la dirección 23, ésta no se encuentra
completa, por lo que la búsqueda se detendría, sin permitir que
Díaz sea localizado.
 El método necesita indicar que si una dirección estuvo completa
anteriormente, debe ser marcada como dirección ya saturada a fin
de no impedir la búsqueda potencial de registros. En este ejemplo,
el nodo 23, si bien ahora no está saturado, al haberlo estado
mantiene esa condición. Se podría utilizar una marca *** para
indicar dicha situación en el nodo 23 (Fig. 5)
Ejemplo 1
Ejemplo 1: Se quieren almacenar registros con claves Juan, Ana,

María, Teo, Ema, Irene, Pedro y Luz en un archivo disperso con 11
direcciones que albergan un único registro cada una, utilizando
Saturación progresiva.
La función de hash es:
H (x) = código Ascii 1° letra + código Ascii última letra.
Una vez incorporados todos los registros, calcular la densidad de

empaquetamiento (DE).
Ejemplo 1
Lo primero que hacemos es dibujar una tabla con 11 filas,

numeradas de 0 a 10, y una columna para colocar los registros:
A continuación comenzaremos a incorporar de a uno los registros.

Ejemplo 1
Para incorporar un registro, primero debemos aplicar la H(x) al

campo de dispersión.
H (Juan) = código Ascii de la J + código Ascii de la n
H (Juan) = 74 + 110
H (Juan) = 184
Una vez calculada la función de dispersión, se debe mapear el
resultado al espacio disponible, ya que la dirección 184
no existe en la tabla.
Para esto, vamos a aplicar la función mod (resto de la división
entera).
dir = H (x) mod cantidad de direcciones disponibles
dir = 184 mod 11
dir = 8 Libre!!!
Esto significa que el registro con clave Juan se va a almacenar
en la dirección 8.
Ejemplo 1
Incorporamos el registro al fichero:
Ahora debemos colocar el segundo registro correspondiente a Ana.

Ejemplo 1
H (Ana) = código Ascii de la A + código Ascii de la a

H (Ana) = 65 + 97 = 162
dir = 162 mod 11 = 8 COLISIONA con Juan!!!
Como el método de resolución de colisiones es

Saturación progresiva, debemos inspeccionar la
dirección siguiente.
dir = (dir + 1) mod 11

dir = (8 + 1) mod 11 = 9 Libre!!!
Por lo tanto, el registro con clave Ana se ubica en la
dirección 9.
Ejemplo 1
H (María) = código Ascii de la M + código Ascii de la a

H (María) = 77 + 97
H (María) = 174
dir = 174 mod 11
dir = 9 COLISIONA con Ana!!!
Como el método de resolución de colisiones es

Saturación progresiva, debemos inspeccionar la
dirección siguiente.

dir = (9 + 1) mod 11 = 10 Libre!!!
Por lo tanto, el registro con clave María se ubica en la
dirección 10.
Ejemplo 1
H (Teo) = código Ascii de la L + código Ascii de la z

H (Teo) = 84 + 111 = 195
Buscamos la dirección siguiente, sumando 1 a la

dirección actual.

dir = (8 + 1) mod 11 = 9 Ocupada!!!
dir = (9 + 1) mod 11 = 10 Ocupada!!!
dir = (10 + 1) mod 11 = 0 Libre!!!
El registro con clave Teo se ubica en la dirección 0.

Ejemplo 1
H (Ema) = código Ascii de la E + código Ascii de la a

H (Ema) = 69 + 97 = 166
dir = 166 mod 11 = 1 Libre!!!
El registro con clave Ema se ubica en la dirección 1.
Ana -1
Ejemplo 1
H (Irene) = código Ascii de la I + código Ascii de la e

H (Irene) = 73 + 101 = 174
dir = 174 mod 11 = 9 COLISIONA con Ana!!!

dirección actual.

dir = (9 + 1) mod 11 = 10 Ocupada!!!
dir = (10 + 1) mod 11 = 0 Ocupada!!!
dir = (0 + 1) mod 11 = 1 Ocupada!!!
dir = (1 + 1) mod 11 = 2 Libre!!!
El registro con clave Irene se ubica en la dirección 2.

Ejemplo 1
H (Pedro) = código Ascii de la P + código Ascii de la o

H (Pedro) = 80 + 111 = 198
dir = 198 mod 11 = 0 Colisiona con Teo!!!

dirección actual.
dir = (0 + 1) mod 11 = 1 Ocupada!!!

dir = (1 + 1) mod 11 = 2 Ocupada!!!
dir = (2 + 1) mod 11 = 3 Libre!!!
El registro con clave Pedro se ubica en la dirección 3.

Ejemplo 1
H (Luz) = código Ascii de la L + código Ascii de la z

H (Luz) = 76 + 122 = 198
dir = 198 mod 11 = 2 COLISIONA con Irene!!!

dirección actual.
dir = (2 + 1) mod 11 = 3 Ocupada!!!

dir = (3 + 1) mod 11 = 4 Libre!!!
El registro con clave Luz se ubica en la dirección 4.

Ahora que incorporamos a todos los registros
calculamos la densidad de empaquetamiento:
DE = 8 / 11 = 0,72 DE = 72 %
Saturación progresiva encadenada
 En líneas generales, el método funciona igual a su predecesor.
La diferencia radica en que, una vez localizada la nueva
dirección, ésta se encadena o enlaza con la dirección base
inicial, generando una cadena de búsqueda entre sinónimos.
 En la Fig. 6 se presenta un ejemplo. Cada nodo tiene además
la dirección siguiente. El valor -1 en el campo de enlace indica
que no direcciona a ningún registro en saturación.
 Como ventaja podemos citar que mejora el número de accesos
promedios ya que sólo se necesita acceder a los registros con
claves que son sinónimos.
 La desventaja es que debe agregarse un campo de enlace a
en cada nodo y requiere espacio de almacenamiento.
 Éste método presenta el problema cuando se accede a una
dirección base ocupada por un registro que no es de ese lugar
(intruso).
 Supongamos que queremos incorporar el registro con clave
Guerra que tiene dirección base 24. ¿Está bien enlazar a
Guerra con Díaz? No, porque no son sinónimos.
MAL!!!
 A continuación analizaremos dos soluciones:
• Solución 1 (sin intruso): Sólo se puede utilizar esta solución si se
conocen todos los registros y no se van a realizar futuras inserciones.
Consiste en cargar el archivo en dos pasos.
1. Primero se cargan los registros en sus direcciones base y los registros
con claves que son sinónimos se guardan aparte. De esta forma se
garantiza que ninguna dirección base estará ocupada por registros
en saturación.
2. Cargar los registros que se guardaron aparte en las direcciones
libres.
• Solución 2 (con intruso): Si el registro nuevo a insertarse encuentra su
dirección base ocupada por un registro cuya clave no es sinónimo,
entonces éste debe removerse. Se o ubicará en la próxima dirección
libre y se actualizarán los enlaces necesarios.
Ejemplo 2

María, Teo, Ema, Irene, Pedro y Luz en un fichero disperso con 11
Saturación progresiva encadenada (sin intruso).
Ejemplo 2

numeradas de 0 a 10, y dos columnas, una para los registros y otra
para los enlaces:

Ejemplo 2

H (Juan) = 74 + 110
H (Juan) = 184
dir = 184 mod 11
dir = 8 Libre!!!
El registro con clave Juan se ubica en la dirección 8.

Ejemplo 2

H (Ana) = 65 + 97 = 162
Se coloca a Ana en espera.

Ejemplo 2

H (María) = 77 + 97 = 174
dir = 174 mod 11
dir = 9 Libre!!!
El registro con clave María se ubica en la dirección 9.

Ejemplo 2

H (Teo) = 84 + 111 = 195
Se coloca a Teo en espera.

Ejemplo 2

H (Ema) = 69 + 97 = 166
dir = 166 mod 11 = 1 Libre!!!

Ejemplo 2

H (Irene) = 73 + 101 = 174
dir = 174 mod 11 = 9 COLISIONA con María!!!
Se coloca a Irene en espera.

Ejemplo 2

H (Pedro) = 80 + 111 = 198
dir = 198 mod 11 = 0 Libre!!!

Ejemplo 2

H (Luz) = 76 + 122 = 198
dir = 198 mod 11 = 0 Ocupada!!!
Se coloca a Luz en espera.

Ejemplo 2
El registro con clave Luz fue el último registro. Ahora hay que colocar los
registros que están en espera.
Ejemplo 2

H (Ana) = 65 + 97 = 162
Debemos inspeccionar la dirección siguiente.
dir = (8 + 1) mod 11 = 9 Ocupada!!!
dir = (9 + 1) mod 11 = 10 Libre!!!
Por lo tanto, el registro con clave Ana se ubica en la
dirección 10 y se debe enlazar con su dirección base
que es la que contiene a Juan (8). En el enlace de la
dirección 10 se copia el enlace el valor del enlace de la
dirección 8. En el enlace de la dirección 8 se coloca la
dirección donde se almacenará a Ana.
H (Teo) = 84 + 111 = 195
dir = (8 + 1) mod 11 = 9 Ocupada!!!
dir = (10 + 1) mod 11 = 10 Ocupada!!!
dir = (10 + 1) mod 11 = 0 Ocupada!!!
dir = (0 + 1) mod 11 = 1 Ocupada!!!
dir = (1 + 1) mod 11 = 2 Libre!!!
Por lo tanto, el registro con clave Teo se ubica en la dirección
2 y se debe enlazar con su dirección base que es la que
contiene a Juan (8). En el enlace de la dirección 2 se copia el
enlace el valor del enlace de la dirección 8. En el enlace de la
dirección 8 se coloca la dirección donde se almacenará a Teo.
H (Irene) = 73 + 101 = 174
dir = (10 + 1) mod 11 = 10 Ocupada!!!
dir = (10 + 1) mod 11 = 0 Ocupada!!!
dir = (0 + 1) mod 11 = 1 Ocupada!!!
dir = (1 + 1) mod 11 = 2 Ocupada!!!
dir = (2 + 1) mod 11 = 3 Libre!!!
El registro con clave Irene se ubica en la dirección 3. En el
enlace de la dirección 3 se copiará el valor del enlace de la
dirección 9. En el enlace de la dirección 9 se colocará la
dirección donde se almacenará a Irene.
H (Luz) = 76 + 122 = 198
dir = 198 mod 11 = 0 Colisiona con Pedro!!!
dir = (0 + 1) mod 1 = 1 Ocupada!!!
dir = (1 + 1) mod 11 = 2 Ocupada!!!
dir = (2 + 1) mod 11 = 3 Ocupada!!!
dir = (3 + 1) mod 11 = 4 Libre!!!
El registro con clave Luz se ubica en la dirección 4. En el
enlace de la dirección 4 se copiará el valor del enlace de la
dirección 0. En el enlace de la dirección 0 se colocará la
dirección donde se almacenará a Irene.
5
Ejemplo 3

Saturación progresiva encadenada (con intruso).
Ejemplo 3

numeradas de 0 a 10, y dos columnas, una para los registros y otra
para los enlaces:

Ejemplo 3

H (Juan) = 74 + 110
H (Juan) = 184
dir = 184 mod 11
dir = 8 Libre!!!

Ejemplo 3

H (Ana) = 65 + 97 = 162
Calculamos la dirección base de Juan para saber si Juan es

intruso o no. La dirección de Juan es 8, por lo tanto no es
intruso.
Buscamos un lugar libre para Ana.

dir = (8 + 1) mod 11 = 9 Libre!!!
Por lo tanto, el registro con clave Ana se ubica en la dirección

valor del enlace de la dirección 8. En el enlace de la dirección
8 se coloca la dirección donde se almacena a Ana.
Ejemplo 3

H (María) = 77 + 97 = 174
dir = 174 mod 11
dir = 9 COLISIONA con Ana!!!
Calculamos la dirección base de Ana para saber si Ana es
intruso o no. La dirección base de Ana es 8, por lo tanto es
intruso. Debemos sacar al intruso y reubicarlo.
dir = (9 + 1) mod 11 = 10 Libre!!!
Por lo tanto, el registro con clave Ana se traslada a la
dirección 10 y se debe actualizar el enlace de su predecesor.
Se busca el predecesor empezando por la dirección base (8).
En este caso el enlace de la dirección 8 contiene el valor 9 y
se reemplaza por 10.
H (Teo) = código Ascii de la T + código Ascii de la o
H (Teo) = 84 + 111 = 195
Calculamos la dirección base de Juan para saber si Juan es
intruso o no. La dirección de Juan es 8, por lo tanto no es
intruso.
Buscamos un lugar libre para Teo.
dir = (8 + 1) mod 11 = 9 Ocupada!!!
dir = (9 + 1) mod 11 = 10 Ocupada!!!
dir = (10 + 1) mod 11 = 0 Libre!!!
Por lo tanto, el registro con clave Teo se ubica en la dirección
valor del enlace de la dirección 8. En el enlace de la dirección
8 se coloca la dirección donde se almacena a Teo.
Ejemplo 3

H (Ema) = 69 + 97 = 166
dir = 166 mod 11 = 1 Libre!!!

H (Irene) = 73 + 101 = 174
Calculamos la dirección base de María para saber si María
es intruso o no. La dirección de María es 9, por lo tanto no es
intruso.
Buscamos un lugar libre para Irene.
dir = (9 + 1) mod 11 = 10 Ocupada!!!
dir = (10 + 1) mod 11 = 0 Ocupada!!!
dir = (0 + 1) mod 11 = 1 Ocupada!!!
dir = (1 + 1) mod 11 = 2 Libre!!!
Por lo tanto, el registro con clave Irene se ubica en la dirección
contiene a María (9). En el enlace de Irene se copia el valor
del enlace de la dirección base. En el enlace de la dirección
base se coloca la dirección donde se almacena a Irene.
H (Pedro) = 80 + 111 = 198
dir = 198 mod 11 = 0 Colisiona con Teo!!!
Calculamos la dirección base de Teo para saber si Teo es
intruso o no. La dirección base de Teo es 8, por lo tanto es
intruso. Debemos sacar al intruso y reubicarlo.
dir = (0 + 1) mod 11 = 1 Ocupada!!!

dir = (1 + 1) mod 11 = 2 Ocupada!!!
dir = (2 + 1) mod 11 = 3 Libre!!!
Por lo tanto, el registro con clave Teo se traslada a la
dirección 3 y se debe actualizar el enlace de su predecesor.
Se busca el predecesor empezando por la dirección base (8).
En este caso el enlace de la dirección 8 contiene el valor 0 y
se reemplaza por 3.
H (Luz) = 76 + 122 = 198
dir = 198 mod 11 = 0 Colisiona con Pedro!!!
Calculamos la dirección base de Pedro para saber si Pedro es
intruso o no. La dirección base de Pedro es 0, por lo tanto no
es intruso.
Buscamos un lugar libre para Luz.
dir = (0 + 1) mod 11 = 1 Ocupada!!!
dir = (1 + 1) mod 11 = 2 Ocupada!!!
dir = (2 + 1) mod 11 = 3 Ocupada!!!
dir = (3 + 1) mod 11 = 4 Libre!!!
Por lo tanto, el registro con clave Luz se ubica en la dirección
contiene a Pedro (0). En el enlace de Luz se copia el valor
del enlace de la dirección base. En el enlace de la dirección
base se coloca la dirección donde se almacena a Luz.
Dispersión doble
 El problema general que presenta la saturación progresiva es que,
a medida que se producen saturaciones, los registros tienden a
esparcirse en nodos cercanos. Esto podría provocar un exceso de
saturación sectorizada.
 La doble dispersión consiste en disponer de dos funciones de hash.
La primera obtiene la dirección base, a partir de la clave, en la cual
el registro será ubicado.
 De producirse overflow, se utilizará la segunda función de hash. El
resultado de la segunda función de hash es un desplazamiento. Este
desplazamiento se suma a la dirección base obtenida con la
primera función, generando así la nueva dirección donde se
intentará ubicar al registro. En caso de generarse nuevamente
overflow, se deberá sumar de manera reiterada el desplazamiento
obtenido, y así sucesivamente hasta encontrar una dirección donde
albergar al registro.
Dispersión doble
 La dispersión doble tiende a esparcir los registros en saturación a lo
largo del archivo de datos, pero con un efecto lateral importante.
 Los registros en overflow tienden a ubicarse “lejos” de sus
direcciones base, lo cual produce un mayor desplazamiento de la
cabeza lectora/grabadora del disco rígido, aumentando la latencia
entre pistas y, por consiguiente, el tiempo de respuesta.
 Por otro lado, se evita el acumulamiento.
Dispersión doble
Ejemplo 4

Dispersión doble.
La primera función de hash es:
H (x) = código Ascii 1° letra + código Ascii última letra
La segunda función de hash es:
H2 (x) = código Ascii 1° letra DIV 10
Dispersión doble
Ejemplo 4


Dispersión doble
Ejemplo 4

H (Juan) = 74 + 110
H (Juan) = 184 Enlace
dir = 184 mod 11

dir = 8 Libre!!!

Dispersión doble
Ejemplo 4

H (Ana) = 65 + 97 = 162
Hay que aplicar la segunda función de hash.

H2 (Ana) = código Ascii 1° letra DIV 10
H2 (Ana) = 65 DIV 10
H2 (Ana) = 6 DESPLAZAMIENTO
dir = (dir + desplazamiento) mod 11

dir = (8 + 6) mod 11 = 3 Libre!!!
El registro con clave Ana se ubica en la dirección 3.

Dispersión doble
Ejemplo 4

H (María) = 77 + 97 = 174
dir = 174 mod 11
dir = 9 Libre!!!

Dispersión doble
Ejemplo 4

H (Teo) = 84 + 111 = 195

H2 (Teo) = código Ascii 1° letra DIV 10
H2 (Teo) = 84 DIV 10
H2 (Teo) = 8 DESPLAZAMIENTO

dir = (8 + 8) mod 11 = 5 Libre!!!

Dispersión doble
Ejemplo 4

H (Ema) = 69 + 97 = 166
dir = 166 mod 11 = 1 Libre!!!

H (Irene) = 73 + 101 = 174
H2 (Irene) = código Ascii 1° letra DIV 10
H2 (Irene) = 73 DIV 10
H2 (Irene) = 7 DESPLAZAMIENTO
dir = (9 + 7) mod 11 = 5 Ocupada!!!
dir = (5 + 7) mod 11 = 1 Ocupada!!!
dir = (1 + 7) mod 11 = 8 Ocupada!!!
dir = (8 + 7) mod 11 = 4 Libre!!!

Dispersión doble
Ejemplo 4

H (Pedro) = 80 + 111 = 198
dir = 198 mod 11 = 0 Libre!!!

Dispersión doble
Ejemplo 4

H (Luz) = 76 + 122 = 198
H2 (Luz) = código Ascii 1° letra DIV 10
H2 (Luz) = 77 DIV 10
H2 (Luz) = 7 DESPLAZAMIENTO
dir = (0 + 7) mod 11 = 7 Libre!!!
El registro con clave Luz se ubica en la dirección 7.

Dispersión estática - Redispersión
71
 Si el archivo “se completa”, o el archivo supera una determinada

densidad de empaquetamiento, o las cadenas de saturación se
vuelven tan largas que el tiempo de respuesta resulta
inadmisible, ¿qué hacemos? REDISPERSAR
 Los pasos a seguir cuando se redispersa son:
• Incrementar el espacio de direcciones. Para esto se duplica la cantidad
actual de direcciones disponibles y se busca el número primo superior
más próximo. Por ejemplo, si la cantidad actual de direcciones es 37
calculamos 2*37 = 74 y avanzamos buscando el próximo número
primo: 75, 76, ….79 es primo!!! El nuevo archivo disperso tendrá 79
direcciones.
• Pasar todos los registros del anterior archivo de datos al nuevo
espacio.
Dispersión estática - Redispersión
72
 El costo de redispersar es muy alto. El tiempo utilizado es

importante, y mientras se realiza la operatoria no es posible que
los usuarios finales de la información accedan al fichero. Por esto,
cuando se piensa en la creación de un fichero es importante:
• Analizar la tasa de crecimiento posible del fichero.
• Determinar la cantidad de direcciones que optimice el uso de espacio
vs. la perioricidad de la redispersión.
 Alternativa: Trabajar con ficheros que administren el espacio de
direccionamiento de manera dinámica.
Dispersión estática – Redispersión
Ejemplo 5

María, Teo, Ema, Irene, Pedro y Luz y en un fichero disperso con 11
Dispersión doble.
La primera función de hash es:
H (x) = código Ascii 1° letra + código Ascii última letra
La segunda función de hash es:
H2 (x) = código Ascii 1° letra DIV 10
La densidad de empaquetamiento no puede superar el 50%.

Ejemplo 5


Ejemplo 5

H (Juan) = 74 + 110
H (Juan) = 184
Enlace
dir = 184 mod 11

dir = 8 Libre!!!
Después de cada inserción se debe calcular la densidad

de empaquetamiento.
DE = 1 / 11 = 0,09
DE = 9 %
Ejemplo 5

H (Ana) = 65 + 97 = 162

H2 (Ana) = código Ascii 1° letra DIV 10
H2 (Ana) = 65 DIV 10
H2 (Ana) = 6 DESPLAZAMIENTO

dir = (8 + 6) mod 11 = 3 Libre!!!
El registro con clave Ana se ubica en la dirección 3.
DE = 2 / 11 = 0,18 DE = 18 %
Ejemplo 5

H (María) = 77 + 97 = 174
dir = 174 mod 11
dir = 9 Libre!!!
DE = 3 / 11 = 0,27
DE = 27 %
Ejemplo 5

H (Teo) = 84 + 111 = 195

H2 (Teo) = código Ascii 1° letra DIV 10
H2 (Teo) = 84 DIV 10
H2 (Teo) = 8 DESPLAZAMIENTO

dir = (8 + 8) mod 11 = 5 Libre!!!
DE = 4 / 11 = 0,36 DE = 36 %
Ejemplo 5
H (Ema) = 69 + 97 = 166
dir = 166 mod 11 = 1 Libre!!!
DE = 5 / 11 = 0,45
DE = 45 %
H (Irene) = 73 + 101 = 174
H2 (Irene) = código Ascii 1° letra DIV 10
H2 (Irene) = 73 DIV 10
H2 (Irene) = 7 DESPLAZAMIENTO
dir = (9 + 7) mod 11 = 5 Ocupada!!!
dir = (5 + 7) mod 11 = 1 Ocupada!!!
dir = (1 + 7) mod 11 = 8 Ocupada!!!
dir = (8 + 7) mod 11 = 4 Libre!!!
Supera el 50%, hay
DE = 6 / 11 = 0,54 DE = 54 % que redispersar!!!
Ejemplo 5
Para redispersar tenemos que:
1. Buscar el número primo mayor al doble

de la cantidad actual de direcciones
2 * 11 = 22
Valor siguiente: 23 número primo!!!
El nuevo espacio será de 23 direcciones
2. Trasladar cada uno de los registros que

están en el archivo anterior a este nuevo
espacio.
Ejemplo 5
Se empieza a recorrer el archivo anterior

desde la dirección 0.
La dirección 0 no tiene registros.
La dirección 1 tiene un registro, se debe
trasladar el registro con clave Ema. Para
esto se calcula la función de hash de Ema:
H (Ema) = 69 + 97 = 166
Hay que mapear el 166 al nuevo espacio,
ahora aplicamos mod 23
dir = 166 mod 23 = 5 Libre!!!
El registro con clave Ema se ubica en la

dirección 5.
Ejemplo 5
Seguimos “barriendo el archivo anterior”.

trasladar el registro con clave Ana. Para
esto se calcula la función de hash de Ana:
H (Ana) = 65 + 97 = 162
dir = 162 mod 23 = 1 Libre!!!
El registro con clave Ana se ubica en la

dirección 1.
Ejemplo 5

trasladar el registro con clave Irene. Para
esto se calcula la función de hash de Irene:
H (Irene) = 73 + 101 = 174
dir = 174 mod 23 = 13 Libre!!!
El registro con clave Irene se ubica en la

dirección 13.
Ejemplo 5

trasladar el registro con clave Teo. Para
esto se calcula la función de hash de Teo:
H (Teo) = 84 + 111 = 195
dir = 195 mod 23 = 11 Libre!!!
El registro con clave Teo se ubica en la

dirección 11.
Ejemplo 5

trasladar el registro con clave Juan. Para
esto se calcula la función de hash de Juan:
H (Juan) = 74 + 110 = 184
dir = 184 mod 23 = 8 Libre!!!
El registro con clave Juan se ubica en la

dirección 8.
Ejemplo 5

trasladar el registro con clave María. Para
esto se calcula la función de hash de María:
H (María) = 77 + 97 = 174
H2 (María) = código Ascii 1° letra DIV 10
H2 (María) = 77 DIV 10
H2 (María) = 7 DESPLAZAMIENTO
dir = (13 + 7) mod 23 = 20 Libre!!!
El registro con clave María se ubica en la
dirección 20.
Ejemplo 5
Una vez que terminamos de trasladar

todos los registros, continuamos
insertando los registros restantes
H (Pedro) = 80 + 111 = 198

dir = 198 mod 23 = 14 Libre!!!
El registro con clave Pedro se ubica en la

dirección 14.
Ejemplo 5
H (Luz) = 76 + 122 = 198

Hay que aplicar la segunda función de
hash.
H2 (Luz) = código Ascii 1° letra DIV 10
H2 (Luz) = 77 DIV 10
H2 (Luz) = 7 DESPLAZAMIENTO
dir = (14 + 7) mod 23 = 21 Libre!!!
El registro con clave Luz se ubica en la

dirección 21.
Ejemplo 6
Ejemplo 6: Grafique los estados sucesivos para las siguientes

inserciones en un archivo con 7 direcciones. Los valores a insertar
son: 328, 525 y 743.
 h(x) = Producto de primer y último dígito
Técnica de resolución de colisiones:

Saturación progresiva encadenada con intruso
Densidad de empaquetamiento < 69%

Ejemplo 7
Ejemplo 7: Grafique los estados sucesivos para las siguientes

inserciones en un archivo con 7 direcciones. Los valores a insertar
son: 426, 721 y 544.
 h(x) = Producto de primer y último dígito
Técnica de resolución de colisiones:

Dispersión doble
Densidad de empaquetamiento < 69%

Dispersión dinámica – Método hash
extensible
 El principio del método consiste en comenzar a trabajar con
un único nodo para almacenar registros e ir aumentando la
cantidad de direcciones disponibles a medida que los nodos
se completan.
 No utiliza el concepto de densidad de empaquetamiento ya

que el espacio utilizado en disco aumenta o disminuye en
función de la cantidad de registros de que dispone el archivo
en cada momento.
 Las direcciones de los nodos no están prefijadas a priori, y

por lo tanto la función de hash no puede retornar una
dirección fija. Es necesario cambiar la política de trabajo de
la función de dispersión.
extensible
 La función de hash retorna una cadena de bits. La cantidad

de bits determina la cantidad máxima de direcciones a las
que puede acceder el método.
 Ejemplo: Con una función de hash que retorne 32 bits es

posible direccionar 232 direcciones de nodos diferentes, si
fuera necesario. Si pensamos que cada dirección pudiese
almacenar 100 registros, la cantidad de claves a dispersar es
importante.
 Este método necesita, para su implementación, de una

estructura auxiliar. Esta estructura es una tabla que se
administra en memoria principal.
extensible
 Dicha estructura contiene la dirección física de cada nodo. Se
debe tener en cuenta que la función de hash no retorna una
dirección física, sino una secuencia de bits. Dicha secuencia
permite obtener de la tabla en memoria la dirección física
del nodo para almacenar la clave. Además, la tabla será
utilizada posteriormente para recuperar cada registro en un
solo acceso al disco.
 Se comienza con un solo nodo en disco. Una sola entrada en

la estructura auxiliar
Tabla en memoria Direcciones en disco
0 0
dirección
extensible
 Para realizar inserciones, el método trabaja de la siguiente
forma:
• Se calcula la función de hash y se toman tantos bits como indica
el valor asociado a la tabla. Cuando dicho valor es cero
significa que hay una sola dirección en la tabla.
• Una vez obtenida la dirección de la tabla se procede a
recuperar el nodo del disco. Si tiene hay espacio en el nodo, el
registro se guardará allí.
0 0
dirección José Sofía
extensible
• En el caso que el nodo esté saturado, se deberán realizar los
siguientes pasos:
 Aumentar en uno el valor asociado del nodo saturado y
agregar un nuevo nodo.
 Analizar si hay que duplicar la estructura auxiliar y por lo
tanto aumentar su valor asociado.
 Volver a dispersar (con el nuevo valor asociado) las claves
en conflicto.
extensible
Alta de la
0 1
clave Ana
dirección 23
José 56
Sofía
1
Valor asociado Nueva dirección
en disco
a cada nodo.
Valor asociado Tabla en memoria Direcciones en disco

a toda la tabla.
1 1
0 dirección Sofía
1 dirección 1
23 45
Ana José
extensible
 Resumiendo, el método de hash extensible trabaja según
las siguientes pautas:
• Se utilizan solo los bits necesarios de acuerdo con cada
instancia del archivo.
• Los bits tomados forman la dirección del nodo que se
utilizará.
• Si se intenta insertar en un nodo lleno, deben reubicarse todos
los registros allí contenidos entre el nodo viejo y el nodo
nuevo. Para esto se toma un bit más.
• La tabla tendrá tantas entradas (direcciones de nodos) como
2i, siendo i el número de bits actuales para el sistema.
extensible
 El proceso de búsqueda asegura encontrar cada registro
en un solo acceso. Se calcula la secuencia de bits para la
clave, se toman tantos bits de esa secuencia como indiqu
el valor asociado a la tabla, y la dirección del nodo
contenida en la celda respectiva debería contener el
registro buscado. En caso de no encontrar el registro en
dicho nodo, se puede afirmar que el elemento buscado
no forma parte del archivo de datos.
Dispersión dinámica – Método hash extensible
Ejemplo 8
Ejemplo 8: Realice el proceso de dispersión mediante el método de

dispersión dinámica, sabiendo que cada nodo tiene capacidad
para dos registros. El número natural indica el orden de llegada de
los registros.
Dispersión - Conclusiones
 La dispersión es utilizada en aquellos problemas donde

la eficiencia de búsqueda resulte extrema y, por ende,
se requiera realizar un solo acceso para recuperar la
información.
 La dispersión con espacio de direccionamiento estática
asegura (en un gran porcentaje de casos) encontrar los
registros buscados con un solo acceso a disco.
 Si se desea asegurar siempre un acceso a disco para
recuperar la información, la variante de dispersión
extensible lo logra. El costo que debe asumirse es un
mayor procesamiento cuando una inserción genera
overflow.

Dispersión

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Dispersión

Cargado por

Copyright:

Formatos disponibles

GESTIÓN DE DATOS

 Un archivo con acceso directo es un archivo en el cual

 Podemos definir dispersión como una técnica de

 La técnica de dispersión presenta una serie de

 Sin embargo, presenta ciertas limitaciones:

 La técnica de dispersión estática presenta cuatro

La función ASCII retorna el

• Tamaño de cada nodo de almacenamiento

 El espacio disponible se define como la cantidad de nodos

• Tratamiento de desbordes (overflow)

 Saturación progresiva encadenada.

Ejemplo 1: Se quieren almacenar registros con claves Juan, Ana,

Una vez incorporados todos los registros, calcular la densidad de

Lo primero que hacemos es dibujar una tabla con 11 filas,

A continuación comenzaremos a incorporar de a uno los registros.

Para incorporar un registro, primero debemos aplicar la H(x) al

Incorporamos el registro al fichero:

Ahora debemos colocar el segundo registro correspondiente a Ana.

H (Ana) = código Ascii de la A + código Ascii de la a

Como el método de resolución de colisiones es

dir = (dir + 1) mod 11

H (María) = código Ascii de la M + código Ascii de la a

Como el método de resolución de colisiones es

dir = (dir + 1) mod 11

H (Teo) = código Ascii de la L + código Ascii de la z

Buscamos la dirección siguiente, sumando 1 a la

dir = (dir + 1) mod 11

El registro con clave Teo se ubica en la dirección 0.

H (Ema) = código Ascii de la E + código Ascii de la a

El registro con clave Ema se ubica en la dirección 1.

H (Irene) = código Ascii de la I + código Ascii de la e

Buscamos la dirección siguiente, sumando 1 a la

dir = (dir + 1) mod 11

El registro con clave Irene se ubica en la dirección 2.

H (Pedro) = código Ascii de la P + código Ascii de la o

Buscamos la dirección siguiente, sumando 1 a la

dir = (0 + 1) mod 11 = 1 Ocupada!!!

El registro con clave Pedro se ubica en la dirección 3.

H (Luz) = código Ascii de la L + código Ascii de la z

Buscamos la dirección siguiente, sumando 1 a la

dir = (2 + 1) mod 11 = 3 Ocupada!!!

El registro con clave Luz se ubica en la dirección 4.

Ejemplo 2: Se quieren almacenar registros con claves Juan, Ana,

Lo primero que hacemos es dibujar una tabla con 11 filas,

A continuación comenzaremos a incorporar de a uno los registros.

H (Juan) = código Ascii de la J + código Ascii de la n

El registro con clave Juan se ubica en la dirección 8.

H (Ana) = código Ascii de la A + código Ascii de la a

Se coloca a Ana en espera.

H (María) = código Ascii de la M + código Ascii de la a

El registro con clave María se ubica en la dirección 9.

H (Teo) = código Ascii de la L + código Ascii de la z

Se coloca a Teo en espera.

H (Ema) = código Ascii de la E + código Ascii de la a

El registro con clave Ema se ubica en la dirección 1.

H (Irene) = código Ascii de la I + código Ascii de la e

Se coloca a Irene en espera.

H (Pedro) = código Ascii de la P + código Ascii de la o

El registro con clave Pedro se ubica en la dirección 0.

H (Luz) = código Ascii de la L + código Ascii de la z

Se coloca a Luz en espera.

H (Ana) = código Ascii de la A + código Ascii de la a

Ejemplo 3: Se quieren almacenar registros con claves Juan, Ana,

Lo primero que hacemos es dibujar una tabla con 11 filas,