Está en la página 1de 28

Gestión de Datos

Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

Gestión de Datos
2023

Cátedra de Gestion de Datos


Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

MEDIOS DE ALMACENAMIENTO

La información en la computadora pueden almacenarse en:

• Almacenamiento Principal. Consiste en la memoria principal, pero no


es grande, además de ser volátil. En ella suele almacenarse los datos
necesarios para una consulta. Su acceso es rápido, pero resulta
inadecuada para el almacenamiento de grandes volúmenes en forma
permanente.
• Almacenamiento Secundario. Consiste en el almacenamiento en
dispositivos auxiliares como los discos, en donde puede guardarse la
información en forma durable. Debe contemplarse el tiempo de acceso al
dispositivo secundario, que deben reducirse al mínimo posible.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

ARCHIVOS

Un ARCHIVO o FICHERO (FILE) es un conjunto finito de información


estructurada en subconjuntos llamados REGISTROS, los cuales suelen estar
guardados en dispositivos secundarios de almacenamiento.

Un REGISTRO está formado por un conjunto de CAMPOS que toman un valor


particular de un conjunto de valores posibles o DOMINIO.

Una LLAVE o CLAVE (KEY) es un campo o conjunto de campos que permite


identificar en forma univoca a un registro.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

ARCHIVO ALUMNOS
Ejemplo de un archivo de alumnos:
CAMPOS
CLAVE

Legajo (ID) Apellido Nombre DNI


REGISTRO 123 Pérez Juan 43434343
456 Gómez María 44444444
789 Juárez Gustavo 45454545
899 Ibarra Daniel 46464646
911 Tejerizo Raul 47474747
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

REGISTROS LOGICOS Y REGISTROS FISICOS

Un REGISTRO LOGICO está formado por un conjunto de CAMPOS que toman un


valor particular de un conjunto de valores posibles o DOMINIO.

Una REGISTRO FISICO, también denominado BLOQUE o PAGINA, es una unidad


de transferencia entre el almacenamiento principal y el secundario.

Normalmente un registro físico contiene varios registros lógicos, pues se busca


minimizar los accesos al almacenamiento secundario, cuello de botella en los
sistemas informáticos.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

ORGANIZACIÓN DE ARCHIVO Y METODOS DE ACCESO

• La ORGANIZACIÓN DE ARCHIVO implica un criterio para representar,


almacenar y recuperar los registros de un archivo almacenados en un
soporte físico externo o secundario.
• El METODO DE ACCESO refleja los pasos necesarios para almacenar y
extraer los registros de un archivo.
• Normalmente la organización del archivo y los métodos de acceso están
íntimamente relacionados, debido a que algunos métodos solo pueden
aplicarse en algunas de las organizaciones de archivo.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

OPERACIONES SOBRE ARCHIVOS


Un ORGANIZACIÓN DE ARCHIVO debe ser capaz de realizar las siguientes
operaciones sobre los archivos:
• RECUPERACION o CONSULTA (QUERY): recuperar un conjunto de
registros específicos en base a un criterio determinado, sin modificarlos.
• ACTUALIZACION: operaciones que producen diferentes cambios en el
archivo, que podemos clasificar en:
o INSERCION: implica el alta o inserción de un nuevo registro.
o MODIFICACION: significa la modificación de valores de un
registro existente.
o ELIMINACION: baja o eliminación de un registro existente.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

ORGANIZACIÓN DE ARCHIVO

TIPOS PRINCIPALES DE ORGANIZACIÓN DE ARCHIVOS:

• ARCHIVOS DESORDENADOS O EN CUMULO.

• ARCHIVOS ORDENADOS O SECUENCIALES.

• ARCHIVOS HASH.

• ARCHIVOS SECUENCIALES INDEXADOS.


Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

ARCHIVOS DESORDENADOS O EN CUMULO.


• Los registros se almacenan en el mismo Orden Lineal
orden que se insertan. No existe ningún
criterio de ordenación de los registros en N
base a los valores de sus campos.

• Inserción muy eficiente (el registro se


inserta al final). T

• Solo se puede aplicar la búsqueda lineal, N = masa o cantidad de datos


que implica leer uno por uno los registros T = tiempo de búsqueda
hasta encontrar el deseado o llegar al fin
de archivo. Poco eficiente para grandes
volúmenes de información.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

ARCHIVOS ORDENADOS O SECUENCIALES


• Los registros se almacenan en forma Orden
ordenada en base al valor de ciertos N Logarítmico
campos (clave o llave), formando una
secuencia por esta clave.

• Inserción y borrado problemáticos, debido


a que debe mantenerse el orden.
T
• Se puede aplicar la búsqueda binaria, al
encontrarse ordenado. Se posiciona en la
mitad del archivo, y si no se encuentra el N = masa o cantidad de
registro, y el valor de la clave es inferior, datos
nos posicionamos en la mitad inferior y se T = tiempo de búsqueda
repite el proceso. De lo contrario, seguimos
por la mitad superior.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

ARCHIVOS HASH

Los ARCHIVOS HASH, también conocidos como ARCHIVOS DE ACCESO


DIRECTO, consiste en particionar los registros mediante una función hash –h(x)-
que toma como argumento el valor de la clave y nos devuelve una dirección de
memoria denominada bucket o cubeta, donde esperamos encontrar a nuestro
registro.
Por razones técnicas (por ejemplo para hacer al archivo reubicable)
normalmente a cada valor de la función hash h(x) se la asocia a una tabla hash,
en donde cada una de sus entradas tiene asociado un puntero por el cual se
accede al bucket o cubeta.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

ARCHIVOS HASH TABLA HASH BUCKETS O CUBETAS


VALORES DE H(x) Puntero
LA CLAVE –X-
0
1
2
Función
Hash 3
H(X)

……………..
H(X) determina
la cantidad de B- 1
entradas de la
tabla Hash (B)
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

FUNCION HASH
La elección de la FUNCION HASH es critica ya que debe garantizar la
distribución de la manera mas uniforme de los registros a lo largo del
archivo.
FUNCION MODULO. Consiste en dividir el valor de la clave
Algunas por un numero entero predeterminado y tomar el resto de la
división entera como resultado.
Funciones
Hash usuales
FUNCION PLEGADO. Al valor de la clave expresada en
binario se la parte en secciones de la misma longitud, luego se
suman éstas cuyo resultado es el valor de la función.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

COLISIONES EN ARCHIVOS HASH

Desgraciadamente las funciones hash no siempre garantizan una


dirección univoca, siendo posible que mas de un registro tengan
asignado la misma cubeta o bucket. En estos casos tenemos registros
sinónimos y se genera una colisión, debiendo preverse un mecanismo
de gestión de colisiones.
DESBORDE ENCADENADO
Mecanismos de
Gestión de AREA DE DESBORDE COMUN
Colisiones
HASH MULTIPLE O REHASHING
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

ARCHIVOS SECUENCIALES INDEXADOS

• Para acelerar las búsquedas, a un archivo secuencial se le suele


agregar una estructura adicional, el ÍNDICE, eliminando la necesidad
de recorrer secuencialmente el archivo de datos para acceder al
registro.
• El índice solo contiene dos registros: la clave y un puntero al archivo
de datos.
• Como el archivo de datos no cabe entero en la memoria principal, la
idea es buscar en una estructura auxiliar mas pequeña –el índice- y
acceder a los bloques necesarios de los datos.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

ARCHIVOS SECUENCIALES INDEXADOS


ARCHIVO INDICE ARCHIVO DE DATOS
Clave Puntero Clave Demas Campos
K1 K1
K2 K2

….. ………… …. ……………………………………………..

KN KN

Es un archivo mas Es el archivo que contiene toda la información y por


pequeño y puede caber su voluminosidad no cabe en la memoria principal. La
en memoria principal idea es acceder solo a los bloques necesarios.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

TIPOS DE INDICES
• INDICE PRINCIPAL O PRIMARIO. Estructurado sobre la clave o llave,
garantiza la univocidad entre un valor de la clave y un registro. En un
esquema de archivos secuenciales indexados existe por lo menos un
archivo de datos y un índice principal o primario.
• INDICE SECUNDARIO. Se estructura sobre campos diferentes de la
clave y puede contener valores no unívocos. Se usan para acelerar
consultas por campos diferentes de la clave. Sin embargo, una
proliferación de estos índices puede degradar la performance del
sistema.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

INDEXADO PERFECTO – INDICES DENSOS


En un INDICE DENSO, existe una correspondencia unívoca entre un valor
de la clave y un registro.
Este esquema se denomina INDEXADO PERFECTO, en donde el índice
tiene tantos registros como el archivo de datos.
ARCHIVO INDICE ARCHIVO DE DATOS
Clave Puntero Clave Demas Campos
K1 K1
K2 K2

….. ………… …. ……………………………………………..

KN KN
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

INDEXADO POR BLOQUES – INDICES ESCASOS O DISPERSOS

En un INDICE ESCASO O DISPERSO, solo se almacenan algunos valores


de la clave, que apunta a un bloque del archivo de datos. En el índice se
almacena la clave mayor del bloque (cubrimiento).

Este esquema se denomina INDEXADO POR BLOQUES, en donde el


índice tiene tantos registros como bloques existen en el archivo de datos.

Suele emplearse este esquema cuando el índice es muy grande para caber
completo en memoria principal.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

INDEXADO POR BLOQUES – INDICES ESCASOS O DISPERSOS

ARCHIVO INDICE ARCHIVO DE DATOS


Clave Puntero Clave Demas Campos
K2 K1
M REGISTROS

BLOQUE 1
K4 K2
K3
….. ………… BLOQUE 2
K4
KN
…. ……………………………………………..

KN-1
BLOQUE M
KN
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

INDEXADO POR NIVELES


Si el archivo de datos y el índice
resultante son muy grandes, se puede ARCHIVO DE DATOS
particionar al índice en varios niveles Clave Demas Campos
10
ARCHIVO INDICE
20
ARCHIVO INDICE DE SEGUNDO NIVEL
DE PRIMER NIVEL 30
Clave Puntero
40
Clave Puntero 20
50
40 40
60
80 60
70
80
80
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

INDEXADO CON ARBOLES EN LOS INDICES

Una estructura posible de indexación es la utilización de ARBOLES en los


archivos índice. Un árbol se encuentra compuesto por una jerarquía de
nodos, los cuales, salvo el raíz, tienen cero o mas nodos hijos. Un nodo sin
hijos, se llama nodo hoja o nodo terminal.
La profundidad o altura del árbol es el numero máximo de niveles entre el
nodo raíz y los nodos hoja. Se procura que la profundidad sea equilibrada y la
mínima posible.
El grado u orden del árbol es el numero máximo de hijos permitido por nodo.
Cuando el grado es mayor se reduce la profundidad o altura del árbol.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

INDICES CON ARBOLES AVL

Un ARBOL AVL es un árbol binario de búsqueda, con las sencilla regla


que las claves menores se ubican a la izquierda del nodo y las mayores a
su derecha. No se permite que la profundidad o altura entre los dos
subárboles de un nodo sea superior a 1.

El registro de un índice de un árbol AVL es de la siguiente manera:

PUNTERO AL
PUNTERO HIJO PUNTERO HIJO
CLAVE ARCHIVO DE
IZQUERDO DERECHO
DATOS
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

INDICES CON ARBOLES AVL

Dada la siguiente secuencia: 32, 20, 70, 10, 50, 79, podemos obtener el
siguiente árbol AVL, junto con sus archivos de datos e índice.
ARCHIVO INDICE ARCHIVO DE DATOS
CLAVE PHI PHD PAD Clave Demas
32
Campos
1 32 2 3 100
100 32
20 70 2 20 4 -- 101
101 20
3 70 5 6 102 102 70
10 50 79 4 10 -- -- 103 103 10
5 50 -- -- 104 104 50
6 79 -- -- 105 105 79
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

INDICES CON ARBOLES B

Para utilizar arboles con grado superior a 2, se utilizan los ARBOLES B de


orden m, de acuerdo a las siguientes reglas:
• Si el nodo raíz no es un nodo hoja, debe tener al menos dos hijos.
• Cada nodo, excepto el raíz y los nodos hoja, deben tener entre m/2 y m
punteros e hijos.
• El numero de claves en un nodo hoja esta comprendido entre (m-1)/2 y m-1.
• El numero de claves en un nodo que no sea hoja es uno menos que el numero
de punteros.
• El árbol debe estar equilibrado.
• Los nodos hoja están enlazados según el orden de los valores de las claves
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

INDICES CON ARBOLES B

El registro del índice de un árbol B de orden M tiene la siguiente


estructura:
• Si se organiza como un indexado perfecto:

M
M -1 M
PUNTEROS A
CLAVES PUNTEROS A HIJOS
ARCHIVO DE DATOS

• Si se organiza como un indexado por bloques:


M -1 M 1 PUNTERO A
CLAVES PUNTEROS A HIJOS ARCHIVO DE DATOS
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

Referencias Bibliográficas

1. Fundamentos de bases de datos. (Abraham Silberschatz, Henry F. Korth /y/


S. Sudarshan.—(Tra. Fernándo Sáenz Pérez, Antonio García Cordero /y/ Jesús
Correas Fernández.-- Rev. Tca. Luis Grau Fernández). McGraw Hill. Madrid
/c.2006/5a. Edic.
2. Sistemas de bases de datos. Un enfoque practico para diseño,
implementación y gestión. (Thomas M. Connolly /y/ Carolyn E. Begg. Pearson
Addison Wesley. Madrid /c.2005/4a. Edic.
3. Fundamentos de Bases de Datos. (Pablo Rovarini – Herminia De la Vega.
Editorial UNSTA /c.2005/2ª. Edic.
Gestión de Datos
Departamento Sistemas

Facultad Regional Tucumán


Universidad Tecnológica Nacional

También podría gustarte