Estructuras Almacenamiento de Archivos

1
Tema: Almacenamiento y estructuras de archivos
Contenido
Resumen ejecutivo ................................................................................................................................. 3 Introduccin ............................................................................................................................................. 6 Almacenamiento y estructuras de archivos ....................................................................................... 7 Jerarquas de memoria y dispositivos de almacenamiento. ........................................................... 7 Almacenamiento de bases de datos ................................................................................................... 8 Dispositivos de almacenamiento secundario ..................................................................................... 8 Descripcin del hardware de los dispositivos de disco. ................................................................... 8 Dispositivos de almacenamiento en cinta magntica. ..................................................................... 9 Almacenamiento de bloques en el bfer .......................................................................................... 10 Ubicacin de los registros de fichero en disco. ............................................................................... 10 Registros y tipos de registros. ............................................................................................................ 10 Ficheros, registros de longitud fija y longitud variable. .................................................................. 10 Bloqueo de registros y registros extendidos frente a no extendidos. .......................................... 10 Cabeceras de fichero........................................................................................................................... 11 Operaciones sobre ficheros ................................................................................................................ 11 Ficheros de registros desordenados (ficheros heap) ..................................................................... 13 Ficheros de registros ordenados (ficheros ordenados) ................................................................. 13 Tcnicas de dispersin ........................................................................................................................ 15 Dispersin interna ................................................................................................................................ 15 Dispersin externa para los ficheros de disco ................................................................................. 16 Otras organizaciones principales de ficheros .................................................................................. 17 Ficheros de registros mezclados ....................................................................................................... 17 Paralelismo del acceso al disco mediante la tecnologa RAID ..................................................... 17 Organizaciones y niveles de RAID .................................................................................................... 18 Nuevos sistemas de almacenamiento .............................................................................................. 19 Redes de rea de almacenamiento .................................................................................................. 19 Almacenamiento conectado a la red ................................................................................................. 19 Conclusin ............................................................................................................................................. 20 Anexos .................................................................................................................................... 21 Bibliografa .............................................................................................................................. 22
Resumen ejecutivo Almacenamiento y estructuras de archivos Los modos de almacenamiento forman una jerarqua que incluyen 2 categoras: Almacenamiento principal: incluye los medios de almacenamiento en los que la CPU puede operar. Almacenamiento secundario: incluye los discos magnticos, los discos pticos y las cintas. Jerarquas de memoria y dispositivos de almacenamiento. En el nivel de almacenamiento principal tenemos a la memoria cache, DRAM. En el nivel de almacenamiento secundario tenemos discos magnticos, CD-ROM y DVD. Almacenamiento de bases de datos La mayora de las bases de datos se almacenan en almacenamiento secundario. Descripcin del hardware de los dispositivos de disco. Para aumentar la capacidad, los discos se ensamblan como paquetes de discos, la informacin se almacena en la superficie del disco en crculos concntricos, cada crculo es una pista. Un disco es un dispositivo de acceso aleatorio, el mecanismo que lee y escribe un bloque es la cabeza de lectura/escritura del disco. Registros y tipos de registros. Los datos se almacenan en forma de registros, un registro es una coleccin de valores de datos. Los registros normalmente describen entidades y sus atributos. Bloqueo de registros y registros extendidos frente a no extendidos. Cuando el tamao del bloque es mayor que el tamao del registro, el bloque puede contener varios registros, para utilizar este espacio desaprovechado, podemos almacenar parte de un registro en un bloque y el resto en otro. Siempre que el registro es ms grande que el bloque, debemos usar organizacin extendida, si los registros no tienen permitido sobrepasar los
lmites de un bloque, se dice que es organizacin no extendida. Una cabecera de fichero contiene informacin sobre un fichero que los programas del sistema necesitan para acceder a los registros. Ficheros de registros mezclados Existen situaciones donde las entidades o los registros deban interrelacionarse de distintas formas. Las relaciones entre registros de varios ficheros se pueden representar mediante campos de conexin (podra entenderse como forein key. Paralelismo del acceso al disco mediante la tecnologa RAID Los dispositivos de almacenamiento secundario cuentan con mayor rendimiento y aumentado su fidelidad, ellos usan RAID, el objetivo del RAID es igualar las diferencias en cuanto a velocidad y rendimiento entre los discos, la memoria y los microprocesadores. Mejora de la fiabilidad con RAID Para reducir los fallos en los disco se implementara una tcnica de redundancia que se denomina espejo (mirroring). Y consiste en la escritura de los datos en dos discos fsicos idnticos que funciona como uno lgico, y cuando se quiere leer algn dato en el disco, si este presenta fallas, se utiliza el otro disco, hasta que el primero sea reparado. Mejora del rendimiento con RAID La mejora de rendimiento seria la utilizacin de segmentacin de datos para lograr un mayor tiempo de respuesta en la solicitud de lectura y escritura de datos. Organizaciones y niveles de RAID Nivel 0: utiliza segmentacin, no cuenta con redundancia (espejos). Nivel 1: Discos en espejo, buenas caractersticas en escritura. Nivel 2: utiliza una redundancia al estilo de la memoria utilizando cdigos Hamming divisin por bits. Varios discos dedicados a paridad. Nivel 3: utiliza un disco de paridad sencilla que cuenta con el controlador de disco para determinar el disco que ha fallado. Nivel 4: utilizan la segmentacin de datos a nivel de bloque. Disco dedicado a paridad
Nivel 5: distribuye los datos y la informacin de paridad por todos los discos. Nivel 6: Esquema de redundancia P + Q. Guarda informacin redundante adicional para proteccin contra fallos de disco mltiple.
Operaciones sobre ficheros Las operaciones sobre ficheros se pueden agrupar en operaciones de recuperacin y operaciones de actualizacin. *Open (abrir). *Reset (reiniciar). *Find (o Locate) (buscar). *Read (o Get) (leer u obtener). *FindNext (buscar siguiente). *Delete (borrar). *Modify (modificar). *Insert (insertar). *Close (cerrar). Ficheros de registros desordenados Es el tipo de organizacin ms sencillo y bsico, segn el cual los registros se guardan en el fichero en el mismo orden en que se insertan; es decir, los registros se insertan al final del fichero. Ficheros de registros ordenados Los registros de un fichero se pueden ordenar fsicamente en el disco en funcin de los valores de uno de sus campos, denominado campo de ordenacin. Tcnicas de dispersin Otro tipo de organizacin de ficheros est basado en la dispersin, que proporciona un acceso muy rpido a los registros bajo ciertas condiciones de bsqueda.
Introduccin
Hoy en da los dispositivos de almacenamiento y memorias han transcendido fronteras debido a las nuevas capacidades que han aparecido. Como es bien sabido las computadoras poseen dos importantes memorias (primaria o RAM y secundaria o ROM) con las funciones de acceder a las direcciones de memoria y el almacenamiento de los datos. Prcticamente estas memorias son generalizaciones de la gran gama de dispositivos disponibles actualmente y que se podran descomponer en varias jerarquas dependiendo del tipo de almacenamiento. Con los avances que han surgido en memoria secundaria, tambin se han tenido que implementar nuevas tcnicas con respecto a lo que guarda una base de datos, ya que los tamaos en almacenamiento han aumentado considerablemente, por lo tanto se debieron encontrar nuevas estructuras de datos o ficheros para mejorar los tiempos de respuesta tanto en consulta, insercin, actualizacin y borrado de los datos. Esta es una pequea introduccin a lo que es el tema de estructura de datos y almacenamiento para las bases de datos.
Almacenamiento y estructuras de archivos Los modos de almacenamiento forman una jerarqua que incluyen 2 categoras: Almacenamiento principal o primario: incluye los medios de almacenamiento en los que la CPU puede operar, como la memoria principal de la PC, las memorias cache. Esta categora da un acceso rpido a los datos, pero de poca capacidad. Almacenamiento secundario o terciario: incluye los discos magnticos, los discos pticos y las cintas. Los medios removibles o extrables estn considerados como terciario. Tienen gran capacidad, son baratos, pero tienen un acceso ms lento. La CPU no puede procesar directamente los datos almacenados en un almacenamiento secundario o terciario, primero se copian en el almacenamiento principal. Jerarquas de memoria y dispositivos de almacenamiento. En el nivel de almacenamiento principal tenemos a la memoria cache, que es una RAM esttica. La memoria cache la utiliza la CPU para acelerar la ejecucin de los programas. El siguiente nivel en el almacenamiento principal es la DRAM dinmica que proporciona el rea de trabajo para que la CPU almacene programas y datos (memoria principal). La ventaja de la DRAM es su bajo coste, pero muy lenta. En el nivel de almacenamiento secundario y terciario, la jerarqua incluye los discos magnticos, as como el almacenamiento en masa en forma de CD-ROM y DVD y finalmente, las cintas en el extremo ms caro de la jerarqua. La capacidad de almacenamiento se mide en kilobytes, megabytes, gigabytes, terabytes. Los programas residen y se ejecutan en la DRAM. Por lo general las Base de Datos permanentes residen en el almacenamiento secundario y se leen en el primario. Entre la DRAM y el almacenamiento en disco magntico hay otra memoria, la memoria Flash, muy popular debido a que no es voltil, son de alta densidad que usa tecnologa EEPROM (memoria de solo lectura programable y borrable electrnicamente), su ventaja es su alta velocidad de acceso, el problema es que debe borrarse y escribirse un bloque entero simultneamente (USB. Micro). Los CD-ROM almacenan los datos pticamente y los lee mediante un lser, los discos WORM (escribir una vez, leer muchas veces). Las memorias jukebox pticos utilizan un array de bandejas CD-ROM, los DVD es un estndar reciente en discos pticos.
Por ltimo, las cintas magnticas se utilizan para archivar y para el almacenamiento de las copias de seguridad de los datos. Los jukeboxes de cintas que contienen un banco de cintas que se catalogan y pueden cargarse automticamente en las unidades de cinta. Observe la imagen 1 en anexos.
Almacenamiento de bases de datos La mayora de las bases de datos se almacenan en almacenamiento secundario por: 1-Porque son muy grandes para entrar en la memoria principal. 2-Las circunstancias de perdida de datos son menores en los secundarios. 3-El coste de almacenamiento por unidad es inferior para el almacenamiento secundario en disco. Los datos almacenados en el disco se organizan como ficheros de registros. Hay varias organizaciones principales de ficheros. Un fichero heap (desordenado) coloca los registros en el disco sin un orden particular, aadiendo los registros nuevos al final. Un fichero ordenado mantiene los registros por el valor de un campo particular. Un fichero disperso utiliza una funcin de dispersin (hash) aplicada a un campo concreto (para determinar la ubicacin de un registro en el disco).
Dispositivos de almacenamiento secundario Veremos caractersticas de los dispositivos de almacenamiento de disco magntico y de la cinta magntica.
Descripcin del hardware de los dispositivos de disco. La capacidad de un disco es el nmero de bytes que puede almacenar, los disquetes que se utilizaban con los microcomputadoras almacenaban de 400kb a 1-5MB, los discos duros almacenan desde cientos de MB hasta decenas de GB, y los grandes paquetes de disco que se usan en los servidores y los mainframes tienen capacidad de cientos de GB.
Para aumentar la capacidad, los discos se ensamblan como paquetes de discos, que incluye muchos discos, muchas superficies. La informacin se almacena en la superficie del disco en crculos concntricos de poca anchura, cada uno de esos crculos es una pista. En los paquetes de disco, las pistas de las distintas superficies que tienen el mismo dimetro reciben el nombre de cilindro, la divisin de una pista en bloques de disco(o pgina) es establecida por el sistema operativo durante el formateo del disco. Un disco es un dispositivo de acceso aleatorio, el mecanismo hardware actual que lee y escribe un bloque es la cabeza de lectura/escritura del disco, que es una parte de un sistema denominado unidad de disco. Los paquetes de disco con varias superficies estn controlados por varias cabezas de L/E, una por cada superficie. En un disquete, el disco gira siempre que se inicia una solicitud de lectura o escritura. El controlador de disco, incrustado en la unidad de disco, controla esta y su interaccin con el sistema. Para transferir un bloque de disco, dada su direccin, el controlador de disco primero debe colocar mecnicamente la cabeza de lectura/escritura en la pista correcta. El tiempo requerido para ello es el tiempo de bsqueda. Los tiempos de bsqueda tpicos son de 1 a 10 msegs en la sobremesa y de 3 a 8 msegs en los servidores. Siguiendo esto, hay otro retardo, denominado retardo rotacional o latencia, que se produce mientras el principio del bloque deseado gira hasta su posicin bajo la cabeza. Este retardo depende de las rpm del disco, por ejemplo, a 15.000 rpm, el tiempo por rotacin es de 4mseg y el retardo rotacional medio es el tiempo por media revolucin, o 2 mseg. Por ltimo, an se necesita algo ms de tiempo para transferir datos, es lo que se conoce como tiempo de transferencia del bloque. Por lo tanto, el tiempo total para localizar y transferir un bloque arbitrario, dada su direccin, es la suma del tiempo de bsqueda, el retardo rotacional y el tiempo de transferencia del bloque.
Dispositivos de almacenamiento en cinta magntica. Son dispositivos de acceso secuencial.
10
Usa bobina de cinta, no se usa para almacenar datos online, son importantes para la copia de seguridad de las bases de datos.
Almacenamiento de bloques en el bfer Cuando es necesario transferir varios bloques desde el disco a la memoria principal, se pueden reservar varios bferes en la memoria principal para acelerar la transferencia. Observe la imagen 2 en anexos.
Ubicacin de los registros de fichero en disco. Registros y tipos de registros. Los datos normalmente se almacenan en forma de registros. Un registro consta de una coleccin de valores o elementos de datos relacionados, donde cada valor est formado por uno a ms bytes y corresponde a un campo concreto del registro. Los registros normalmente describen entidades y sus atributos. Una coleccin de nombres de campos y sus correspondientes tipos de datos constituyen un tipo de registro.
Ficheros, registros de longitud fija y longitud variable. Un fichero es una secuencia de registros. Si cada registro del fichero tiene el mismo tamao, se dice que el fichero est compuesto por registros de longitud fija. Si el fichero hay registros que tienen tamaos diferentes, se dice que el fichero est compuesto por registros de longitud variable.
Bloqueo de registros y registros extendidos frente a no extendidos. Los registros de un fichero deben asignarse a bloques de disco porque es la unidad de transferencia de datos entre el disco y la memoria. Cuando el tamao del bloque es mayor que el tamao del registro, el bloque puede contener varios registros. Para utilizar este espacio desaprovechado, podemos almacenar parte de un registro en un bloque y el resto en otro. Un puntero al final del primer bloque apunta al bloque que contiene el resto del registro. Esta organizacin se llama extendida porque los registros pueden abarcar ms de un bloque.
11
Siempre que el registro es ms grande que el bloque, debemos usar organizacin extendida. Si los registros no tienen permitido sobrepasar los lmites de un bloque, se dice que es organizacin no extendida.
Cabeceras de fichero.
Una cabecera de fichero contiene informacin sobre un fichero que los programas del sistema necesitan para acceder a los registros, incluye informacin para determinar las direcciones de disco de los bloques del fichero y las descripciones de formato del registro.
Operaciones sobre ficheros
Las operaciones sobre ficheros se pueden agrupar en operaciones de recuperacin y operaciones de actualizacin. Las primeras no cambian ningn dato del fichero, puesto que nicamente localizan ciertos registros para que los valores de sus campos se puedan examinar o procesar. Las segundas modifican el fichero mediante la insercin o la eliminacin de registros, o modificando los valores de los campos.
Las operaciones de localizacin y acceso a los registros de un fichero varan de un sistema a otro. Presentamos a continuacin un conjunto de operaciones representativas.
*Open (abrir). Prepara el fichero para la lectura o escritura. Asigna los bferes apropiados para albergar los bloques del fichero, y recupera su cabecera. Establece el puntero del fichero al principio del mismo. *Reset (reiniciar). Hace que el puntero de un fichero abierto apunte al principio del fichero. *Find (o Locate) (buscar). Busca el primer registro que satisface una condicin de bsqueda. Transfiere el bloque que contiene ese registro a un bfer de la memoria principal (si todava no est en el bfer). El puntero del fichero apunta al registro del bfer, que se convierte en el registro actual. En ocasiones, se utilizan diferentes verbos para indicar si el registro localizado ser
12
recuperado o actualizado. *Read (o Get) (leer u obtener). Copia el registro actual desde el bfer a una variable de programa del programa de usuario. Este comando tambin puede hacer avanzar el puntero del registro actual al siguiente registro del fichero, lo que puede hacer necesario leer del disco el siguiente bloque del fichero. *FindNext (buscar siguiente). Busca el siguiente registro que satisface la condicin de bsqueda. Transfiere el bloque en el que se encuentra el registro a un bfer de la memoria principal (si todava no se encuentra aqu). El registro se almacena en el bfer y se convierte en el registro actual. *Delete (borrar). Borra el registro actual y (finalmente) actualiza el fichero en disco para reflejar el borrado. *Modify (modificar). Modifica los valores de algunos campos del registro actual y actualiza el fichero en disco para reflejar la modificacin. *Insert (insertar). Inserta un registro nuevo en el fichero localizando el bloque donde se inseliar el registro, transfiriendo ese bloque a un bfer de la memoria principal (si todava no se encuentra all), escribiendo el registro en el bfer y escribiendo el bfer en el disco para reflejar la insercin. *Close (cerrar). Completa el acceso al fichero liberando los bferes y ejecutando cualquier otra operacin de limpieza necesaria. *Sean. Si el fichero simplemente se ha abierto o reiniciado, Sean devuelve el primer registro; en caso contrario, devuelve el siguiente registro. Si con la operacin especificamos una condicin, el registro devuelto es el primero o el siguiente que satisface esa condicin.
En los sistemas de bases de datos, se pueden aplicar operaciones de grupo al fichero, como, por ejemplo, las siguientes: *FindAll (buscar todo). Localiza todos los registros del fichero que satisfacen una condicin de bsqueda. *Find (o Locate) o (buscar). Busca el primer registro que satisface una condicin de bsqueda y, despus, contina localizando los N - 1 siguientes registros que satisfacen la misma condicin. Transfiere los bloques que contienen los N registros a un bfer de la memoria principal (si todava no estn all).
13
*FindOrdered (buscar ordenados). Recupera todos los registros del fichero en un orden especfico. *Reorganize (reorganizar). Inicia el proceso de reorganizacin.
Normalmente, esperamos utilizar unas condiciones de bsqueda ms que otras. Algunos ficheros pueden ser estticos, pues es raro ejecutar sobre ellos operaciones de actualizacin; otros, los denominados archivos dinmicos, pueden cambiar ms a menudo pues se les estn aplicando operaciones de actualizacin constantemente. Una organizacin de fichero satisfactoria debe ejecutar tan eficazmente como sea posible las operaciones que esperamos aplicar frecuentemente al fichero
Ficheros de registros desordenados (ficheros heap)
Es el tipo de organizacin ms sencillo y bsico, segn el cual los registros se guardan en el fichero en el mismo orden en que se insertan; es decir, los registros se insertan al final del fichero. Esta organizacin se conoce como fichero heap o pila. La insercin de un registro nuevo es muy eficaz. El ltimo bloque de disco del fichero se copia en el bfer, se aade el registro nuevo y se reescribe el bloque de nuevo en el disco. En la cabecera del fichero se guarda la direccin del ltimo bloque del fichero. Sin embargo, la bsqueda de un registro utilizando cualquier condicin de bsqueda implica una bsqueda lineal, bloque a bloque, por todo el fichero, las tcnicas de borrado requieren una reorganizacin peridica del fichero para reclamar el espacio inutilizado correspondiente a los registros borrados.
Ficheros de registros ordenados (ficheros ordenados)
Los registros de un fichero se pueden ordenar fsicamente en el disco en funcin de los valores de uno de sus campos, denominado campo de ordenacin. Esto conduce a un fichero ordenado o secuencial. Si el campo de ordenacin tambin es un campo clave (un campo que garantiza un valor exclusivo en cada registro) del fichero, entonces el campo se
14
denomina clave de ordenacin del fichero.
Los registros ordenados tienen algunas ventajas sobre los ficheros desordenados. En primer lugar, la lectura de los registros en el orden marcado por los valores de la clave de ordenacin es extremadamente eficaz porque no se necesita una ordenacin. En segundo lugar, encontrar el siguiente registro al actual segn el orden de la clave de ordenacin, normalmente no requiere acceder a bloques adicionales porque el siguiente registro se encuentra en el mismo bloque que el actual (a menos que el registro actual sea el ltimo del bloque). En tercer lugar, el uso de una condicin de bsqueda basndose en el valor de un campo clave de ordenacin ofrece un acceso ms rpido cuando se utiliza la tcnica de bsqueda binaria, que constituye una mejora respecto a las bsquedas lineales.
Bsqueda binaria en una clave de ordenacin de un fichero de disco.
I +-- 1; u +-- b; (* b es el nmero de bloques del fichero *)
while (u 2': 1) do begin i +-- (l + u) div 2; leer el bloque i del fichero en el bfer; if K < (valor del campo clave de ordenacin del primer registro en el bloque i) then u +-- i - 1 else if K> (valor del campo clave de ordenacin del ltimo registro en el bloque i) then I +-- i + 1 else if el registro con el campo clave de ordenacin = K est en el bfer then goto encontrado else goto noencontrado; end; goto noencontrado;
15
La ordenacin no ofrece ninguna ventaja para el acceso aleatorio u ordenado de los registros basndose en los valores de otros campos no ordenados del fichero. En estos casos, realizamos una bsqueda lineal para el acceso aleatorio.
Tcnicas de dispersin
Otro tipo de organizacin de ficheros est basado en la dispersin, que proporciona un acceso muy rpido a los registros bajo ciertas condiciones de bsqueda. Esta organizacin se denomina normalmente fichero disperso o fichero hash. La condicin de bsqueda debe ser una condicin de igualdad sobre un solo campo, denominado campo de dispersin o campo hash. En la mayora de los casos, el campo de dispersin tambin es un campo clave del fichero, en cuyo caso se denomina clave de dispersin (o clave hash). La dispersin tambin se utiliza como una estructura de bsqueda interna dentro de un programa, siempre que se acceda a un grupo de registros exclusivamente utilizando el valor de un campo
Dispersin interna
En los ficheros internos, la dispersin normalmente se implementa como una tabla de dispersin mediante el uso de un array de registros. Vamos a suponer que el ndice del array va de O a M - 1. por tanto, tenemos M slots cuyas direcciones corresponden a los ndices del array. Elegimos una funcin de dispersin que transforma el valor del campo de dispersin en un entero entre Oy M-l.
Estas funciones pueden ser: *funcin h(K) = K mod M y *reversible... El problema con la mayora de las funciones de dispersin es que no garantizan que valores distintos se dispersen a direcciones distintas, porque el espacio del campo de dispersin (el nmero de valores posibles que un campo de dispersin puede tomar) es normalmente mucho ms grande que el espacio de direcciones (el nmero de direcciones disponibles para los registros).
16
Una colisin se produce cuando el valor del campo de dispersin de un registro que se est insertando se dispersa a una direccin que ya contiene un registro diferente. En esta situacin, debemos insertar el registro nuevo en alguna otra posicin, puesto que su direccin de dispersin est ocupada. El proceso de encontrar otra posicin se denomina resolucin de colisiones. Hay varios mtodos para resolver una colisin: *Direccionamiento abierto. A partir de la posicin ocupada especificada por la direccin de dispersin, el programa comprueba las posiciones subsiguientes en orden hasta encontrar una posicin sin utilizar (vaca). *Encadenamiento. Para este mtodo, se conservan varias ubicaciones de dispersin, normalmente extendiendo el array con algunas posiciones de desbordamiento. Adicionalmente, se aade un campo puntero a cada ubicacin de registro. Una colisin se resuelve colocando el registro nuevo en una ubicacin de desbordamiento sin utilizar y estableciendo el puntero de la ubicacin de la direccin de dispersin ocupada a la direccin de esa ubicacin de desbordamiento. Se conserva entonces una lista enlazada de registros de desbordamiento por cada direccin de dispersin.
*Dispersin mltiple. El programa aplica una segunda funcin de dispersin si la primera desemboca en una colisin. Si se produce otra colisin, el programa utiliza el desbordamiento abierto o aplica una tercera funcin de dispersin y utiliza despus el direccionamiento abierto si es necesario.
Dispersin externa para los ficheros de disco
La dispersin para los ficheros de disco se denomina dispersin externa. Para ajustar las caractersticas del almacenamiento en disco, el espacio de direcciones de destino se compone de cubos, cada uno de los cuales almacena varios registros. Un cubo puede ser un bloque de disco o un grupo de bloques contiguos. La funcin de dispersin mapea una clave a un nmero de cubo relativo, en lugar de asignar una direccin de bloque absoluta al cubo. Una tabla almacenada en la cabecera del fichero convierte el nmero de cubo en la correspondiente direccin de bloque del disco.
El problema de las colisiones es menos grave con los cubos, porque cuantos ms registros encajen en un cubo ms posible ser que se dispersen al mismo cubo sin causar problemas
17
Otras organizaciones principales de ficheros Ficheros de registros mezclados Existen situaciones donde las entidades o los registros deban interrelacionarse de distintas formas. Las relaciones entre registros de varios ficheros se pueden representar mediante campos de conexin (podra entenderse como forein key). Para recuperar informacin se usaran referencias de campo lgicas que consisten en la utilizacin de un dato del registro de relacin con otro del registro original, y a partir de su forein key, completar los datos solicitados. A menudo se implementan estos tipos de registros, pueden agruparse fsicamente en el disco, debido a que su utilizacin es frecuente, adems su implementacin puede aumentar la eficiencia. El concepto de agrupamiento fsico de tipos de objetos para almacenar juntos los objetos relacionados en un fichero mixto. rboles B y otras estructuras de datos como organizacin primaria En pocas palabras estas estructuras de datos se pueden adaptar perfectamente a la organizacin de los ficheros para la ubicacin de registros de disco.
Paralelismo del acceso al disco mediante la tecnologa RAID Los dispositivos de almacenamiento secundario cuentan con mayor rendimiento y aumentado su fidelidad, entre los importantes avances de estos dispositivos se encuentra el desarrollo de RAID, que significaba Matriz redundante de discos baratos (Redundant Arrays Inexpensive Disks). Pero la i de RAID ha cambiado su significado por "independientes". El objetivo del RAID es igualar las diferencias en cuanto a velocidad y rendimiento entre los discos, la memoria y los microprocesadores. La solucin de natural es la utilizacin de una matriz grande de pequeos discos independientes que actan como un solo disco lgico, a esto se le denomina segmentacin de datos, el cual utiliza el paralelismo para mejorar el rendimiento del disco, separando los datos de forma compartida por varios discos hacindolo parecer grande y de acceso rpido.
La imagen 4 representa como se observara la segmentacin de datos o striping.
18
Mejora de la fiabilidad con RAID Se dice que n discos, cuenta con n probabilidades de fallos, para reducir estos fallos se implementan tcnicas para aumentar la fiabilidad de los datos. Para reducir los fallos en los disco se implementara una tcnica de redundancia que se denomina espejo (mirroring).Y consiste en la escritura de los datos en dos discos fsicos idnticos que funciona como uno lgico, y cuando se quiere leer algn dato en el disco, si este presenta fallas, se utiliza el otro disco, hasta que el primero sea reparado. Otra solucin al problema de la fiabilidad es almacenar informacin extra que normalmente no es necesaria, pero que puede utilizarse para reconstruir la informacin perdida en caso de un fallo en el disco. Mejora del rendimiento con RAID Prcticamente la mejor opcin para la mejora de rendimiento seria la utilizacin de segmentacin de datos para lograr un mayor tiempo de respuesta en la solicitud de lectura y escritura de datos, adems la segmentacin puede realizarse a nivel de bits, y a nivel bloques, (aseguracin de un fichero).
Organizaciones y niveles de RAID El RAID cuenta con diferentes organizaciones basadas en combinaciones de dos factores, la segmentacin y el patrn utilizado para calcular la informacin redundante. Y se pueden los niveles del RAID van del 0 al 6. Nivel 0: utiliza segmentacin, no cuenta con redundancia (espejos). Nivel 1: Discos en espejo, buenas caractersticas en escritura. Nivel 2: utiliza una redundancia al estilo de la memoria utilizando cdigos Hamming divisin por bits. Varios discos dedicados a paridad. Nivel 3: utiliza un disco de paridad sencilla que cuenta con el controlador de disco para determinar el disco que ha fallado. Nivel 4: utilizan la segmentacin de datos a nivel de bloque. Disco dedicado a paridad Nivel 5: distribuye los datos y la informacin de paridad por todos los discos. Nivel 6: Esquema de redundancia P + Q. Guarda informacin redundante adicional para proteccin contra fallos de disco mltiple.
19
Nuevos sistemas de almacenamiento Redes de rea de almacenamiento Ha existido una creciente demanda del almacenamiento de los datos en internet, pero las empresas se han visto en la necesidad de moverse de un centro de datos fijo y esttico orientado a las operaciones, a una infraestructura ms flexible y dinmica para sus requisitos de procesamiento de informacin. Esto debido al coste de administracin de los datos resulta sumamente caro. Por consiguiente estn utilizando lo que se denomina Redes de rea de almacenamiento (SAN, Storage Area Networks). En una SAN, los perifricos de almacenamiento online estn configurados como nodos en una red de alta velocidad y se pueden conectar y desconectar de los servidores con mucha flexibilidad. Las principales ventajas exigibles para el SAN son las siguientes: Conectividad "varios a varios" flexible entre los servidores y los dispositivos de almacenamiento utilizando hubs y switches de canal de fibra. Hasta 10 kilmetros de separacin entre un servidor y un sistema de almacenamiento utilizando los cables de fibra ptica apropiados. Buenas capacidades de aislamiento que permitan aadir sin complicaciones nuevos perifricos y servidores.
Almacenamiento conectado a la red Con el crecimiento de los datos digitales, multimedia y aplicaciones comerciales, el almacenamiento de estas se ha vuelto extremadamente importante. Aqu es donde aparece la implementacin de los dispositivos NAS (Almacenamiento conectado a la red, NetworkAttached Storage), y se puede decir que son servidores que no proporcionan ninguno de los servicios de un servidor comn, sino que simplemente permiten la adicin de almacenamiento para compartir ficheros. En pocas palabras un NAS puede almacenar cualquier dato que aparezca en forma de ficheros, como buzones de correo electrnico, contenido web, copias de seguridad remotas del sistema, etctera.
20
Conclusin Como todos sabemos, las CPU utiliza de memoria para almacenar los datos, estas son: Almacenamiento principal y almacenamiento secundario. Tras el desarrollo de este trabajo se pudo aprender que esta memoria puede ser: El almacenamiento principal (brinda un acceso rpido a los datos, pero de poca capacidad), y el almacenamiento secundario (tiene gran capacidad, son baratos, pero tienen un acceso ms lento). El almacenamiento principal incluye La memoria cach; memoria RAM, memoria DRAM. Almacena variables y programas para trabajar con ellos. La memoria secundaria incluye discos magnticos, cintas, discos compactos. Hoy en da la mayora de Bases de Datos utilizan la memoria secundaria para almacenar los datos principalmente porque son muy grandes para entrar en la memoria principal y porque las circunstancias de prdida de datos son menores. Los datos generalmente se almacenan como ficheros de registros, y estos ficheros por lo general se clasifican en ficheros heap (los registros se insertan al final del fichero), ficheros ordenados(se ordenan fsicamente en el disco en funcin de los valores de uno de sus campos) y ficheros disperso o hash. Tambin se pueden realizar operaciones sobre estos ficheros; Las operaciones sobre ficheros se pueden agrupar en operaciones de recuperacin y operaciones de actualizacin. Las primeras no cambian ningn dato del fichero, nicamente localizan ciertos registros para que los valores de sus campos se puedan examinar o procesar. Las segundas modifican el fichero mediante la insercin o la eliminacin de registros, o modificando los valores de los campos Finalmente tenemos que estos registros se pueden organizar como pilas o se pueden utilizar estructuras como arboles B y matrices RAID.
21
Anexos
Imagen 1. Jerarqua de memoria.
Imagen 2. Discos magnticos
Imagen 3 Ejemplo de registros
Imagen 4 Striping
22
Bibliografa
EImusri,R., Shamkaut B. Navathe (2007). Almacenamiento en disco, estructuras bsicas de ficheros y dispersin, Fundamentos de Sistemas de bases de Datos (5 ed.)(pp. 389-425). Madrid: PEARSON EDUCACiN S.A. Silberschatz, A., Sudarshan, S., Almacenamiento y Estructura de Archivos, Fundamentos de bases de datos (4ta edicin)(pp. 449-478). Madrid: McGRAW-HILL/INTERAMERICANA DE ESPAA, S. A. U. Ruano, F. (2012). Almacenamiento y estructura de archivos. Recuperado: http://www.google.co.cr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=9&ved=0CGAQFjAI&url=http %3A%2F%2Fpis.unicauca.edu.co%2Fmoodle%2Ffile.php%2F59%2FExposiciones%2F20062%2FALMACENAMIENTO_Y_ESTRUCTURAS_DE_ARCHIVOS_1.ppt&ei=7Z48UobSN4aK9gT Aj4GoBw&usg=AFQjCNGXywKIX_QVDMTKvghbEt6WA0qoUw&bvm=bv.52434380,d.eWU

Estructuras Almacenamiento de Archivos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estructuras Almacenamiento de Archivos

Cargado por

Copyright:

Formatos disponibles

1

Tema: Almacenamiento y estructuras de archivos

Dispositivos de almacenamiento en cinta magntica. Son dispositivos de acceso secuencial.

Operaciones sobre ficheros

Ficheros de registros desordenados (ficheros heap)

Ficheros de registros ordenados (ficheros ordenados)

denomina clave de ordenacin del fichero.

Bsqueda binaria en una clave de ordenacin de un fichero de disco.

I +-- 1; u +-- b; (* b es el nmero de bloques del fichero *)

Dispersin externa para los ficheros de disco

La imagen 4 representa como se observara la segmentacin de datos o striping.

Imagen 1. Jerarqua de memoria.

Imagen 2. Discos magnticos

Imagen 3 Ejemplo de registros

También podría gustarte