Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sistemas de Archivos
Sistemas de Archivos
FACULTAD DE INGENIERIA
ESCUELA DE CIENCIAS Y SISTEMAS
MANEJO E IMPLEMENTACIN DE ARCHIVOS
SECCIN A-
INVESTIGACIN SISTEMAS DE
ARCHIVOS
Sistemas de Archivos
Google File System
Google
Google utiliza un Sistema de archivos llamado Google File System, tambin
conocido como GoogleFS, GFS o GooFS. Este sistema surgi como una mejora
al primer sistema de archivos BigFiles creado por Lary Page y Sergay Brin,
quienes tambin son creadores de Google. Google File System es un sistema
de archivos distribuidos el cual, adems de almacenar la informacin del gestor
de bsquedas en internet, tambin es utilizado para las aplicaciones en lnea
de Google Inc. tales como Google Maps, Google Drive, Google Mail, Google
Video, Google Apps, entre otros.
El sistema de archivos distribuido est diseado para almacenar grandes
cantidades de datos bsicos que sean accedidos de manera rpida. Google File
System maneja la informacin en nodos, los cuales estn divididos en dos, el
nodo Maestro y los Chunks (ver imagen 1).
Los Chunks almacenan las porciones de informacin, las cuales son bloques de
tamao fijo de 64 bytes, los cuales muy pocas veces son modificados y no se
eliminan, por lo cual no generan mucha fragmentacin. Al ser un sistema de
archivos distribuidos los bloques de un archivo se almacenan en varios
servidores y tambin se replican por lo menos tres veces, algunos de mayor
importancia se replican ms veces, en distintos servidores para garantizar que
se mantengan los datos por si algn servidor llega a fallar, ya que los
servidores, llamados Chunk Server, en los que se almacenan son originalmente
de costo bajo, de poca capacidad y utilizan sistema operativo de GNU/Linux
(ver imagen 3).
Hadoop
Yahoo!
Yahoo utiliza y contribuye al proyecto Hadoop, el cual es un framework de
software que utiliza un sistema de archivos distribuidos llamado Hadoop
Distributed File System (HDFS), el cual est inspirado en el sistema de archivos
de Google, descrito anteriormente, fue creado por Doug Cutting. Hadoop se
construye mediante el lenguaje de programacin java.
El sistema de archivos distribuidos tiene una arquitectura capaz de gestionar
archivos de gran tamao distribuyndolos en distintas ubicaciones, este
sistema maneja todo tipo de archivos, videos, imgenes, audio, registro,
estructurados, entre otros. Un cluster de Hadoop, al igual que Google, utiliza un
nodo maestro y muchos esclavos.
El nodo maestro, tambin llamado Namenode, almacena la informacin sobre
el archivo, como la ubicacin de los bloques, el nombre, los permisos, entre
otros. Estos metadatos es informacin pequea que se almacena en memoria
principal para que acceder a ella sea ms rpido. Los otros nodos son los
esclavos, tambin llamados datanodes, estos se encargan de recuperar y
almacenar los bloques de datos, estos bloques, al igual que Google, son de
tamao fijo de 64 MB, con lo cual se reduce la fragmentacin ya que los
bloques no cambian sus datos.
Para garantizar la seguridad de los datos, estos se replican en distintos host, a
diferencia de Google, el replicado consiste en que los datos se almacenan en
tres nodos distintos, dos en el mismo rack y el otro en uno diferente; estos
nodos replicados se comunican para actualizar los valores por si alguno cambia
y as equilibrar los datos y mantener la rplica exacta (ver imagen 4).
Amazon S3
Amazon
Amazon ofrece un almacenamiento a los usuarios que utiliza el sistema
Amazon S3, una caracterstica importante de este servicio es que no tiene
lmite de almacenamiento, ya que el cliente slo paga por lo que actualmente
est utilizando. Los datos almacenados estn distribuidos por el Data Center de
Amazon.
Para organizar los datos Amazon utiliza el concepto de buckets, los cuales son
la carpeta de almacenamiento de un usuario, de donde se encuentran los datos
en s; los objetos son la informacin que se almacena la cual, al contrario de
Google y hadoop es de tamao variable desde 1 byte hasta 5 GibaBytes, y a su
vez almacenan tambin la informacin del archivo llamada metadata, lo
contrario con los sistemas anteriores que separan la metadata de los archivos.
Para acceder a la informacin se utilizan llaves, cada bucket tiene su
identificador nico, al igual que los objetos tienen sus llaves nicas de
identificacin, por lo que al momento de acceder a un objeto se busca como
identificador_bucket + llave_Objeto.