Está en la página 1de 5

Comparativa en te un clster beowulf y un google clster.

El trmino clster se aplica a los conjuntos o conglomerados de


computadoras construidos mediante la utilizacin de componentes de hardware
comunes y que se comportan como si fuesen una nica computadora. Hoy en da
juegan un papel importante en la solucin de problemas de las ciencias, las
ingenieras y del comercio moderno.
Los clster pueden clasificarse con base en sus caractersticas. Se pueden tener
clster de alto rendimiento (HPC High Performance Clusters), clusters de alta
disponibilidad (HA High Availability) o clusters de alta eficiencia (HT High
Throughput).
Un cluster beowulf.
Beowulf es una tecnologa para agrupar computadores basados en el
sistema operativo Linux para formar un supercomputador virtual paralelo. En 1994
bajo el patrocinio del proyecto ESS del Centro de la Excelencia en Ciencias de los
Datos y de la Informacion del Espacio (CESDIS), Thomas Sterling y Don Becker
crearon el primer cluster Beowulf con fines de investigacin.
Su hardware: posee una arquitectura basada en multicomputadores el cual
puede ser utilizado para computacin paralela. Este sistema consiste de un nodo
maestro y uno o ms nodos esclavos conectados a travs de una red Ethernet u
otra topologa de red. Esta construido con componentes de hardware comunes en
el mercado, similar a cualquier PC capaz de ejecutar Linux, adaptadores de
Ethernet y switches estndares.
Una de las diferencias principales entre Beowulf y un cluster de estaciones
de trabajo (COW, cluster of workstations) es el hecho de que Beowulf se comporta
ms como una sola mquina que muchas estaciones de trabajo. En la mayora de
los casos los nodos esclavos no tienen monitores o teclados y son accedidos
solamente va remota o por terminal serial.

Ilustracin 1 Arq. Del cluster Beowulf

Su Software: Beowulf utiliza como sistema operativo cualquier distribucin


Linux. Adems usa bibliotecas de pase de mensajes como PVM (Parallel Virtual
Machine), MPI (Message Pasing Interface). Este tipo de software, dispone de
herramientas para la asignacin inicial de procesos a cada nodo, sin considerar la
carga existente en los mismos ni la disponibilidad de la memoria libre de cada uno.
Estos paquetes corren a nivel de usuario como aplicaciones ordinarias, es decir
son incapaces de activar otros recursos o de distribuir la carga de trabajo en el
cluster dinmicamente.
Ejemplo de Implementacin de un cluster Beowulf
Alan Aspuru (Fac. de Qumica, UNAM), Luis Aguilar (Inst. de Astronoma,
UNAM) y Alberto Vela (CINVESTAV) iniciaron de forma individual los primeros
proyectos de clusters en Mxico, a finales de la dcada de los 90.
En la UNAM, existen actualmente diversos clusters en diferentes dependencias e
institutos de investigacin y uno de los ms grandes es Mixbaal, instalado en la
Direccin General de Servicios de Cmputo Acadmico, el cual tiene 48
procesadores, 24 Gbytes de RAM y 600 Gbytes de almacenamiento.
Posee, adems, un sistema de archivos paralelo que puede incrementar hasta en
seis veces el ancho de banda de lectura/escritura de archivos; un sistema de
calendarizacin de carga que permite a varios usuarios compartir los recursos del

cluster, y bibliotecas numricas y de programacin paralela. En Mixbaal se llevan a


cabo simulaciones correspondientes a investigaciones en astronoma, qumica y
genmica, entre otras.
Adems del Mixbaal de la DGSCA, en la UNAM existen clusters dedicados a la
investigacin cientfica en los Institutos de Astronoma, Fsica, Investigaciones de
Materiales y Matemticas Aplicadas y Sistemas, por mencionar algunos; estos
clusters estn basados en modelos alternativos al Beowulf, por ejemplo, Brodix es
un cluster del Instituto de Fsica que est basado en el modelo mosix, el cual
permite distribuir de manera automtica un conjunto de procesos seriales entre
varias computadoras.
El google cluster.
Google atiende a ms de 5,000 millones de bsquedas cada mes (unas dos
mil por segundo), y esta cifra aumenta progresivamente cada da. Para atender
todas estas peticiones, y buscar entre ms de 3,000 millones de documentos,
Google opt por la tecnologa Linux.
Disponen de un clster de cerca de 20,000 servidores repartidos en siete data
centers o centro de datos. Estos centros de datos se encuentran situados en
diversos puntos del planeta, como Washington D.C. (USA), Herndon (Virginia,
USA), Santa Clara (California, USA) o Zurich (Suiza). Cada servidor dispone de un
solo procesador Intel, y una memoria RAM que va desde 256 Mb a 1 Gb.
Entre estos 'data centers', Google utiliza su propio gestor de trfico y su propio
software de balanceo de cargas, para dirigir cada peticin hacia el mejor servidor
En cada PC se encuentran uno o dos discos duros de 40Gb 75Gb, de marca
IBM. Google prefiere este sistema distribuido de almacenamiento de datos, antes
que uno centralizado. Las razones: es mucho ms barato y tiene menos
posibilidades de fallo.

Ilustracin 2 estructura de un cluster google.

Tipo de servidores:

Servidores web
Servidores proxy Squid
Servidores de recoleccin de datos(googlebot)
Servidores de ndices
Servidores de documentos
Servidores de anuncios.

Ilustracin 3 Realizacin de una bsqueda

En cada una de estas mquinas est instalado Linux RedHat. En mayo de 2002,
Google lleg a un acuerdo con RedHat para que esta empresa le proporcionase el
software del Sistema Operativo.

La eleccin de Linux fue sencilla para Google: el menor ratio coste/rendimiento,


corre en simples PCs, y la posibilidad de personalizar cualquier parte del Sistema
Operativo. De hecho, no solamente usan Linux en sus servidores, sino tambin en
la mayora de los PCs de los empleados.
Google File System: Es un sistema de archivos distribuido propietario
desarrollado por Google, que soporta toda su infraestructura informtica de
procesamiento de informacin en nube. Est especialmente diseado para
proveer eficiencia, fiabilidad de acceso a datos usando sistemas masivos de
cluster de procesamiento en paralelo. El cluster del Google File System se
compone de mltiples nodos. Estos se dividen en dos clases: un nodo Maestro y
un gran nmero de almacenadores de fragmentos o Chunkservers. Los archivos
se dividen en porciones de tamao fijo, los Chunkservers almacenan las
porciones, a cada porcin se le asigna una etiqueta de identificacin nica de 64
bits en el nodo maestro al momento de ser creada, y el nodo Maestro conserva las
asignaciones. A su vez cada porcin es replicada en al menos tres servidores de
una nube, pero as tambin existen archivos que requieren una mayor
redundancia por su enorme demanda.

Ilustracin 4 esquema del GFS

También podría gustarte