Está en la página 1de 8

REPUBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DEL PODER POPULAR PARA LA DEFENSA UNIVERSIDAD NACIONAL EXPERIMENTAL DE LA FUERZA ARMADA NACIONAL

BOLIVARIANA NUCLEO: PUERTO CABELLO

Administracin de Cluster

Profesor(a): Yelmin Perez

Integrantes: Barreto Antony Moncada Rafael Puerto Cabello, Junio de 2012.

Definicin: Cluster

El trmino cluster se aplica a un conjunto o conglomerado de computadores, construido utilizando componentes de hardware comunes y en la mayora de los casos, software libre; los computadores se interconectan mediante alguna tecnologa de red. El cluster puede estar conformado por nodos dedicados o por nodos no dedicados. En un cluster con nodos dedicados, los nodos no disponen de teclado, mouse ni monitor y su uso est exclusivamente dedicado a realizar tareas relacionadas con el cluster. Mientras que, en un cluster con nodos no dedicados, los nodos disponen de teclado, mouse y monitor y su uso no est exclusivamente dedicado a realizar tareas relacionadas con el cluster, el cluster hace uso de los ciclos de reloj que el usuario del computador no esta utilizando para realizar sus tareas. Simplemente, un cluster es un grupo de mltiples computadores unidos mediante una red de alta velocidad, de tal forma que el conjunto es visto como un nico computador, ms potente que los comunes de escritorio. Los computadores del cluster pueden tener, todos, la misma configuracin de hardware y sistema operativo (cluster homogneo), diferente rendimiento pero con arquitecturas y sistemas operativos similares (cluster semi-homogneo), o tener diferente hardware y sistema operativo (cluster heterogneo), lo que hace ms fcil y econmica su construccin. Para que un cluster funcione como tal, no basta solo con conectar entre s los computadores, sino que es necesario proveer un sistema de administracin del cluster, el cual se encargue de interactuar con el usuario y los procesos que corren en l para optimizar su funcionamiento.

Administracin de cluster La operacin de cluster requiere de un manejo adecuado de los recursos asociados. Los recursos del cluster deben ser administrados adecuadamente para que el administrador invierta la menor cantidad de tiempo en detectar, investigar y recuperar fallos de hardware y software, y de este modo definir posibles medidas de contingencia y tratar que el sistema est libre de errores. A su vez, estos pasos permiten la adaptabilidad a los requerimientos y cambios constantes que se presentan en la manipulacin de tecnologas cluster, en cuanto se refiere al hardware, software y al uso de ciertos patrones de diseo. El administrador de un cluster debe tomar en cuenta algunos aspectos, una vez que se ha completado la instalacin de los recursos bsicos de hardware y software. Estos aspectos incluyen la configuracin e instalacin de un sistema de archivos universal, la configuracin y administracin de recursos mediante herramientas implementadas en software; el monitoreo de sus actividades y el registro de cada uno de los eventos generados por la ejecucin de clculos computacionales. Varios de los sistemas ms importantes para la instalacin automtica de clusters, incluyen herramientas de monitoreo, administracin y registro de eventos mediante paquetes de distribucin para sistemas Windows y Linux. Entre estos sistemas estn OSCAR y Rocks NPACI; ambos sistemas permiten el uso de herramientas de software que tienen propsitos especficos tales como: Definicin y administracin de nodos. Administracin de colas por lotes (Batch Queue Management). Administracin de recursos: grupos NIS (Network Information Service), cuotas de disco y CPU. Administracin de servicios de resolucin de nombres : DNS (Domain Name System para clusters).. Registro de usuarios para clusters de dimensiones superiores a los 100 nodos.

Monitoreo de carga. La administracin de clusters, implica tomar medidas preventivas y planificar tareas. La administracin implica los siguientes aspectos: Registro de eventos. Monitoreo o medida del estado de los recursos del cluster. Recuperacin ante fallos de hardware, software, incluyendo el sistema de archivos. Administracin del registro de usuarios y grupos de usuarios, de los servicios del cluster (accounting). Planificacin de tareas y balanceo de carga.

Registro de Eventos

El manejo de logs, o el registro de eventos generados tanto por el kernel del sistema operativo, como por los diferentes servicios que han sido habilitados para el establecimiento de comunicacin entre los nodos, se lo puede realizar mediante comandos del sistema operativo Linux para poder visualizar los archivos de logs, o utilizar herramientas de monitoreo tales como: LogCheck Swatch LogSentry LogDog En Linux, el comando ms utilizado para visualizar logs es: tail.

Monitoreo y Estado del Cluster

El monitoreo permite conocer si todos los componentes de hardware y software estn disponibles y operando de acuerdo a lo esperado. Es decir, debe asegurarse que todos los componentes de hardware estn disponibles durante el arranque del sistema operativo (CPUs, memoria, discos, dispositivos de red y otros), y de igual forma, que todos los servicios de software, tales como: planificadores de tareas, administradores de recursos, y demonios de monitoreo se ejecuten correctamente en el cluster. Entre las herramientas de monitoreso se pueden mencionar: Big Brother Cluemon Ganglia Nagios PARMON Supermon Recuperacin ante fallos

La administracin del cluster implica resolver problemas provocados por fallos de hardware y/o software. Los fallos causados por hardware pueden ocasionar que el cluster quede inutilizable. La recuperacin ante fallos a nivel de hardware implica:

1. Aislar los componentes que fallaron para asegurar que no causen unconsiderable impacto en las actividades del cluster. 2. Manejar los componentes de respaldo (backup), para poder hacer reemplazos y minimizar los efectos del fallo. Los fallos de componentes de software muchas veces no tienen solucin o forma de recuperacin. Si se considera que el sistema operativo est basado en Linux, la mayor parte de aplicaciones requieren de parches o nuevas versiones para mejorar o recuperarse de errores; sin embargo, este proceso es muy complejo y conlleva mucho tiempo. Por tal motivo, si un componente de software falla lo nico que resta por hacer es informar al vendedor, diseador o desarrollador de la aplicacin y esperar por las mejoras. Accounting

Los ambientes Linux ofrecen algunas alternativas para mantener copias de un conjunto de archivos en varios equipos. La forma ms comn y fcil de administrar las copias de un conjunto de archivos involucra la utilizacin de una red basada en servicios para la administracin de cuentas o registros de usuario. Cuando se emplea esta alternativa, cada computador realiza consultas a un servicio central, el cual maneja la autorizacin, la autenticacin y la informacin de los usuarios dentro del sistema. Para la configuracin manual de clusters, los servicios ms utilizados son NIS (Network Information Service) o LDAP (Lightweight Directory Access Protocol); sin embargo; tambin se habilitan de forma automtica con los toolkits de OSCAR y NPACI Rocks. Planificacin de Tareas y Balanceo de Carga

Las actividades de administracin y balanceo de carga que son crticas para un entorno cluster son:

Administrar la disponibilidad de los nodos. Configurar atributos de los nodos que sean importantes para balanceo de carga. Administrar usuarios y grupos mediante cuotas de disco. Configurar y disear polticas. Administrar reservaciones y recursos dedicados. Monitorear y generar un historial de utilizacin de recursos para usuarios y grupos.

C3 Cluster Command & Control C3 es un conjunto de utilidades basadas en lnea de comandos. stas son u tilizadas para ejecutar tareas comunes de administracin. Estos comandos se disearon para proveer un ambiente similar a los comandos comunes que se utilizan bajo la administracin de una mquina con UNIX o Linux. Estos comandos son scripts escritos en Phyton. C3 fue desarrollado por el Laboratorio Nacional Oak Ridge, y su distribucin es libre. Esta herramienta se instala automticamente con la distribucin de OSCAR. GANGLIA Ganglia es una herramienta de monitoreo en tiempo real para clusters y grids. Ganglia utiliza la misma base de datos desarrollada para MRTG (Multi Router Traffic Grapher) basado en mecanismos de actualizacin de registros round-robin. Ganglia provee un ambiente de ejecucin nico mediante la utilizacin del comando gexec, emplea el uso de 3 hilos de ejecucin, uno para las entradas estndar (stdin), uno para las seales del sistema, y otro para las entradas y salidas de error (stderr). gexec permite ejecutar comandos en el cluster de manera transparente y redireccionar las salidas por medio de las entradas y salidas estndar (stdin, stdout y stderr).

CONDOR Condor es un sistema de administracin especializado para monitorear y satisfacer necesidades computacionales en trabajos de cmputo intensivos. Este sistema provee un mecanismo de manejo de colas, polticas de planificacin, esquema de prioridades, monitoreo de recursos, y administracin de los mismos. Los usuarios realizan peticiones a Condor, que luego son colocadas en una cola, en donde mediante un proceso de seleccin se establece en dnde y cundo se ejecutarn. PBS PBS (Portable Batch System) es un sistema flexible de balanceo de carga y planificacin de tareas, inicialmente fue desarrollado para administrar recursos computacionales de la NASA. PBS ha sido el lder en la administracin de recursos y considerado el estndar de facto para los sistemas de planificacines bajo sistemas Linux. E n el ao de 1986 la NASA, junto al Centro de Investigacin Ames desarroll el primer sistema de manejo de colas para el sistema operativo UNIX, denominado NQS (Network Queueing System). NQS en pocos aos se convirti en un estndar de facto para el manejo de colas por lotes. Una vez que los sistemas paralelos aparecieron, el sistema NQS se volvi inadecuado para manipular requerimientos complejos de administracin de recursos.