Está en la página 1de 33

Escuela de Ingeniera de Sistemas y Computacin

Maestra en Ingeniera nfasis en Ingeniera de Sistemas y Computacin


Fundamentos de Sistemas Distribuidos


Despliegue de Plataforma Galaxy para
Bioinformtica en Ambiente Cloud Amazon EC2
Mediante CloudMan y CloudBioLinux
Gua de Implementacin
Hctor Fabio Espitia Navarro
hector.espitia@correounivalle.edu.co 1204387
Junio de 2013
Contenido
1 Introduccin ....................................................................................................................... 2
2 Herramientas ...................................................................................................................... 3
2.1 Galaxy ......................................................................................................................... 3
2.2 CloudMan .................................................................................................................... 3
2.3 Cloud BioLinux ........................................................................................................... 4
3 Procedimiento .................................................................................................................... 5
3.1 Requisitos .................................................................................................................... 5
3.2 Despliegue manual en Amazon EC2 ............................................................................ 5
3.3 Despliegue automtico mediante BioCloudCentral .................................................... 21
4 Conclusiones ..................................................................................................................... 31
Referencias .............................................................................................................................. 32



EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
2
1 Introduccin
Con el advenimiento de las tecnologas NGS o de secuenciacin de alto rendimiento, la
rpida produccin de datos genmicos se ha incrementado a niveles que eran impensables
una dcada atrs y a costos razonables [1]. Sin embargo, el anlisis eficiente y con
reproducibilidad de las grandes cantidades de datos producidas por estas tecnologas
necesita herramientas de software especializadas y capacidades de cmputo y
almacenamiento a gran escala y flexibles. Una alternativa a la creacin y administracin de
una infraestructura local para suplir estas necesidades es el entorno de Computacin en la
Nube (Cloud Computing) el cual provee acceso por demanda a infraestructuras de cmputo
flexibles y de alta capacidad. No obstante, la configuracin y administracin de ambientes
Cloud para anlisis sobre datos genmicos no es fcil y se escapa a las habilidades de la
mayora de cientficos del rea de la genmica.
La plataforma Galaxy [2] viene a suplir las necesidades de reproducibilidad de los anlisis
sobre datos genmicos por medio de un entorno integrado de fcil uso con mltiples
herramientas de software especializadas en bioinformtica. Por otro lado el sistema de
administracin de recursos CloudMan [3] permite el despliegue y administracin de Galaxy
en infraestructuras Cloud de altas capacidades computacionales a travs del servicio EC2
de Amazon usando imgenes de mquinas virtuales (VM por Virtual Machine) Cloud
BioLinux especialmente creadas para entornos de bioinformtica. Con la combinacin de
estas herramientas se logra suplir las necesidades de poder computacional de gran escala y
flexibles para el anlisis de grandes cantidades de datos genmicos.
El presente documento es una gua que presenta el proceso de despliegue de la plataforma
Galaxy en el ambiente Cloud Amazon EC2 usando Cloud BioLinux y CloudMan. Se
muestran dos formas de despliegue: la manual, que comprende todos los pasos de
configuracin de los servicios de Amazon para la puesta en marcha de la plataforma, y la
automtica, la cual pone en funcionamiento la plataforma Galaxy en Cloud con mnimo
esfuerzo de configuracin.
El documento se organiza de la siguiente manera. En la Seccin 2 se describen de manera
general las herramientas involucradas en la implementacin de la plataforma Galaxy en la
infraestructura Cloud. La Seccin 3 presenta el procedimiento de despliegue de la
plataforma en sus dos formas, la manual y la automtica. Finalmente se presentan en la
Seccin 4 las conclusiones del trabajo.
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
3
2 Herramientas
En la implementacin de la plataforma Galaxy en ambiente Cloud se involucran
bsicamente cuatro herramientas: la infraestructura Cloud proveda a travs del servicio
EC2 de Amazon, la plataforma Galaxy, y CloudMan, el administrador del ambiente Cloud
especfico para Galaxy. A continuacin se presenta una breve descripcin de cada una de
estas herramientas.
2.1 Galaxy
Galaxy (http://galaxyproject.org/) es una herramienta de entorno Web para trabajo en
bioinformtica, especialmente concebida para anlisis computacional de datos genmicos.
Es una completa plataforma de flujos de trabajo cientficos (scientific workflows) y de
anlisis e integracin de datos que permite adelantar diversos anlisis sobre datos
genmicos. Aunque se encuentra disponible para su uso mediante un servicio pblico en la
Web (https://main.g2.bx.psu.edu/), tambin es posible descargarlo para realizar
instalaciones locales personalizadas. La caracterstica ms importante de Galaxy es que
permite al usuario realizar anlisis sobre datos genmicos sin necesidad de tener
conocimientos avanzados de programacin o informtica pues provee un entorno grfico
Web que facilita la ejecucin de distintas herramientas de anlisis computacional [2]. Esta
plataforma goza actualmente de mucha popularidad por su facilidad de uso, gran capacidad
y por ser tambin un entorno colaborativo que permite desarrollar y compartir entre la
comunidad de usuarios, flujos de trabajo que encapsulan complejos anlisis de datos con
reproducibilidad transparencia.
Galaxy ofrece diversas utilidades tanto genricas como por ejemplo para el procesamiento
de texto y archivos de secuencias biolgicas de distintos formatos, como tambin utilidades
ms complejas como por ejemplo todo el conjunto de aplicaciones para anlisis de datos
provenientes de las tecnologas de secuenciacin de segunda generacin (NGS por Next-
Generation Sequencing) que tanto auge han tomado en los ltimos aos y que requieren
alto poder computacional para su anlisis.
2.2 CloudMan
CloudMan, creado por el Proyecto Galaxy (http://galaxyproject.org/), es un sistema que
permite la creacin y administracin de clusters en la infraestructura Cloud EC2 de
Amazon para la ejecucin de la plataforma Galaxy. La siguiente es la descripcin
presentada por Afgan, et al. en [3]:
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
4
CloudMan es una solucin integrada que aprovecha herramientas existentes y paquetes
proveyendo un mtodo genrico para la utilizacin de estas herramientas en recursos Cloud y
abstrayendo detalles informticos de bajo nivel. Esta solucin se encarga de todos los
complejidades de la adquisicin de recursos, configuracin y escalamiento de la Computacin
en la Nube, para entregar un cluster de cmputo personal en cuestin de minutos. Toda la
interaccin con CloudMan y la administracin del cluster Cloud asociada, es ejecutada a
travs de una interfaz de usuario basada en Web que no requiere experticia computacional.
Los clusters desplegados vienen preconfigurados con todos los paquetes de bioiformtica
disponibles en la distribucin NERC Bio-Linux workstation (versin 6) [4], as como un
amplia gama de herramientas para datos NGS disponibles dentro de la plataforma Galaxy. Por
otro lado, el proceso de despliegue de la herramientas es completamente automatizado y
desacoplado de la imagen base de la mquina, haciendo posible agregar muy fcilmente
herramientas adicionales a una instancia de cluster Cloud.
2.3 Cloud BioLinux
CloudBioLinux (http://cloudbiolinux.org/) es un proyecto que crea y mantiene mquinas
virtuales basadas en la distribucin Linux NERC Bio-Linux
(http://nebc.nerc.ac.uk/tools/bio-linux), la cual ha sido concebida especialmente para
tareas de bioinformtica usando como base la distribucin Ubuntu. En [5] se describe Cloud
BioLinux como sigue:
Cloud BioLinux es una Mquina Virtual (VM) accesible de manera pblica que le permite a
los cientficos la rpida provisin de infraestructuras por demanda para cmputo de alto
desempeo en bioinformtica usando plataformas Cloud. Los usuarios tienen acceso
instantneo a un rango de aplicaciones de software preconfiguradas de lnea de comandos e
interfaz grfica, incluyendo una interfaz de escritorio completa, documentacin y ms de 135
paquetes de aplicaciones bioinformticas, incluyendo alineamiento de secuencias,
agrupamiento, ensamblaje, visualizacin, edicin y filogentica.
Las VMs Cloud BioLinux pueden ser ejecutadas en entornos Cloud como Amazon EC2 y
Eucalyptus, este ltimo mediante imgenes de VirtualBox.
Galaxy es una de las herramientas de software que vienen preconfiguradas en las VMs de
Cloud BioLinux por lo que CloudMan se vale de esta caracterstica para proveer el
despliegue y administracin de Galaxy en entornos Amazon EC2. Eta gua en particular
muestra el despliegue usando

EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
5
3 Procedimiento
Existen dos posibilidades para la despliegue de Galaxy en la infraestructura Cloud de
Amazon EC2. La primera forma consiste en realizar de manera manual toda la
configuracin de la instancia Cloud mediante la consola de administracin de Amazon EC2.
La segunda consiste en poner en funcionamiento la plataforma con configuracin mnima
usando el sitio Web BioCloudCentral.
A continuacin se describen cada una de las formas para poner en funcionamiento la
plataforma Galaxy en el entorno Cloud de Amazon EC2.
3.1 Requisitos
Son necesarios los siguientes requisitos para la ejecucin de los procedimientos que se
describen ms adelante:
Computador con acceso a Internet y un navegador Web actualizado tal como
Firefox, Chrome, Safari o Internet Explorer.
Una cuenta AWS con los servicios activos Elastic Compute Cloud (EC2) y Simple
Storage Service (S3). Para obtener una cuenta visite http://aws.amazon.com y siga
el vnculo Inscrbase. En este sitio encontrar tambin toda la informacin a cerca
de estos y otros servicios ofrecidos por Amazon.
3.2 Despliegue manual en Amazon EC2
Aunque este tipo de despliegue requiere la ejecucin de mltiples pasos de configuracin,
representa la mejor opcin para el control total de las instancias EC2 y sus servicios
relacionados como por ejemplo el de almacenamiento. En general el proceso consiste en la
ejecucin de una instancia EC2 de una VM Cloud BioLinux que permite la ejecucin de
CloudMan para administrar la plataforma Galaxy en Cloud. El procedimiento incluye la
creacin de usuario de acceso a la instancia EC2, generacin de claves de autenticacin,
configuracin de firewall y configuracin y ejecucin de la instancia EC2. Se a continuacin
presenta el despliegue manual de la plataforma Galaxy en ambiente Cloud de acuerdo con
el procedimiento descrito en [6].
1. Una vez autenticado en la cuenta AWS, asegrese de seleccionar la regin N. Virginia
(US East) dado que Galaxy Cloud solo est soportado de manera completa en esta
regin. Para esto vaya a la parte superior del panel de la cuenta y seccione la regin
mencionada.
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
6

2. Se debe crear un usuario para garantizar el acceso a la instancia EC2 que usar la
utilidad CloudMan para administrar Galaxy. Los usuarios se crean en la seccin Users
de la consola de administracin AWS (men izquierdo). Para ello vaya a la opcin del
men superior de configuracin de la cuenta My Accout/Console > AWS Management
console > IAM > Users y luego haga clic en Create New Users. Con la creacin del
nuevo usuario, se crean tambin las credenciales para el acceso Acces Key ID y Secret
Access Key. Es necesario que descargue (Download Credentials) y guarde el archivo de
credenciales para su posterior uso.

3. Acceda ahora la consola de administracin del servicio EC2 para crear un par de
claves para el acceso al servicio EC2 de manera remota. Para esto vaya al men
superior izquierdo Services > EC2 y a continuacin en el men izquierdo NETWORK
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
7
& SECURITY > Key Pairs y luego clic en Create Key Pair



4. Cree un nuevo grupo de seguridad para proporcionar el acceso seguro a la instancia.
En la seccin NETWORK & SECURITY seleccione Security Groups y luego Create
Security Group. Elija un nombre, por ejemplo galaxyWeb
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
8


5. Seleccione el grupo creado (galaxyWeb) y adicione las siguientes reglas de acceso en la
seccin Inbound en el panel inferior. Note que en todas las direcciones de origen se usa
por defecto 0.0.0.0/0; use esta direccin a menos que desee restringir el acceso por IP.
Protocol Port range Source Funcin de la regla
HTTP 0.0.0.0/0 Permite el acceso por HTTP
SSH 0.0.0.0/0 Permite el acceso por SSH
Custom TCP
rule
42284 0.0.0.0/0 Abre un Puerto en la instancia remota permitiendo el
acceso a la interface web del controlador del Cloud
Custom TCP
rule
20-21 0.0.0.0/0 Abre los puertos requeridos para transferencia FTP
Custom TCP
rule
30000-30100 0.0.0.0/0 Abre los puertos requeridos para transferencia FTP
pasiva
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
9
Protocol Port range Source Funcin de la regla
All TCP galaxyWeb Permite que mltiples instancias dentro de este grupo
se comuniquen con otras instancias en la red interna
de Amazon EC2
Haga clic en Apply Rule Changes. La configuracin debe lucir de la siguiente manera:


6. Es hora de crear y ejecutar una nueva instancia EC2 por medio del asistente.
a) Primero se debe encontrar una imagen de una mquina virtual para usarla en la
instancia Cloud EC2. Amazon usa un formato propio denominado Amazon Image
Machine (AMI). En el men izquierdo vaya a IMAGES y seleccione la opcin AMIs.
Ahora filtre las AMIs disponibles seleccionando la opcin Public Images, introduzca el
trmino de bsqueda CloudBioLinux y ejecute el filtro (tecla Enter):

Ver ahora el listado de AMIs que corresponden con la bsqueda. Seleccione la AMI
con nombre CloudBioLinux Ubuntu 12.04 2012062 (con AMI ID ami-46d4792f ) y
luego haga clic en Launch en la parte superior:
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
10


b) Ahora empieza la configuracin de la nueva instancia EC2 por medio del asistente. Se
debe especificar primero el tipo de instancia que se desea lanzar.
Es posible usar una instancia T1 Micro la cual es gratuita durante un ao a partir de
la apertura de la cuenta AWS. Sin embargo, con este tipo de instancia no se pueden
lanzar tareas de anlisis en la plataforma Galaxy, por lo que solo se usa para efectos
de prueba de del cluster CloudMan con EC2. Por esta razn en esta gua se usar M1
Large (m1.large 7.5 GiB) la cual est concebida para trabajo moderado y cuenta con 4
unidades informticas EC2 (2 ncleos virtuales con dos unidades informticas EC2
cada una), 7.5 GB de memoria y 840 GB de almacenamiento de instancias.
NOTA: Tenga en cuenta que la ejecucin de una instancia M1 Large (m1.large 7.5 GiB)
generar costos en su cuenta AWS. Para calcular los costos totales puede usar la
herramienta Simple Monthly Calculator de AWS. Debe tener en cuenta tambin en los
clculos el almacenamiento en unidades EBS (Elastic Block Storage) dado que CloudMan
configura por defecto dos EBS, una de 10 GB para las herramientas de Galaxy y otra de 700
GB para datos genmicos predefinidos de referencia. Cabe anotar que el costo de las unidades
EBS actualmente es de USD $0.1 por cada GB provedo al mes, de esta manera el costo
aproximado para la EBS de 700 GB en un da entero sera de USD $2.33 (700 GB USD$
0.1 1 da/30). Puede encontrar la informacin completa acerca de los precios de los
servicios EC2 y EBS en http://aws.amazon.com/ec2/pricing/ y
http://aws.amazon.com/pricing/ebs/ respectivamente.
Asegrese de ingresar en el campo Number of Instances el nmero 1 y seleccionar M1
Large (m1.large 7.5 GiB) en Instance Type.

EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
11


c) Ahora es necesario proveer los datos de usuario para acceso a la instancia por medio
de CloudMan. En el campo User Data ingrese los datos de usuario en el siguiente
formato:
cluster_name: <DESIRED CLUSTER NAME>
password: <DESIRED Galaxy CloudMan WEB UI PASSWORD>
access_key: <YOUR AWS ACCESS KEY>
secret_key: <YOUR AWS SECRET KEY>
Reemplace los datos en cada lnea con los que correspondan a su usuario. En
acces_key y secret_key debe proveer los valores que se encuentran en el archivo de
credenciales que descarg en el paso 2.



EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
12

Haga clic en Continue. Ahora se presenta la configuracin de almacenamiento de la
instancia. Deje los valores por defecto y haga clic en Continue.

Se presenta ahora la pantalla para entrada de tags para la instancia las cuales
permiten nombrar recursos de la instancia. En el campo Value frente a la clave Name
ingrese la palabra Galaxy y haga clic en Continue.
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
13

d) Ahora hay que proveer las claves para acceso a la instancia. Puede crear pares de
claves nuevos o usar pares creados previamente. Seleccione el par de claves creado en
el paso 3 (cloudman_key_pair) y haga clic en Continue.

e) Ahora se configura el Firewall asignando grupos de seguridad. Puede crear grupos
nuevos o usar grupos creados previamente. Asegrese se seleccionar los grupos default
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
14
y galaxyWeb creado en el paso 4 (mantenga presionada la tecla Ctrl mientras hace clic
en cada grupo de la lista) y haga clic en Continue.

f) Finalmente se presenta el resumen de la configuracin de la instancia creada. En caso
de ser necesario, se pueden editar los valores de cada seccin de la configuracin.
Ahora puede ejecutar la instancia presionando Launch.

EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
15
En esta parte el asistente le confirma la ejecucin de la instancia. Presione Close para
continuar.


Ahora podr verificar el estado y las propiedades de la instancia creada en la consola
de administracin de EC2 en la seccin Instances

En el panel de propiedades inferior podr ver el campo Public DNS el cual le informa
la el DNS por medio del cual podr acceder al panel CloudMan de administracin del
entorno Cloud para Galaxy
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
16

Copie este DNS y a continuacin acceda a l por medio del navegador Web. Ahora
podr ver la pantalla de bienvenida a CloudMan.


7. Ahora se puede iniciar la configuracin del entorno Cloud de Galaxy mediante
CloudMan. Haga clic en el vnculo CloudMan Console en la parte inferior. CloudMan
le solicitar autenticarse para ingresar a la consola. Ingrese con el usuario ubuntu y el
password que proporcion en los datos de usuario en el paso 6.c.
Aparecer ahora la pantalla de configuracin inicial del cluster. Seleccione la opcin
Galaxy Cluster y asigne 10 GB como capacidad de almacenamiento inicial. A
continuacin haga clic en Choose CloudMan Paltform.
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
17

Finalmente se presenta la consola CloudMan de Galaxy en Cloud.

EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
18

Ahora puede verificar en la consola EC2 el estado de las unidades EBS asociadas con
el entorno Cloud de Galaxy. Vaya a la seccin ELASTIC BLOCK STORAGE >
Volumes del men izquierdo. Como ver existen cuatro unidades en uso actualmente:

EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
19
8. Regrese a la consola CloudMan. Mediante la pantalla de administracin es posible
iniciar o detener los servicios relacionados con Galaxy. Vaya al men superior y
seleccione la opcin Admin. Ver ahora una interfaz que le permite adicionar usuarios
a Galaxy mediante un archivo CSV, actualizar Galaxy desde un repositorio
especificando la URL y controlar la ejecucin de los servicios de la plataforma:
Galaxy, la base de datos PostgreSQL, SGE (Sun Grid Engine) y el sistema de
archivos. Una vez el estado de los servicios sea Running, podr ejecutar Galaxy en el
entorno Cloud.

Regrese a la interfaz inicial de CloudMan haciendo clic en el encabezado CloudMan
from Galaxy.

EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
20

La interfaz principal de CloudMan permite manejar al cluster Cloud y adems acceder
a Galaxy para su uso.

Desde aqu es posible adicionar y remover nodos al cluster, monitorear el estado de los
servicios del cluster, y administrar caractersticas del cluster como el auto-
escalamiento (auto-scaling) y compartir instancias. La siguiente es una captura del
men para adicionar nodos al entorno Cloud.

9. Finalmente puede empezar a usar la plataforma Galaxy accediendo mediante la opcin
Access Galaxy
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
21

Ver la interfaz de la plataforma Galaxy funcionando en el entorno Cloud de EC2.
Ahora podr realizar desde aqu los anlisis sobre datos genmicos que desee.

3.3 Despliegue automtico mediante BioCloudCentral
Afgan et al. presentan en [7] el proceso de despliegue automtico de Galaxy en la
infraestructura EC2. El proceso consiste, de manera general, en la ejecucin y acceso a una
instancia privada de una imagen de VM Cloud BioLinux en AWS. El proceso se inicia a
travs de portal Web BioCloudCentral.org que simplifica el proceso de ejecucin de la
instancia gracias a que automatiza muchos de los pasos requeridos en la configuracin
manual como por ejemplo la creacin de reglas de firewall, la generacin de claves de
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
22
autenticacin y configuracin de datos de usuario. A continuacin se presenta el
procedimiento de acuerdo con lo descrito en [7].
1. Si ya cuenta con un usuario en AWS y sus correspondientes claves de autenticacin,
recupere los datos de las claves y salte las siguientes instrucciones, de lo contrario,
proceda con ellas.

Se debe crear un usuario para garantizar el acceso a la instancia EC2 que usar la
utilidad CloudMan para administrar Galaxy. Los usuarios se crean en la seccin
Users de la consola de administracin AWS (men izquierdo). Para ello vaya a la
opcin del men superior de configuracin de la cuenta My Accout/Console > AWS
Management console > IAM > Users y luego haga clic en Create New Users. Con la
creacin del nuevo usuario, se crean tambin las credenciales para el acceso Acces
Key ID y Secret Access Key. Es necesario que descargue (Download Credentials) y
guarde el archivo de credenciales para su posterior uso.



2. En el navegador Web ingrese al sitio de BioCloudCentral.org
(http://biocloudcentral.org). Ingrese los datos requeridos en el formulario. En los
campos Acces key y Secret key, proporcione los valores de las claves de acceso creadas
anteriormente. Seleccione en Instance type la opcin Large (4 ECUs / 7.5GB RAM).
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
23

Es posible usar una instancia Micro (2 ECUs / 613MB RAM) la cual es gratuita
durante un ao a partir de la apertura de la cuenta AWS. Sin embargo, con este tipo
de instancia no se pueden lanzar tareas de anlisis en la plataforma Galaxy, por lo
que solo se usa para efectos de prueba de del cluster CloudMan con EC2. Por esta
razn en esta gua se usar Large (4 ECUs / 7.5GB RAM) la cual est concebida para
trabajo moderado y cuenta con 4 unidades informticas EC2 (2 ncleos virtuales con
dos unidades informticas EC2 cada una), 7.5 GB de memoria y 840 GB de
almacenamiento de instancias.
NOTA: Tenga en cuenta que la ejecucin de una instancia Large (4 ECUs / 7.5GB RAM),
que corresponde con la instancia M1 Large (m1.large 7.5 GiB) de EC2 de Amazon, generar
costos en su cuenta AWS. Para calcular los costos totales puede usar la herramienta
Simple Monthly Calculator de AWS. Debe tener en cuenta tambin en los clculos el
almacenamiento en unidades EBS (Elastic Block Storage) dado que CloudMan configura por
defecto dos EBS, una de 10 GB para las herramientas de Galaxy y otra de 700 GB para datos
genmicos predefinidos de referencia. Cabe anotar que el costo de las unidades EBS
actualmente es de USD $0.1 por cada GB provedo al mes, de esta manera el costo
aproximado para la EBS de 700 GB en un da entero sera de USD $2.33 (700 GB USD$
0.1 1 da/30). Puede encontrar la informacin completa acerca de los precios de los
servicios EC2 y EBS en http://aws.amazon.com/ec2/pricing/ y
http://aws.amazon.com/pricing/ebs/ respectivamente.

EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
24


Cuando haya ingresado los datos haga clic en Start Instantace. Ahora ver una nueva
pgina que le los detalles de la instancia creada. Podr observar el estado de la
instancia en la parte superior (Instance state) el cual estar en pending justo despus
de ejecutar la instancia. Una vez la instancia se haya iniciado, ver el estado en
running, lo cual le indica que la plataforma est lista para ser usada. En este punto,
tambin podr ver el IP pblico PublicIP (CloudMan Console) por medio del cual
puede ingresar a la consola CloudMan.

EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
25


Se recomienda descargar los datos de usuario mediante el botn Download user-data,
los cuales le permitirn iniciar posteriormente el entorno directamente desde la
consola de AWS o incluso a travs de su API.

3. Ingrese a la consola CloudMan mediante el vnculo al IP pblico mostrado en
pantalla. CloudMan le solicitar autenticarse para ingresar a la consola. Ingrese con
el usuario ubuntu y el password que proporcion en el formulario del paso 2.

Aparecer ahora la pantalla de configuracin inicial del cluster. Seleccione la opcin
Galaxy Cluster y asigne 10 GB como capacidad de almacenamiento inicial. A
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
26
continuacin haga clic en Choose CloudMan Paltform.

Ahora se presenta la consola CloudMan de Galaxy en Cloud.
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
27

Ingresando a su cuenta AWS, puede verificar en la consola EC2 el estado de las
unidades EBS asociadas con el entorno Cloud de Galaxy. Vaya a la seccin ELASTIC
BLOCK STORAGE > Volumes del men izquierdo. Como ver existen cuatro unidades
en uso actualmente:
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
28

4. Regrese a la consola CloudMan. Mediante la pantalla de administracin es posible
iniciar o detener los servicios relacionados con Galaxy. Vaya al men superior y
seleccione la opcin Admin. Ver ahora una interfaz que le permite adicionar
usuarios a Galaxy mediante un archivo CSV, actualizar Galaxy desde un repositorio
especificando la URL y controlar la ejecucin de los servicios de la plataforma:
Galaxy, la base de datos PostgreSQL, SGE (Sun Grid Engine) y el sistema de
archivos. Una vez el estado de los servicios sea Running, podr ejecutar Galaxy en el
entorno Cloud.
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
29

Regrese a la interfaz inicial de CloudMan haciendo clic en el encabezado CloudMan
from Galaxy.

EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
30

La interfaz principal de CloudMan permite manejar al cluster Cloud y adems
acceder a Galaxy para su uso.

Desde aqu es posible adicionar y remover nodos al cluster, monitorear el estado de
los servicios del cluster, y administrar caractersticas del cluster como el auto-
escalamiento (auto-scaling) y compartir instancias. La siguiente es una captura del
men para adicionar nodos al entorno Cloud.

5. Finalmente puede empezar a usar la plataforma Galaxy accediendo mediante la
opcin Access Galaxy
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
31

Ver la interfaz de la plataforma Galaxy funcionando en el entorno Cloud de EC2.
Ahora podr realizar desde aqu los anlisis sobre datos genmicos que desee.

4 Conclusiones
Se present el procedimiento para despliegue de la plataforma Galaxy para bioinformtica
en la infraestructura Cloud EC2 de Amazon dos formas, una automtica y otra manual.
Aunque la automtica facilita el proceso de despliegue, la manual brinda mayores
posibilidades en este aspecto pues permite mayor control de la configuracin.
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
32
Si bien la administracin de las soluciones AWS no es del todo complicada, la herramienta
CloudMan permite una fcil utilizacin del modelo de Computacin en la Nube en el rea
bioinformtica encapsulando todos los detalles de bajo nivel de la administracin del
entorno EC2.
La integracin de las herramientas Galaxy, CloudMan y Cloud BioLinux, ofrece enormes
ventajas a los investigadores del rea de la biologa computacional pues ponen a su
disposicin el modelo de Computacin en la Nube, con su gran beneficio del uso por
demanda y a precios razonables de infraestructuras computacionales flexibles de alto
rendimiento. Lo anterior sin olvidar que esto es posible gracias a soluciones verstiles,
seguras y flexibles como AWS.
Referencias
[1] M. L. Metzker, Sequencing technologies - the next generation., Nature reviews.
Genetics, vol. 11, no. 1, pp. 3146, Jan. 2010.
[2] J. Goecks, A. Nekrutenko, and J. Taylor, Galaxy: a comprehensive approach for
supporting accessible, reproducible, and transparent computational research in the
life sciences., Genome biology, vol. 11, no. 8, p. R86, Jan. 2010.
[3] E. Afgan, D. Baker, N. Coraor, B. Chapman, A. Nekrutenko, and J. Taylor, Galaxy
CloudMan: delivering cloud compute clusters., BMC bioinformatics, vol. 11 Suppl 1,
no. Suppl 12, p. S4, Jan. 2010.
[4] D. Field, B. Tiwari, T. Booth, S. Houten, D. Swan, N. Bertrand, and M. Thurston,
Open software for biologists: from famine to feast., Nature biotechnology, vol. 24,
no. 7, pp. 8013, Jul. 2006.
[5] K. Krampis, T. Booth, B. Chapman, B. Tiwari, M. Bicak, D. Field, and K. E.
Nelson, Cloud BioLinux: pre-configured and on-demand bioinformatics computing
for the genomics community., BMC bioinformatics, vol. 13, no. 1, p. 42, Jan. 2012.
[6] Galaxy Project, CloudMan - Galaxy Wiki, 2013. [Online]. Available:
http://wiki.galaxyproject.org/CloudMan. [Accessed: 03-Jun-2013].
[7] E. Afgan, B. Chapman, M. Jadan, V. Franke, and J. Taylor, Using cloud computing
infrastructure with CloudBioLinux, CloudMan, and Galaxy., Current protocols in
EISC Fundamentos de Sistemas Distribuidos H. F. Espitia Junio de 2013
33
bioinformatics / editoral board, Andreas D. Baxevanis ... [et al.], vol. Chapter 11, p.
Unit11.9, Jun. 2012.

También podría gustarte