Documentos de Académico
Documentos de Profesional
Documentos de Cultura
25/10/11
1/34
Contenido
Contenido
Clusters Beowulf MPI (Message Passing Interface) Comunicacin entre procesos Un programa simple con MPI Comunicacin con bloqueo Comunicacin sin bloqueo Ejecucin en un cluster Depuracin de programas MPI Algunos resultados MPI + OpenMP Sistemas grandes Preguntas? Bibliografa
25/10/11
2/34
Clusters Beowulf
Clusters Beowulf
Computadoras nodos escalvo Computadora nodo maestro Red externa
Switch de red
25/10/11
3/34
Clusters Beowulf
Existen sistemas operativos open source preparados para este tipo de arquitectura Rocks Clusters: http://www.rocksclusters.org PelicanHPC: http://pareto.uab.es/mcreel/PelicanHPC Scientific Linux: http://www.scientificlinux.org Tambin es posible utilizar Windows Windows HPC Server 2008: http://www.microsoft.com/hpc
25/10/11
4/34
Clusters Beowulf
25/10/11
5/34
compute-0-1.local
Procesador Procesador Memoria
Tarjeta de red
master.local
Procesador Procesador Memoria
Tarjeta de red Tarjeta de red
Switch de red
Tarjeta de red Tarjeta de red
Red externa
compute-0-2.local
compute-0-3.local
Usualmente se ejecuta un proceso por core. Tiene soporte para threads y adems es posible combinarlo con OpenMP
25/10/11 6/34
La comunicacin entre procesos se realiza por medio de: Mensajes de red entre nodos (via ethernet, Myrinet, InfiniBand) Memoria compartida (polling) entre procesos en una misma computadora Mensajes por sockets locales entre procesos en una misma computadora Funciona con: C C++ Fortran 77/90/95 Es el estandard de facto para comunicaciones en clusters con aplicaciones al cmputo matemtico. Implementaciones open source: MPICH2: http://www.mcs.anl.gov/research/projects/mpich2 OpenMPI: http://www.open-mpi.org
25/10/11
7/34
Proceso rango 3
Proceso rango 4
25/10/11
8/34
El programador no se tiene que preocupar por el medio de comunicacin. Cada nodo reserva memoria independientemente, MPI proporciona las funciones para copiar esa informacin a otros nodos y para recibir esa informacin. MPI tiene funciones para: Enviar datos nodo a nodo Recibir datos nodo a nodo Enviar datos a muchos nodos (broadcasting) Recibir datos de muchos nodos (reduction) Sincronizacin de procesos Lectura/escritura de datos en paralelo Manejo de threads Vamos a revisar brevemente 10 funciones bsicas 4 de control y 6 de comunicacin.
25/10/11
9/34
25/10/11
10/34
Compilacin
En Windows con GCC y MPICH2
gcc -o hola hola.cpp -l mpi
25/10/11
11/34
Ejecucin
El comando para ejecutar es mpiexec, hay que especificar el nmero de procesos y el path al programa
mpiexec -n 3 hola.exe
hola.exe
#include <stdio.h> #include <mpi.h> int main(int argc, char** argv) { int size, rank; MPI_Init(&argc, &argv); MPI_Comm_size(MPI_COMM_WORLD, &size); MPI_Comm_rank(MPI_COMM_WORLD, &rank); printf("Hola mundo (size = %i, rank = %i)\n", size, rank); MPI_Finalize(); return 0; } }
hola.exe
#include <stdio.h>
#include <mpi.h> int main(int argc, char** argv) { int size, rank; MPI_Init(&argc, &argv); MPI_Comm_size(MPI_COMM_WORLD, &size); MPI_Comm_rank(MPI_COMM_WORLD, &rank); printf("Hola mundo (size = %i, rank = %i)\n", size, rank); MPI_Finalize(); return 0; }
hola.exe
#include <stdio.h> #include <mpi.h> int main(int argc, char** argv) { int size, rank; MPI_Init(&argc, &argv); MPI_Comm_size(MPI_COMM_WORLD, &size); MPI_Comm_rank(MPI_COMM_WORLD, &rank); printf("Hola mundo (size = %i, rank = %i)\n", size, rank); MPI_Finalize(); return 0;
25/10/11
12/34
Funciones bsicas
MPI_Init(<pointer_to_int>, <pointer_to_char*>) Inicializa el proceso en MPI, bloquea la ejecucin hasta que todos los procesos hayan sido inicializados. MPI_Comm_size(MPI_COMM_WORLD, <pointer_to_int>) Obtiene el nmero de procesos ejecutados en el grupo MPI_COMM_WORLD, ste es el grupo por default. Se pueden crear subgrupos de procesos. MPI_Comm_rank(MPI_COMM_WORLD, <pointer_to_int>) Obtiene el nmero de rango del proceso actual, los rangos van de 0 a size1. MPI_Finalize() Termina la coneccin MPI, bloquea la ejecucin hasta que todos los procesos terminen.
25/10/11
13/34
25/10/11
14/34
El siguiente es un ejemplo de comunicacin con bloqueo en el que el nodo con rango 0 actuar como maestro y los nodos con rangos 1 a N-1 actuarn como esclavos. El nodo maestro enviar un vector a cada nodo esclavo.
Proceso rango 1 Proceso rango 0 Proceso rango 2
Proceso rango 3
Proceso rango 4
#include <stdio.h> #include <stdlib.h> #include <mpi.h> #define TAG_LENGTH #define TAG_DATA 2 1
else // Esclavos { int length; printf("SLAVE (rank = %i)\n", rank); MPI_Recv(&length, 1, MPI_INT, 0, TAG_LENGTH, MPI_COMM_WORLD, MPI_STATUS_IGNORE); double* data = (double*)malloc(sizeof(double)*length); MPI_Recv(data, length, MPI_DOUBLE, 0, TAG_DATA, MPI_COMM_WORLD, MPI_STATUS_IGNORE); free(data); }
int main(int argc, char** argv) { int size; int rank; MPI_Init(&argc, &argv); MPI_Comm_size(MPI_COMM_WORLD, &size); MPI_Comm_rank(MPI_COMM_WORLD, &rank);
if (rank == 0) // Maestro MPI_Finalize(); { return 0; printf("MASTER (size = %i)\n", size); } int length = 20; double* data = (double*)malloc(sizeof(double)*length); for (int r = 1; r < size; ++r) { MPI_Send(&length, 1, MPI_INT, r, TAG_LENGTH, MPI_COMM_WORLD); MPI_Send(data, length, MPI_DOUBLE, r, TAG_DATA, MPI_COMM_WORLD); } free(data); }
25/10/11 16/34
Proceso rango 3
Proceso rango 4
25/10/11
17/34
Introducimos el tipo de dato MPI_Request que es un identificador de solicitud. Sirve tanto para identificar solicitudes de envio o de recepcin.
25/10/11
18/34
Las nuevas funciones utilizadas son: MPI_Isend(<pointer_to_data>, <length>, <type>, <target>, <tag>, MPI_COMM_WORLD, <pointer_to_request>) Solicita enviar <pointer_to_data> a <target>, con mensaje <tag>. La solicitud se almacena en <pointer_to_request> MPI_Irecv(<pointer_to_data>, <length>, <type>, <source>, <tag>, MPI_COMM_WORLD, <pointer_to_request>) Solicita recibir de <source> el mensaje <tag>, los datos se almacenarn en <pointer_to_data>. La solicitud se almacena en <pointer_to_request> MPI_Waitall(<request_count>, <pointer_to_requests>, MPI_STATUSES_IGNORE) Espera a que se completen todo un arreglo de solicitudes.
25/10/11
19/34
El siguiente es un ejemplo de una comunicacin donde todos los nodos envian mensajes a todos los dems nodos.
Proceso rango 1 Proceso rango 0 Proceso rango 2
Proceso rango 3
Proceso rango 4
Ahora necesitaremos arreglos de solicitudes (MPI_Request) para manejar las comunicaciones sin bloqueo. A continuacin el cdigo de este ejemplo:
25/10/11 20/34
#include <stdio.h> #include <mpi.h> #define TAG_MESSAGE 1 int main(int argc, char** argv) { int size; int rank; MPI_Init(&argc, &argv); MPI_Comm_size(MPI_COMM_WORLD, &size); MPI_Comm_rank(MPI_COMM_WORLD, &rank); int* send_data = new int[size]; int* recv_data = new int[size]; MPI_Request* send_request = new MPI_Request[size]; MPI_Request* recv_request =new MPI_Request[size]; for (int r = 0; r < size; ++r) { if (r != rank) { send_data[r] = rank*1000 + r; MPI_Isend(&send_data[r], 1, MPI_INT, r, TAG_MESSAGE, MPI_COMM_WORLD, &send_request[r]); MPI_Irecv(&recv_data[r], 1, MPI_INT, r, TAG_MESSAGE, MPI_COMM_WORLD, &recv_request[r]); } }
else { send_request[r] = MPI_REQUEST_NULL; recv_request[r] = MPI_REQUEST_NULL; } int received = 0; do { int r; MPI_Waitany(size, recv_request, &r, MPI_STATUS_IGNORE); printf("%i recibio mensaje '%i' desde %i\n", rank, recv_data[r], r); ++received; } while (received < size - 1); delete [] recv_request; delete [] send_request; delete [] recv_data; delete [] send_data; MPI_Finalize(); return 0; }
25/10/11
21/34
La nueva funcin utilizada es: MPI_Waitany(<request_count>, <pointer_to_requests>, <pointer_to_int>, MPI_STATUS_IGNORE) Espera a que se complete una solicitud de un arreglo de solicitudes. El nmero de solicitud cumplida se almacena en <pointer_to_int>.
25/10/11
22/34
Ejecucin en un cluster
Ejecucin en un cluster
Necesitamos un archivo hosts compute-0-0.local compute-0-1.local compute-0-2.local compute-0-3.local
Ejemplo de archivo de hosts
De esta forma se ejecutara una instancia del programa (proceso) en cada computadora esclavo.
compute-0-0.local
Procesador Procesador Memoria
Tarjeta de red
compute-0-1.local
Procesador Procesador Memoria
Tarjeta de red
master.local
Procesador Procesador Memoria
Tarjeta de red Tarjeta de red
Switch de red
Tarjeta de red Tarjeta de red
Red externa
compute-0-2.local
compute-0-3.local
25/10/11 23/34
Ejecucin en un cluster
Usando OpenMPI se usa el archivo hosts con el formato: master.local slots=1 compute-0-0.local slots=2 compute-0-1.local slots=2 compute-0-2.local slots=2 compute-0-3.local slots=2 La ejecucin sera:
mpiexe -n 9 -hostfile hosts <ejecutable>
25/10/11 24/34
Ejecucin en un cluster
25/10/11
25/34
GNU-Linux/Unix
Tenemos que ejecutar el GDB de tal manera que sea ste el que llame nuestro programa. Para hacer esto visualmente ms cmodo, vamos a ejecutar cada instacia del GDB en una ventana diferente. Primero hay que crear un archivo con los comandos para inicializar el GDB. Por ejemplo, el archivo gdb.txt pone breakpoints en las funciones Master y Slave, adems ejecutar el programa utilizando in.dat y out.dat como argumentos.
b Master b Slave r in.dat out.dat
Para correr tres instancias de un programa llamando al GDB tres veces, cada una en una terminal diferente:
mpiexec -n 3 xterm -e gdb -q -tui -x gdb.txt ./Programa
25/10/11
27/34
25/10/11
28/34
Windows
Tenemos que ejecutar el Visual Studio varias veces, una vez por cada instancia del programa. Para depurar es necesario que el cdigo fuente del programa est ubicado en el directorio donde se compilo el programa. Hay que crear un archivo batch que contenga los parametros, la ruta del ejecutable, etc.
@echo off set MPI = "c:\Program Files\MPICH2\bin\mpiexec.exe" set IDE = "c:\Program Files\Visual Studio\Common7\IDE\VCExpress.exe" set EXE = "c:\Development\Program.exe" set IN = "c:\Development\test\in.dat" set OUT= "c:\Development\test\out.dat" %MPI% -n 3 %IDE% /SafeMode /debugexe %EXE% %IN% %OUT%
La base de datos de smbolos del programa (archivo .pdb) debe estar en el mismo directorio que el ejecutable.
25/10/11
29/34
25/10/11
30/34
101.4
100.0
80.0
67.1
Time [s]
49.9
45.9
48.8
60.0
40.0
La memoria total: 13,438,244,806 [bytes] Memoria nodo maestro: 308,703,548 [bytes] Memoria en nodos esclavo: 486,279,305 [bytes]
25/10/11
20.0
0.0 1 2 4 6 8
Threads
31/34
Sistemas grandes
Sistemas grandes
Ecuaciones 3,970,662 14,400,246 32,399,048 41,256,528 63,487,290 78,370,466 82,033,206
6
5.6
PCs 13 13 15 15 29 29 29
5
4.9
5.1
Tiempo [horas]
2.4
2
1.6
1
0.9
0.1
3,970,662
14,400,246
32,399,048
41,256,528
63,487,290
78,370,466
82,033,206
Nmero de ecuaciones
25/10/11
32/34
Preguntas?
Preguntas?
25/10/11
33/34
Bibliografa
Bibliografa
[Ster95]T. Sterling, D. J. Becker, D. Savarese, J. E. Dorband, U. A. Ranawake, C. V. Packer. BEOWULF: A Parallel Workstation For Scientific Computation. Proceedings of the 24th International Conference on Parallel Processing, 1995. [MPIF08]Message Passing Interface Forum. MPI: A Message-Passing Interface Standard, Version 2.1. University of Tennessee, 2008.
25/10/11
34/34