Está en la página 1de 56

COMPUTACIN DE ALTA PERFORMANCE

Curso 2012
Sergio Nesmachnow (sergion@fing.edu.uy) Santiago Iturriaga (siturria@fing.edu.uy) Grupo de Procesamiento Paralelo Aplicado Centro de Clculo
COMPUTACIN DE ALTA PERFORMANCE 2012
1

INTRODUCCIN

CALENDARIO
Martes y jueves de 17 a 19:00 horas Saln B11 Aulario Faro Comienzo del curso: 7 de agosto 2012. Fin del curso: diciembre de 2012. 30 horas de exposiciones tericas. 20 horas de trabajo prctico. 10 crditos.

COMPUTACIN DE ALTA PERFORMANCE 2012

INTRODUCCIN

OBJETIVOS DEL DEL CURSO CURSO OBJETIVOS


Presentar los fundamentos de la computacin de alto desempeo y su aplicacin para la resolucin eficiente de problemas con grandes requisitos de cmputo y en escenarios realistas. Introducir los conceptos bsicos de la computacin paralela y distribuida. Presentar conceptos, tcnicas y herramientas de desarrollo de aplicacin inmediata en la practica. Capacitar al estudiante para la resolucin de problemas complejos aplicando tcnicas de computacin de alto desempeo.

COMPUTACIN DE ALTA PERFORMANCE 2012

INTRODUCCIN

INTRODUCCIN
Importancia de poder satisfacer los requisitos crecientes de poder de cmputo
Problemas complicados. Modelos complejos. Grandes volmenes de datos. Capacidad de respuesta en tiempo limitado (sistemas de tiempo real).

Procesamiento paralelo
Varios procesos cooperan para resolver problema comn. Aplicacin de tcnicas de divisin de tareas o de datos para reducir el tiempo de ejecucin de un proceso o una aplicacin, mediante la resolucin simultnea de algunos de los subproblemas generados.

COMPUTACIN DE ALTA PERFORMANCE 2012

INTRODUCCIN

INTRODUCCIN
Computador paralelo
Conjunto de procesadores capaces de trabajar cooperativamente en la resolucin de problemas computacionales. La definicin incluye un amplio espectro: supercomputadoras, procesadores masivamente paralelos (MPP), clusters, etc. Caracterstica fundamental: disponibilidad de mltiples recursos de cmputo.

Computacin de alto desempeo


Ha dejado de ser extica. Posibilitada por avances en diferentes tecnologas: Poder de procesamiento (microprocesadores). Redes (comunicacin de datos). Desarrollo de bibliotecas e interfaces para programacin.

COMPUTACIN DE ALTA PERFORMANCE 2012

INTRODUCCIN

EVOLUCIN TECNOLGICA

Collosus 2 (UK), primer computador paralelo: 50.000 op/s. 1938 1948 Zuse Z1 (Ale), primer computador mecnico: 1 op/s. 1946

IBM NORC (Columbia U, USA), reloj de 1 s., 67.000 op/s. 1954

1964

ENIAC (USA), 5.000 op/s.

IBM 7030 Stretch (LANL, USA), 1.2 MFLOPS.

COMPUTACIN DE ALTA PERFORMANCE 2012

INTRODUCCIN

EVOLUCIN TECNOLGICA

M-13 (Nauchno-Issledovatesky Institute Vychislitelnyh Kompleksov, URSS): 2.4 GFLOPS. 1985 1984 Cray-2/8 (LANL, USA), 3.9 GFLOPS. 1997 Intel ASCI Red/9152 (Sandia NL, USA, 1997): 1.338 TFLOPS.

COMPUTACIN DE ALTA PERFORMANCE 2012

INTRODUCCIN

EVOLUCIN TECNOLGICA

Incremento de poder de cmputo en GFlops (Top500, escala logartmica!).


COMPUTACIN DE ALTA PERFORMANCE 2012
8

INTRODUCCIN

EVOLUCIN TECNOLGICA
Similar comportamiento para otros indicadores.
Frecuencia de relojes. Densidad de circuitos en chips de procesadores. Capacidad de almacenamiento secundario. Capacidad de transmisin por bus/red.

Siguen el mismo comportamiento exponencial, con diferentes pendientes.

COMPUTACIN DE ALTA PERFORMANCE 2012

INTRODUCCIN

EVOLUCIN TECNOLGICA
Junio de 2008:
Petaflop supercomputer (Peta = 1015 = 1000000000000000). Roadrunner (LANL), 1.026 petaflop/s.
BladeCenter QS22 Cluster. PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz. Hbrido: 6,562 dual-core AMD Opteron y 12,240 Cell chips. 98 terabytes de memoria. 278 IBM BladeCenter racks (560 m2). 10,000 conexiones (Voltaire Infiniband y Gigabit Ethernet), 90 km de fibra ptica. IBM BlueGene/L (ANL), 478.2 teraflop/s. IBM BlueGene/P (ANL), 450.3 teraflop/s. Ranger SunBlade x6420 (U. of Texas), 326 teraflop/s. Jaguar Cray XT4 (ORNL), 205 teraflop/s.

Otros equipos del Top 5

COMPUTACIN DE ALTA PERFORMANCE 2012

10

INTRODUCCIN

EVOLUCIN TECNOLGICA

Roadrunner

COMPUTACIN DE ALTA PERFORMANCE 2012

11

INTRODUCCIN

EVOLUCIN TECNOLGICA
Junio de 2010:
Jaguar (Oak Ridge National Laboratory, USA), 1.75 petaflop/s.
Pico terico: 2.7 petaflop/s. Cray XT5-HE Cluster. 37.376 AMD x86, 64 bits, Opteron Six Core 2.6 GHz. 299 terabytes de memoria. 224.162 ncleos. 10.000 TB de disco, red de 240 Gb/s.

Nebulae (National Supercomputing Centre, China), 1.27 petaflop/s.


Pico terico: 2.98 petaflop/s. Dawning TC3600 Blade. Hbrido: cuad-core Intel X5650 y 4.640 NVidia Tesla C2050 GPU . 120.640 ncleos.

COMPUTACIN DE ALTA PERFORMANCE 2012

12

INTRODUCCIN

EVOLUCIN TECNOLGICA

Jaguar

COMPUTACIN DE ALTA PERFORMANCE 2012

13

INTRODUCCIN

EVOLUCIN TECNOLGICA
Julio de 2011:
K computer (RIKEN Advance Institute for Computational Science, Japn) Pico de desempeo real (LINPACK): 8.1 petaflops. Pico terico: 8.8 petaflop/s. Fujistsu cluster. 68.544 SPARC64 VIIIfx procesadores, 8-core. 1032 terabytes de memoria. 548.352 ncleos de procesamiento. Red de interconexin seis-dimensional (Tofu), interfaz basada en Open MPI. Sistema operativo basado en Linux. File system paralelo basado en Lustre, optimizado para escalar hasta varios cientos de petabytes.

COMPUTACIN DE ALTA PERFORMANCE 2012

14

INTRODUCCIN

EVOLUCIN TECNOLGICA

Kei

COMPUTACIN DE ALTA PERFORMANCE 2012

15

INTRODUCCIN

EVOLUCIN TECNOLGICA
Junio de 2012:
Sequoia (DOE/NNSA/LLNL, EUA) Pico de desempeo real (LINPACK): 16.3 petaflops. Pico terico: 20.1 petaflop/s. IBM cluster. 1572864 cores. 1572 terabytes de memoria. Propietaria. Sistema operativo basado en Linux.

COMPUTACIN DE ALTA PERFORMANCE 2012

16

INTRODUCCIN

EVOLUCIN TECNOLGICA: ARQUITECTURAS

COMPUTACIN DE ALTA PERFORMANCE 2012

17

INTRODUCCIN

EVOLUCIN TECNOLGICA: SISTEMAS OPERATIVOS

COMPUTACIN DE ALTA PERFORMANCE 2012

18

INTRODUCCIN

INFRAESTRUCTURA
La tecnologa ha avanzado, permitiendo disponer de mquinas paralelas caseras.
Clusters de computadores de bajo costo.

Internet surge como una fuente potencial de recursos de computacin ilimitados.


Internet 2 ampla la banda y la potencia de comunicacin entre equipos.

Se ha desarrollando la tecnologa grid (y recientemente cloud):


Permiten compartir recursos informticos (locales o remotos) como si fueran parte de un nico computador. Brinda capacidad de gestionar y distribuir la potencia de clculo disponible en la mediana empresa. Empresas de renombre e investigadores trabajan en diseo de soluciones tecnolgicas en este sentido.

COMPUTACIN DE ALTA PERFORMANCE 2012

19

INTRODUCCIN

INFRAESTRUCTURA
Las alternativas mencionadas constituyen opciones realistas para tratar de lograr capacidad de cmputo competitivo.
Obviamente, sin llegar a los lmites de los mejores supercomputadores del Top500.

Sin embargo, permiten resolver problemas interesantes en los entornos acadmicos, industriales y empresariales, con una infraestructura de bajo costo.

COMPUTACIN DE ALTA PERFORMANCE 2012

20

INTRODUCCIN

EL CLUSTER FING
Infraestructura de cmputo de alto desempeo de la Facultad de Ingeniera.
Llamado CSIC Fortalecimiento de Equipamientos para la Investigacin (2008). Objetivo: disponer de una plataforma computacional capaz de abordar eficientemente problemas complejos. Pgina web http://www.fing.edu.uy/cluster

COMPUTACIN DE ALTA PERFORMANCE 2012

21

INTRODUCCIN

CLUSTER FING: ESTRUCTURA


Originalmente: 9 servidores de cmputo Quad core Xeon E5430, 2x6 MB cach, 2.66GHz, 1.333 MHz FSB. 8 GB de memoria por nodo. Adaptador de red dual (2 puertos Gigabit Ethernet). Arquitectura de 64 bits. Servidor de archivos: 2 discos de 1 TB, capacidad ampliable a 10 TB. Nodos de cmputo: discos de 80 GB. Switch de comunicaciones Dell Power Connect, 24 puertos Gigabit Ethernet. Switch KVM (16 puertos) y consola. UPS APC Smart RT 8000VA.
COMPUTACIN DE ALTA PERFORMANCE 2012
22

INTRODUCCIN

CLUSTERS

COMPUTACIN DE ALTA PERFORMANCE 2012

23

INTRODUCCIN

CLUSTER FING: ESTRUCTURA


En 2009 se incorpor la infraestructura del cluster Medusa.
6 SUN Fire X2100, Opteron Dual Core, 2 GB RAM c/u.

Ampliacin 2009:
4 HP Proliant DL180 G6, con dos procesadores Quad Core Intel Xeon serie E5520, 2.26 GHz., memoria RAM 24 GB, DDR3 1066 MHz., 2 puertos Gigabit Ethernet, almacenamiento local 60 GB SATA2.

Tesla GPU server:


Dos procesadores Quad Core Intel Xeon serie E5530, 2.66 GHz., memoria RAM 48 GB DDR3 1333 MHz., 2 puertos Gigabit Ethernet, almacenamiento local 1 TB SATA2. Cuatro tarjetas C1060 (total 960 ncleos de 1.33 GHz), 4GB de RAM por tarjeta (teraflop multi-core processor).

TOTAL: 1088 ncleos de procesamiento


128 ncleos de CPU y 960 ncleos de GPU. 6 TB de espacio til de disco y 30 kVA de respaldo de batera.
COMPUTACIN DE ALTA PERFORMANCE 2012
24

INTRODUCCIN

CLUSTER FING: ESTRUCTURA


En 2010 se incorporaron nuevos servidores de cmputo. Ampliacin 2010:
2 HP con dos procesadores AMD Opteron 6172, 12 ncleos de 2.1 GHz., memoria RAM 24 GB, DDR3 1066 MHz., 2 puertos Gigabit Ethernet, almacenamiento local 500 GB SATA2.

TOTAL: 1136 ncleos de procesamiento


176 ncleos de CPU y 960 ncleos de GPU. 9 TB de espacio til de disco. 15 TB en breve, en 30 TB de espacio con RAID. 30 kVA de respaldo de batera.

COMPUTACIN DE ALTA PERFORMANCE 2012

25

INTRODUCCIN

CLUSTER FING: ESTRUCTURA


Ampliacin 2011:
7 servidores HP Proliant DL180 G6, con dos procesadores AMD Magny Cours (12 cores por procesador), 2.26 GHz., memoria RAM 48 GB.

24 servidores de cmputo (Dell Power Edge 2950, HP Proliant DL180) con procesadores Intel Xeon quad core y AMD Magny Cours, 12 cores) 1 Tesla GPU server (procesadores Xeon quad core y 4 NVIDIA C1060 [960 ncleos de 1.33 GHz.]) TOTAL: 1364 ncleos de procesamiento 404 ncleos de CPU y 960 ncleos de GPU. 880 GB de memoria RAM +30 TB de almacenamiento RAID, 30 kVA de respaldo de batera

Pico terico de desempeo aproximado de 4000 GFLOPS (41012 operaciones de punto flotante por segundo), el mayor poder de cmputo disponible en el pas.
COMPUTACIN DE ALTA PERFORMANCE 2012
26

INTRODUCCIN

http://www.fing.edu.uy/cluster

COMPUTACIN DE ALTA PERFORMANCE 2012

27

INTRODUCCIN

CLUSTER FING: UTILIZACIN


indicador nmero de usuarios horas efectivas de cmputo proyectos acadmicos tesis de posgrado grupos de investigacin proyectos y trabajos de grado convenios artculos publicados 150 1.800.000 ( 206 aos) > 30 > 30 Maestra y >12 Doctorado > 22 > 60 >5 75 valor

Estadsticas a julio de 2012


COMPUTACIN DE ALTA PERFORMANCE 2012 INTRODUCCIN

28

LOS PROBLEMAS TAMBIN CRECEN


Requerimientos computacionales de problemas complejos.

COMPUTACIN DE ALTA PERFORMANCE 2012

29

INTRODUCCIN

PROCESAMIENTO PARALELO
En este contexto se ha desarrollado activamente el procesamiento paralelo.
Basado en el estudio en Universidades e Institutos. Aplicado directamente en la industria, organismos cientficos y las empresas.

La evolucin de la aplicacin del paralelismo puede resumirse en:


Paralelismo a nivel de bits (4, 8, 16 bits). Se reduce a partir de 32 bits (hoy 64 bits). Paralelismo a nivel de instrucciones. Pipelining, superescalar, ejecucin fuera de orden, ejecucin especulativa, prediccin de saltos.

COMPUTACIN DE ALTA PERFORMANCE 2012

30

INTRODUCCIN

PROCESAMIENTO PARALELO
Evolucin de la aplicacin del paralelismo.
Paralelismo a travs de hilos (multithreading). Programacin paralela. Sobre supercomputadores. Sobre mquinas paralelas de bajo costo.

El desarrollo de las redes de computadoras ha permitido otro avance importante.


Procesamiento distribuido. Grid computing y cloud computing.

COMPUTACIN DE ALTA PERFORMANCE 2012

31

INTRODUCCIN

PROCESAMIENTO DISTRIBUIDO
Conceptos
Procesadores independientes. Autonoma de procesamiento. Interconexin. Habitualmente mediante redes. Cooperacin. Para lograr un objetivo global. Datos compartidos. Varios repositorios de datos. Sincronizacin. Frecuentemente a travs del pasaje explcito de mensajes.

COMPUTACIN DE ALTA PERFORMANCE 2012

32

INTRODUCCIN

PROCESAMIENTO DISTRIBUIDO
Grados de distribucin.
Hardware y procesamiento. Datos o Estado. Control.

La distribucin puede ser compleja de manejar, frecuentemente se necesitan herramientas especializadas:


Sistemas Operativos de Red. Sistemas Operativos Distribuidos. Bibliotecas de desarrollo.

COMPUTACIN DE ALTA PERFORMANCE 2012

33

INTRODUCCIN

PROCESAMIENTO PARALELO
Ventajas:
Mayor capacidad de proceso. Permite ampliar objetivos y campo de trabajo. Permite abordar problemas de mayor complejidad. Permite mejorar calidad y fiabilidad de los resultados. Aumento directo de competitividad. Menor tiempo de proceso. Proporciona ms tiempo para otras etapas de desarrollo del producto. Permite hacer frente a sistemas crticos. Reduccin de costos. Aprovechar la escalabilidad potencial de recursos.

COMPUTACIN DE ALTA PERFORMANCE 2012

34

INTRODUCCIN

PROCESAMIENTO DISTRIBUIDO
Ventajas:
Mejora en desempeo. Se dispone de mayor cantidad de procesadores. Robustez. Dada por la mayor disponibilidad de recursos. Seguridad no centralizada Deben manejarse cuidadosamente las polticas. Una situacin catica evidentemente es una desventaja. Acceso transparente a los datos no locales. Mecanismos y protocolos para compartir y acceder a la informacin. Escalabilidad Potencialmente ilimitada

COMPUTACIN DE ALTA PERFORMANCE 2012

35

INTRODUCCIN

APLICACIONES
Amplia aplicabilidad en problemas cientficos. Industriales.
Qumica y bioingeniera. Estudio de estructuras moleculares, simulacin de reacciones, espectroscopa. Fluidodinmica. Anlisis de flujos, turbulencias y simulaciones. Mecnica Industrial Diseo asistido. Modelos de elementos finitos. Medicina Estudio del genoma, medicina farmacutica, radioterapia. Electromagnetismo Diseo de dispositivos de grabacin, instrumentos mdicos, tubos de rayos X, pantallas planas.

COMPUTACIN DE ALTA PERFORMANCE 2012

36

INTRODUCCIN

APLICACIONES
Comerciales
Telecomunicaciones Anlisis de trfico, desempeo y calidad de servicio. Redes de control inteligentes. Comercio electrnico Manejo transaccional en lnea. Servicios web. Buscadores paralelos (metabuscadores). Sistemas de tiempo real. Bases de datos paralelas. Anlisis de datos. Data mining. Anlisis de mercado, series temporales, etc.

COMPUTACIN DE ALTA PERFORMANCE 2012

37

INTRODUCCIN

APLICACIONES
Investigacin.
Simulaciones espaciales. Estudios atmicos. SETI. Inteligencia artificial.

Recreacin.
Simulaciones tridimensionales y realidad virtual. Cine: actores virtuales. Multimedia: procesamiento de voz e imgenes. Computacin grfica y videojuegos.

COMPUTACIN DE ALTA PERFORMANCE 2012

38

INTRODUCCIN

CASO DE ESTUDIO 1
PREDICCIN CLIMTICA
Modelos climticos globales.
Dividir el mundo en una grilla (por ej., de 10 km de paso). Resolver las ecuaciones de fluidodinmica para cada punto y tiempo.

Requiere un mnimo de 100 Flops por punto por minuto. Prediccin del tiempo (7 das, cada 24 horas): 56 GFLOPS. Prediccin climtica (50 aos, cada 30 das): 4.8 TFLOPS. Perspectiva:
En un computador tradicional con procesador de 3GHz (10 GFLOPS) la prediccin climtica demandara del orden de 100 aos de tiempo de cmputo.

Es necesario disponer de estrategia ms potentes para el anlisis.

COMPUTACIN DE ALTA PERFORMANCE 2012

39

INTRODUCCIN

CASO DE ESTUDIO 2
ANLISIS DE DATOS
Hallar informacin oculta en grandes cantidades de datos. Qu motivos existen para husmear en grandes cantidades de datos?
Existen dolencias inusuales en los habitantes de una ciudad? Qu clientes son ms propensos a tratar de hacer fraude al seguro de salud? Cundo conviene poner en oferta la cerveza? Qu tipo de publicidad enviar a un cliente?

Recoleccin de datos:
Sensores remotos en un satlite

Telescopios Microarrays generando data de genes Simulaciones generando terabytes de datos Espionaje
INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2012

40

CASO DE ESTUDIO 2
ANLISIS DE DATOS
La informacin se descubre mediante un proceso sistemtico. Anlisis estadstico de los datos, comparaciones y relaciones para detectar tendencias, identificar situaciones o hechos inusuales. El tiempo de procesamiento es creciente con respecto al volumen de datos. Ciertos problemas pueden ser inabordables con los algoritmos de la computacin secuencial tradicional. Se hace necesario disponer de mtodos ms potentes para el anlisis.

COMPUTACIN DE ALTA PERFORMANCE 2012

41

INTRODUCCIN

CASO DE ESTUDIO 3
ANLISIS DE DATOS: PAGERANK DE GOOGLE
PageRank: familia de algoritmos utilizados para asignar numricamente la relevancia de los documentos (o pginas web) indexados por un motor de bsqueda. Se basa en la naturaleza democrtica de la web
Un enlace de una pgina A a una pgina B se interpreta como un voto, de la pgina A, para la pgina B.

Tambin se analiza la pgina que emite el voto


Los votos emitidos por las pginas importantes [con PageRank elevado], valen ms, y ayudan a hacer a otras pginas "importantes".

COMPUTACIN DE ALTA PERFORMANCE 2012

42

INTRODUCCIN

CASO DE ESTUDIO 3
ANLISIS DE DATOS: PAGERANK DE GOOGLE
valores de PageRank que tienen las pginas que enlazan a A. factor de amortiguacin 0.85, probabilidad de que un navegante contine pulsando links nmero de enlaces salientes de la pgina i (sean o no hacia A).

El PageRank no se actualiza instantneamente, ni siquiera diariamente, [tarda varios das en completarse]. Las timas actualizaciones del Pagerank fueron en: 30/1 al 2/2 de 2012 y 30/6 al 2/7 de 2012. Datos:
1.000 millones de pginas en 1999 (estimado). 30.000 millones en 2005 (Yahoo). 90.000 millones en 2007 (estimado Google). Google dej de reportar luego de indicar que indexaba 8.000 millones. +30.000 millones de pginas indexadas (estimado 2012).
43

COMPUTACIN DE ALTA PERFORMANCE 2012

INTRODUCCIN

CASO DE ESTUDIO 4
SETI @HOME
Giordano Bruno (1548-2000): hay vida en otros mundos. Resultado: la hoguera !! Carl Gauss (1777-1855): comunicacin con la luna. Resultado: sin financiacin. Joseph Von Litron (1840): crculo de fuego Resultado: sin financiacin. Charles Cros (1869): espejo gigante. Resultado: sin financiacin. Voyager (1977): placa de oro
trigo

tierra agua

COMPUTACIN DE ALTA PERFORMANCE 2012

44

INTRODUCCIN

CASO DE ESTUDIO 4
SETI @HOME
Nikola Tesla (1899) anunci seales coherentes desde Marte Guglielmo Marconi (1920) detect seales extraas desde el espacio Frank Drake (1960): Proyecto Ozma, busc en el canal de 1420-1420.4 MHz SETI (Search for ExtraTerrestrial Intelligence)
Universidad de California (desde 1971). Utiliza mtodos cientficos para la bsqueda de emisiones electromagnticas por parte de civilizaciones en planetas lejanos.

COMPUTACIN DE ALTA PERFORMANCE 2012

45

INTRODUCCIN

CASO DE ESTUDIO 4
SETI @HOME
Avances en SETI
Correccin del efecto Doppler coherente.
Ancho de canal ms fino, incrementa la sensitividad.

Resolucin variable de ancho de banda y tiempo Bsqueda de mltiples tipos de seales.


Anlisis de distribucin Gaussiana. Bsqueda de pulsos repetidos.

Problema: requiere TFLOPs de procesamiento Solucin: computacin paralela/distribuida. SETI@HOME: usa tiempo de cmputo donado voluntariamente por usuarios en todo el mundo para ayudar a analizar los datos recabados por los radiotelescopios.

COMPUTACIN DE ALTA PERFORMANCE 2012

46

INTRODUCCIN

CASO DE ESTUDIO 4
SETI @HOME
Divisin del dominio de cmputo. Distribucin de datos. Anlisis distribuido. Reporte de resultados.

COMPUTACIN DE ALTA PERFORMANCE 2012

47

INTRODUCCIN

CASO DE ESTUDIO 4
SETI @HOME
Estadsticas (2010)
Ms de 5 millones de usuarios (mayor nmero para un proyecto de computacin distribuida). Ms de 3 millones de computadores en 234 pases. Ms de medio milln de personas participan diariamente. En 2001, SETI@home sobrepas el nmero de 1021 operaciones de punto flotante (el cmputo ms largo de la historia segn Guinness World Records). En 2009, SETI@home tena una capacidad de cmputo mayor a 800 TFLOPS. 1000 aos de tiempo de cmputo por da. Ms de dos millones de aos de tiempo de cmputo agregado. Se procesan seales 10 veces ms dbiles que las de 1980-1990.

Ha sido el punto de partida para muchos proyectos similares


Folding@home, Einstein@home, MilkyWay@home, Rosetta@home, etc.
COMPUTACIN DE ALTA PERFORMANCE 2012
48

INTRODUCCIN

CASO DE ESTUDIO 5
INTERACCIN ENTRE PARTCULAS
N-body problem
Predecir el movimiento de un conjunto de partculas y sus interacciones.

Aplicaciones:
Astronoma (movimiento de cuerpos celestes) y fsica (medios granulares). Computacin grfica (iluminacin). Termodinmica (radiacin trmica).

Inconveniente: sistemas complejos involucran millones de partculas. Solucin: paralelismo de procesamiento simtrico
Utilizando procesadores grficos (GPU).

COMPUTACIN DE ALTA PERFORMANCE 2012

49

INTRODUCCIN

CASO DE ESTUDIO 5
INTERACCIN ENTRE PARTCULAS
Solucin en GPU con CUDA
Utiliza el poder de cmputo de los procesadores grficos. Procesamiento matricial, grandes sistemas lineales.

COMPUTACIN DE ALTA PERFORMANCE 2012

50

INTRODUCCIN

APLICACIONES
reas de aplicacin (Top500, julio de 2011)

sistemas

performance

COMPUTACIN DE ALTA PERFORMANCE 2012

51

INTRODUCCIN

APLICACIONES
Sectores de aplicacin (Top500, julio de 2011)
Segments Academic Classified Government Industry Research Vendor Totals Count 79 8 16 285 105 7 500 sistemas Share % 15.80 % 1.60 % 3.20 % 57.00 % 21.00 % 1.40 % 100% Rmax Sum (GF) 10258602 752813 1060789 15222240 31113640 521941 58930025.59 Rpeak Sum (GF) Processor Sum 15254518 974331 1686243 25767492 40809541 687823 85179949.00 1205160 100464 154460 2450854 3813010 55976 7779924

performance

COMPUTACIN DE ALTA PERFORMANCE 2012

52

INTRODUCCIN

APLICACIONES
Utilizar herramientas de desarrollo, simulacin y optimizacin que utilicen paralelismo permite:
Reducir el tiempo necesario para desarrollar, analizar y optimizar diversas alternativas de diseo. Obtener resultados ms precisos. Abordar casos realistas y escenarios extremos. Analizar alternativas de diseo que en otro caso resultaran intratables.

En definitiva, las tcnicas de procesamiento posibilitan obtener resultados ms precisos de un modo eficiente en la resolucin de instancias difciles de problemas complejos.

COMPUTACIN DE ALTA PERFORMANCE 2012

53

INTRODUCCIN

APLICACIONES
RESUMEN
Procesamiento paralelo de gran porte Aplicaciones cientficas. Manejo de enormes volmenes de datos. Procesamiento paralelo de mediano porte Aplicaciones comerciales. Procesamiento transaccional financiero. Bases de datos distribuidas. Programas multithreading. Aplicaciones de escritorio. Procesamiento distribuido. Internet, grid y cloud, web services.

COMPUTACIN DE ALTA PERFORMANCE 2012

54

INTRODUCCIN

CONSIDERACIONES IMPORTANTES
DISEO del HARDWARE
Tecnologa, poder y cantidad de los elementos de procesamiento. Conectividad entre elementos.

MECANISMOS de PROGRAMACIN
Abstracciones y primitivas para cooperacin. Mecanismos de comunicacin.

La clave es la integracin de estos aspectos para obtener un mejor desempeo computacional en la resolucin de aplicaciones

COMPUTACIN DE ALTA PERFORMANCE 2012

55

INTRODUCCIN

COMPUTACIN DE ALTO DESEMPEO


Aspectos relevantes:
Arquitecturas de computadores paralelos. Modelos de programacin. Diseo de algoritmos eficientes. Medidas para evaluar los algoritmos paralelos. Lenguajes y bibliotecas para programacin paralela y distribuida. Tendencias tecnolgicas actuales de diseo y programacin.

SERN LOS ASPECTOS A ABORDAR A LO LARGO DEL CURSO

COMPUTACIN DE ALTA PERFORMANCE 2012

56

INTRODUCCIN