Tema1 2017

COMPUTACIN DE ALTA
PERFORMANCE
Curso 2017
Sergio Nesmachnow (sergion@fing.edu.uy)
Santiago Iturriaga (siturria@fing.edu.uy)
Nstor Rocchetti (nrocchetti@fing.edu.uy)
Centro de Clculo
COMPUTACIN DE ALTA PERFORMANCE 2017 1 INTRODUCCIN

OBJETIVOS DEL
DEL CURSO
CURSO
Presentar los fundamentos de la computacin de alto desempeo y su

aplicacin para la resolucin eficiente de problemas con grandes
requisitos de cmputo y en escenarios realistas.
Introducir los conceptos bsicos de la computacin paralela y distribuida.
Presentar conceptos, tcnicas y herramientas de desarrollo de aplicacin

inmediata en la practica.
Capacitar al estudiante para la resolucin de problemas complejos

aplicando tcnicas de computacin de alto desempeo.

CALENDARIO
Martes y jueves de 17 a 18:30 horas
Saln 725 (Gris). Piso 7, cuerpo central.
Facultad de Ingeniera
Comienzo del curso: 7 de marzo 2016

Fin del curso: julio de 2016
30 horas de exposiciones tericas

20 horas de trabajo prctico
10 crditos

DIFUSIN
Pgina web del curso: http://www.fing.edu.uy/inco/cursos/hpc

Grupo del curso (Google groups): groups.google.com/hpcfing-2017
TEMARIO DEL CURSO
El curso est dirigido a estudiantes, investigadores y profesionales de
cualquier rea tcnica, que se enfrentan con problemas con altos requisitos
de clculo y procesamiento.
El curso es autocontenido y puede ser realizado por participantes que no
necesariamente hayan tenido contacto anterior con el tema.
Temario:
Introduccin
Descripcin de arquitecturas paralelas
Modelos de programacin paralela
Medidas de performance
Estudio de lenguajes, bibliotecas y entornos de desarrollo de aplicaciones
paralelas y distribuidas
Tecnologas actuales: servicios, computacin grid y cloud
Anlisis de proyectos desarrollados en el rea: proyectos desarrollados en el
Grupo de Procesamiento Paralelo Aplicado y charlas de invitados especiales
DETALLES COMPLEMENTARIOS
APROBACIN DEL CURSO

Trabajos prcticos
Ejercicios para aplicar las tcnicas estudiadas.
Lenguaje C, bibliotecas PVM MPI, otras tecnologas.
Proyecto final
Pequeo proyecto que aplicar las tcnicas estudiadas.
Lenguaje C, bibliotecas PVM MPI, otras tecnologas.
Artculo de sntesis
Descripcin de actividades del proyecto.

BIBLIOGRAFA
Designing and Building Parallel Programs: Concepts and Tools for
Parallel Software Engineering, Ian Foster, Addison-Wesley, 1995.
Disponible en http://www-unix.mcs.anl.gov/dbpp/
El sitio forma parte de un proyecto que

incluye:
El contenido del libro Designing and Building
Parallel Programs.
Una coleccin de herramientas pblicas para
programacin paralela.
Un conjunto de enlaces web para acceder a
informacin sobre computacin paralela.
Otros recursos educativos.

BIBLIOGRAFA
PVM: A User's Guide and Tutorial for Networked Parallel Computing, A.
Geist et al. (Editores), MIT Press, 1994.
Using MPI. Portable Parallel Programming with the Message Passing
Interface, W. Gropp, E. Lusk, A. Skjellum, MIT Press, 1994 y 1999.

COMPUTACIN DE ALTA PERFORMANCE
(los asombrosos 80 aos)
Intel ASCI Red/9152 (Sandia NL, USA, 1997):

1012 operaciones/s. Sunway TaihuLigth (China, 2017):
931015 operaciones/s.
Jaguar (LANL, USA, 2010): 1015 operaciones/s.
M-13 (Nauchno-Issledovatesky Institute Vychislitelnyh

Kompleksov, URSS, 1984): 109 operaciones/s.
IBM 7030 "Stretch (LANL, USA, 1961):

106 operaciones/s.
Colossus Mark 2 (UK, 1946):

5.000 operaciones/s.
TEMA 1
INTRODUCCIN a la COMPUTACIN
de ALTA PERFORMANCE

PARADIGMAS de COMPUTACIN
Paradigmas:
o Computacin centralizada
o Computacin paralela
o Computacin distribuida
Categoras NO estrictamente disjuntas entre s

Conceptualmente, tomando en cuenta la utilizacin de infraestructura y
mecanismos de diseo, implementacin y ejecucin, los enfoques
opuestos son los de computacin centralizada y computacin distribuida
El campo de la computacin paralela se superpone con el de computacin
distribuida.
Los recientes paradigmas de computacin en cloud son un tipo particular
de computacin distribuida.

COMPUTACIN CENTRALIZADA
Caracterizada por poseer todos los recursos centralizados en un nico
sistema fsico. Cmputo, memoria y almacenamiento estn compartidos y
se encuentran fuertemente acoplados con un nico sistema operativo.
El procesamiento de datos se realiza en una ubicacin central, con acceso a
la infraestructura mediante terminales conectadas al computador central.
El manejo de los perifricos es directo desde el computador central (puede
existir cierta independencia para manejarlos por un servidor de terminales),
centralizado o distribuido en una red de rea local.

COMPUTACIN CENTRALIZADA
Principales ventajas:
o Gran seguridad: provee un mecanismo de control del procesamiento y acceso
a los datos centralizado en una ubicacin fsica
o Las terminales de acceso proveen un nivel bsico de tolerancia a fallos (datos
y procesamiento pueden estar disponibles desde terminales alternativas)
o Son sistemas sobredimensionados para tolerar picos de utilizacin: usuarios
cuentan con prestaciones superiores a las que necesitan sus aplicaciones
Principales desventajas:
o Disponibilidad y fiabilidad del computador central (controla procesamiento y
acceso a los datos). El sistema completo resulta inaccesible e inutilizable ante
una falla de control de la unidad central
o El paradigma depende fuertemente de la administracin y de los recursos
provistos a los usuarios. Al alcanzar los lmites de utilizacin (por limitaciones
fsicas o por exceder las capacidad de procesamiento multiusuario) no es
sencillo escalar las capacidades computacionales y/o de almacenamiento
o Costo elevado (millones USD)
COMPUTACIN CENTRALIZADA: HISTORIA
Domin el mundo de la computacin hasta la aparicin de las
computadoras personales a inicio de la dcada de 1980
Provee una solucin muy til para implementar sistemas multiusuario,
mediante mltiples accesos simultneos al recurso de cmputo
centralizado
Estuvo descartada como modelo de computacin durante 15 aos, y se
comenz a aplicar nuevamente para manejo transaccional de comercio
electrnico
A partir del 2000 el desarrollo de Linux permiti implementar soluciones
de cmputo basadas en la utilizacin de (cientos de) mquinas virtuales
en un nico mainframe y las infraestructuras de computacin
centralizada volvieron a la vida

Resurgi desde 2007 como alternativa para el acceso eficiente a recursos
de cmputo mediante clientes livianos que no requieren instalacin de
software pesado por parte del usuario
o Permite acceder a cmputos realizados en un servidor central y provee
amplia usabilidad de las aplicaciones desde mltiples dispositivos
La evolucin tecnolgica ha seguido oscilando: los desarrolladores
incluyen ms lgica en los clientes para aprovechar el poder de cmputo
disponible en los dispositivos, implementando clientes ricos que reducen
el cmputo remoto en los servidores
Los mainframes son an utilizados para cierto tipo de aplicaciones crticas
(transacciones financieras, aplicaciones de seguridad y defensa). El acceso
ya no es mediante dispositivos de tipo terminal sino usando emuladores
por software, a travs de interfaces de aplicacin web, o mediante
protocolos web especficos.

Modelos hbridos: la computacin centralizada sigue utilizndose hoy en
da en datacenters que emplean modelos hbridos
En un modelo hbrido, ciertas aplicaciones (e.g., navegadores web)
ejecutan localmente [distribuidas], accediendo a servicios proporcionados
por otras aplicaciones (en general, sistemas informticos ms complejos)
que ejecutan de forma centralizada en el datacenter
El modelo de hosted computing aplica computacin centralizada para
alojar cmputo y almacenamiento en poderosos servidores de hardware,
evitando a usuarios y organizaciones las responsabilidades de acceso,
mantenimiento y seguridad de la informacin
o Estos servicios se proveen bajo demanda y suscripcin por parte de un
proveedor de servicios de aplicacin (ASP)

COMPUTACIN PARALELA y DISTRIBUIDA
En lugar de emplear el modelo estndar de computacin utilizando un
nico recurso de procesamiento, aplican tcnicas de computacin
concurrente y paralelismo para abordar problemas complejos utilizando
mltiples recursos de cmputo simultneamente
Complejidad de problemas: gran escala y/o que manejan grandes
volmenes de datos
Se trabaja sobre un conjunto de recursos de cmputo interconectados
por una red de rea local (LAN) o de rea global (Internet)
Los sistemas de computacin paralela y distribuida estn enfocados en la
resolucin de problemas con requisitos intensivos de cmputo (CPU-
intensive) o con manejo de datos intensivo (data-intensive) y son
sistemas basados en comunicacin en redes (network centric)

COMPUTACIN PARALELA
Aplica un modelo de procesos concurrentes en ejecucin simultnea,
sobre una infraestructura computacional altamente acoplada que se
encuentra en una nica ubicacin fsica.
La cooperacin entre los procesos en ejecucin, con el objetivo de
resolver un problema global, se realiza mediante comunicaciones y
sincronizaciones, utilizando algn recurso compartido (mecanismos de
IPC, memoria compartida) o memoria distribuida (utilizando pasaje de
mensajes explcitos).
Un sistema computacional capaz de proveer el soporte para computacin
paralela se denomina computador paralelo. Los programas que ejecutan
en un computador paralelo utilizando mltiples procesos simultneos se
denominan programas paralelos, por oposicin a la computacin
secuencial tradicional. El proceso de desarrollar e implementar programas
paralelos se denomina programacin paralela.

COMPUTACIN PARALELA: MOTIVACIN
Importancia de poder satisfacer los requisitos crecientes de poder de
cmputo
Problemas inherentemente complicados
Modelos complejos
Grandes volmenes de datos
Capacidad de respuesta en tiempo limitado (sistemas de tiempo real)
Procesamiento paralelo
Varios procesos cooperan para resolver problema comn
Aplicacin de tcnicas de divisin de tareas o de datos para reducir el
tiempo de ejecucin de un proceso o una aplicacin, mediante la resolucin
simultnea de algunos de los subproblemas generados

COMPUTACIN PARALELA: INTRODUCCIN
Computador paralelo
Conjunto de procesadores capaces de trabajar cooperativamente en la
resolucin de problemas computacionales
La definicin incluye un amplio espectro: supercomputadoras, procesadores
masivamente paralelos (MPP), clusters, etc.
Caracterstica fundamental: disponibilidad de mltiples recursos de cmputo
Computacin de alto desempeo

Ha dejado de ser extica para ser ubicua
Posibilitada por avances en diferentes tecnologas:
Poder de procesamiento (microprocesadores)
Redes (comunicacin de datos)
Desarrollo de bibliotecas e interfaces para programacin

COMPUTACIN PARALELA: INTRODUCCIN
El tipo de problemas complejos para los cuales es apropiado aplicar el
paradigma de computacin paralela y distribuida incluye, entre otros:
o simulaciones que involucran modelos complejos y de gran escala;
o problemas cuya resolucin demanda grandes requisitos de CPU y/o
memoria;
o problemas y aplicaciones que manejan y procesan grandes (inclusive
enormes) volmenes de datos;
o aplicaciones que manejan y/o deben dar soporte a un gran nmero de
usuarios;
o aplicaciones y sistemas ubicuos y concurrentes basados en agentes.

La clave consiste en la utilizacin de mltiples recursos de cmputo
por parte de mltiples procesos que ejecutan concurrentemente, de
modo cooperativo para resolver un problema complejo comn
La cooperacin se logra a travs de comunicaciones y sincronizaciones
Los recursos de cmputo pueden organizarse en sistemas
interconectados por redes de rea local o de rea global, orientndose
a dos modelos especficos de computacin paralela/distribuida:
1. Sistemas de computacin de alta performance (HPC)
2. Sistemas de computacin de alto rendimiento (HTC)

SISTEMAS PARALELOS y DISTRIBUIDOS
Sistemas de computacin de alto desempeo/alta performance (HPC):
o utilizados para computacin cientfica
o enfatizan la importancia de la eficiencia (performance), considerando el
nmero de operaciones realizadas por unidad de tiempo
Han incrementado sus velocidades de procesamiento:
o 1990: GFLOPS (109 operaciones de punto flotante por segundo); 2010: TFLOPS
(1012); 2015: PFLOPS (1015); antes de 2020: EFLOPS (1018 ); bajo la demanda de
poder de cmputo para aplicaciones cientficas, ingeniera y manufactura.
En la actualidad, el nmero de usuarios de sistemas de HPC es bajo (10%),
pero con gran uso de recursos computacionales.
Por otra parte, un mayor nmero de usuarios utiliza algn tipo de
computacin distribuida en Internet para ejecutar aplicaciones simples:
bsqueda en la web, transacciones comerciales, redes sociales, etc.

SISTEMAS PARALELOS y DISTRIBUIDOS
Sistemas de computacin de alto rendimiento
(High Throughput Computing HTC)
Utilizados para aplicaciones de procesamiento transaccional masivo y

aplicaciones comerciales a gran escala
En la actualidad, el desarrollo de sistemas de computacin orientadas a

aplicaciones de mercado y de altas prestaciones est ms asociado con
el paradigma de HTC que con el de HPC

COMPUTACIN de ALTO DESEMPEO
Sistemas de computacin de alto desempeo/alta performance (HPC):
o utilizados para computacin cientfica
o enfatizan la importancia de la eficiencia (performance), considerando el
nmero de operaciones realizadas por unidad de tiempo
Propulsados por las mejoras e innovaciones tecnolgicas, han

incrementado sus velocidades de procesamiento:
o 1990: GFLOPS (109 operaciones de punto flotante por segundo)
o 2010: TFLOPS (1012)
o 2015: PFLOPS (1015)
o antes de 2020: EFLOPS (1018 )

EVOLUCIN TECNOLGICA
MEGAFLOP COMPUTER
IBM NORC (Columbia

Collosus 2 (UK), primer computador paralelo:
Univ, USA), reloj de 1
50.000 op/s
1938 1948 s., 67.000 op/s 1964
1946 1954
Zuse Z1 (Ale), primer ENIAC (USA), 5.000 op/s MEGAFLOP COMPUTER
computador mecnico: 1 op/s IBM 7030 Stretch
(LANL, USA), 1.2 MFLOPS

EVOLUCIN TECNOLGICA
Cray-2/8 (LANL, USA),
3.9 GFLOPS
GIGAFLOP
COMPUTER
1985-89
1984 1997
GIGAFLOP COMPUTER TERAFLOP COMPUTER
M-13 (Nauchno-Issledovatesky Institute Intel ASCI Red/9152 (Sandia NL,
Vychislitelnyh Kompleksov, URSS): 2.4 GFLOPS USA, 1997): 1.338 TFLOPS
TERAFLOP
COMPUTER

EVOLUCIN TECNOLGICA
Incremento de poder de cmputo (Top500, escala logartmica!)

EVOLUCIN TECNOLGICA
Similar comportamiento para otros indicadores
Frecuencia de relojes
Densidad de circuitos en chips de procesadores
Capacidad de almacenamiento secundario
Capacidad de transmisin por bus/red
Siguen el mismo comportamiento exponencial, con diferentes pendientes

EVOLUCIN TECNOLGICA
Junio de 2008: Petaflop supercomputer (Peta = 1015 = 1000000000000000)
Roadrunner (LANL, USA), 1.026 petaflop/s
BladeCenter QS22 Cluster, con PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz
Hbrido: 6,562 dual-core AMD Opteron y 12,240 Cell chips
98 terabytes de memoria, 278 IBM BladeCenter racks (560 m2)
10,000 conexiones (Infiniband y Gigabit Ethernet), 90 km de fibra ptica

EVOLUCIN TECNOLGICA
Julio de 2015: Tihanhe-2 (National University of Defense Technology, China)
Pico de desempeo real LINPACK: 33.86 petaflops
Intel cluster, pico terico: 54.9 petaflops
16.000 nodos, con dos procesadores Intel Xeon IvyBridge y tres Xeon Phi
3.120.000 ncleos y 1.024 terabytes de memoria
Red propietaria TH Express-2, sistema operativo Kylin Linux

EVOLUCIN TECNOLGICA
Julio de 2016: Sunway TaihuLight (National Supercomputing Center, China)
Pico de desempeo real LINPACK: 93 petaflops
Pico terico de desempeo: 125 petaflops
40.960 nodos, procesadores SW26010 manycore (260 ncleos),
arquitectura ShenWei (RISC de 64-bits).
10.649.600 ncleos y 1.310 terabytes de memoria

Sunway TaihuLight
40.960 nodos, procesadores SW26010 1.45GHz manycore (256 ncleos de
cmputo, 4 de administracin), arquitectura ShenWei (RISC de 64-bits)
10.649.600 ncleos, cada ncleo tiene 64 KB de memoria scratchpad (NUMA)
para datos y 12 KB para instrucciones.
Los ncleos se comunican por red en chip, y no por cach jerrquica tradicional
Red propietaria, Sunway Network: tecnologa PCIe 3.0
16 GB/s de pico de ancho de banda nodo a nodo, latencia de 1 s
Comunicaciones MPI a 12 GB/s (similar a InfiniBand EDR o 100G Ethernet)
Sistema operativo Raise OS 2.0.5, basado
en Linux.
Incluye versin personalizada de
OpenACC 2.0 para paralelizacin de cdigo

Sunway TaihuLight
Consumo energtico: con carga mxima, 15.37 MW (6 GFLOPS/Watt)
Primeros lugares en Green500 en trminos de performance/energa
Totalmente construida en China, no usa procesadores Intel
Aplicaciones: prospeccin de petrleo, ciencias de la vida, estudios
climticos, diseo industrial, investigacin de frmacos
Tres aplicaciones cientificas en TaihuLight han sido seleccionadas como
finalistas del Gordon Bell Prize (mejor desempeo o escalabilidad, aplicada a
problemas cientficos y de ingeniera), alcanzando un desempeo de entre
30 y 40 petaflops
2016 marc la primera vez que un pas
tiene ms supercomputadores en Top500
que USA
China: 167, USA: 165

EVOLUCIN TECNOLGICA: ARQUITECTURAS
Marzo, 2017

EVOLUCIN TECNOLGICA: SISTEMAS OPERATIVOS
Mar, 2015
Marzo, 2017

INFRAESTRUCTURA
La tecnologa ha avanzado, permitiendo disponer de mquinas
paralelas caseras
Clusters de computadores de bajo costo
Internet surge como una fuente potencial de recursos de computacin

ilimitados
Internet 2 ampla la banda y la potencia de comunicacin entre equipos
Se ha desarrollando la tecnologa grid (y recientemente cloud):

Permiten compartir recursos informticos (locales o remotos) como si
fueran parte de un nico computador
Brinda capacidad de gestionar y distribuir la potencia de clculo
disponible en la mediana empresa
Empresas de renombre e investigadores trabajan en diseo de soluciones
tecnolgicas en este sentido

INFRAESTRUCTURA
Las alternativas mencionadas constituyen opciones realistas para
tratar de lograr capacidad de cmputo competitivo
Obviamente, sin llegar a los lmites de los mejores supercomputadores
del Top500
Sin embargo, permiten resolver problemas interesantes en los

entornos acadmicos, industriales y empresariales, con una
infraestructura de bajo costo

EL CLUSTER FING
Infraestructura de cmputo de alto desempeo de la Facultad de Ingeniera
Fortalecimiento de Equipamientos para la Investigacin (CSIC, 2008)
Objetivo: disponer de una plataforma computacional capaz de abordar
eficientemente problemas complejos
Pgina web http://www.fing.edu.uy/cluster

CLUSTER FING: ESTRUCTURA
Originalmente: 9 servidores de cmputo
Quad core Xeon E5430, 2x6 MB cach, 2.66GHz, 1.333 MHz FSB
8 GB de memoria por nodo
Adaptador de red dual (2 puertos Gigabit Ethernet)
Arquitectura de 64 bits
Servidor de archivos: 2 discos de 1 TB, capacidad ampliable a 10 TB
Nodos de cmputo: discos de 80 GB
Switch de comunicaciones
Dell Power Connect, 24 puertos Gigabit Ethernet
Switch KVM (16 puertos) y consola

UPS APC Smart RT 8000VA
CLUSTERS

CLUSTER FING: ESTRUCTURA (Julio 2016)
32 servidores de cmputo (Dell Power Edge 2950, HP Proliant DL180) con
procesadores Intel Xeon quad core y AMD Magny Cours, 12 cores)
1 Tesla GPU server (procesadores Xeon quad core y 4 NVIDIA C1060 [960
ncleos de 1.33 GHz.])
4 coprocesadores Xeon Phi (60 ncleos 1.1GHz, 8GB RAM)
TOTAL: 1740 ncleos de procesamiento
540 ncleos de CPU, 960 ncleos de GPU, 240 ncleos XeonPhi.
8 a 128 GB de RAM por servidor: + 1000 GB de memoria RAM en total
+250 TB de almacenamiento distribuido en RAID
3 switches de comunicaciones Gigabit Ethernet
30 kVA de respaldo de batera
Pico terico de desempeo aproximado de 6000 GFLOPS (61012 operaciones de
punto flotante por segundo)
EL MAYOR PODER DE CMPUTO DISPONIBLE EN EL PAS
CLUSTER FING: UTILIZACIN

http://www.fing.edu.uy/cluster

Cluster FING: 9.000.000 de horas de cmputo efectivo (2017)

http://www.fing.edu.uy/cluster

Indicador Valor (Julio, 2016)
Nmero de usuarios > 300, de 12 pases
Horas efectivas de cmputo 9.000.000 horas (> 1027 aos)
Proyectos acadmicos > 120
Tesis de posgrado > 60 Maestra y > 35 Doctorado
Grupos de investigacin > 35
Proyectos y trabajos de grado > 230
Convenios > 20
Atrculos publicados > 500
Estadsticas a julio de 2016

CLUSTER FING
reas de aplicacin (http://www.fing.edu.uy/cluster)
Gran volumen de trabajos mulidisciplinarios

CLUSTER FING
Participacin en infraestructuras distribuidas
Infraestructura Grid Latinoamericano-Europea (GISELA)
Cluster FING implementa el Grid Nacional (Uruguay) y brinda soporte a Virtual
Research Communities (e-infrastructura y servicios basados en aplicaciones)
Ourgrid
Cluster FING integra la comunidad Ourgrid de computacin voluntaria
Redes de computacin voluntaria con instituciones de enseanza e
investigacin internacionales
Federacin (OpenNebula) con Universidad de Buenos Aires
Participacin activa en la comunidad HPCLATAM

CLUSTER FING
COLABORACIONES ACTUALES en HPC
Suecia
Polonia Rusia
Francia Alemania
Luxemburgo Italia
USA Espaa
Espaa
(varios)
Arabia
Mxico Saudi
Qatar
Venezuela
Brasil
Australia
Chile
Argentina
Ms de 25 colaboraciones internacionales activas con proyectos en curso

COMPUTACIN DE ALTO RENDIMIENTO
Presta mayor atencin al manejo de grandes flujos de datos (bsquedas
en Internet y uso de servicios web), realizados en forma masiva por
muchos usuarios simultneamente
A diferencia de HPC, el objetivo deja de ser lograr un alto desempeo
en nmero de operaciones y tiempo de ejecucin
Busca proporcionar el mejor rendimiento, evaluado por el nmero de
tareas que el sistema puede completar por unidad de tiempo,
permitiendo la atencin de un mayor nmero de usuarios
HTC busca mejorar en trminos de procesamiento neto de tareas
ejecutadas fuera de lnea (procesamiento batch), y tambin se enfoca
en proveer buenas soluciones en lnea considerando los problemas y
restricciones de costo monetario, ahorro energtico, seguridad y
confiabilidad, en especial para infraestructuras de mltiples centros de
cmputo y repositorios de datos distribuidos

Sistemas de computacin de alto rendimiento:
o Redes peer-to-peer (P2P)
o Datacenters distribuidos
o Sistemas de computacion cloud
Redes P2P: creadas para compartir y distribuir contenidos, fueron punto

de inflexin en el desarrollo de sistemas distribuidos escalables
o Integran mltiples clientes (peers) distribuidos, de modo eficiente y
escalable, para compartir datos bajo los conceptos de HTC
o Constituyeron el paso inicial para crear redes computacionales globales
como los sistemas cloud actuales

Actualmente: era de computacin en Internet (millones de usuarios
cotidianamente). Los centros de supercomputacin y datacenters deben
proveer servicios de HPC y HTC para contemplar requisitos de un gran
nmero de usuarios concurrentes
Los centros de cmputo han evolucionado, utilizando metodologas de
computacin paralela y distribuida para incluir servicios de cmputo,
almacenamiento y redes de comunicacin de datos al servicio de los
usuarios y las aplicaciones transaccionales que realizan
Objetivo actual: aprovechar redes avanzadas para disear sistemas

ubicuos que puedan utilizarse desde nuevos dispositivos y usando nuevas
tecnologas

COMPUTACIN DISTRIBUIDA
Estudia el desarrollo de aplicaciones sobre sistemas distribuidos
Un sistema distribuido consiste en la agrupacin de mltiples elementos
de procesamiento autnomos, cada uno conteniendo su propia memoria
(por lo que la memoria global del sistema se encuentra distribuida).
Los elementos de procesamiento estn conectados a travs de una red de
interconexin y el intercambio de informacin (comunicaciones y
sincronizaciones) se realiza mediante pasaje de mensajes o invocaciones
remotas a procesos o servicios
Los programas desarrollados bajo este paradigma se denominan
programas distribuidos. El proceso de desarrollar e implementar
programas distribuidos se denomina programacin distribuida

Los sistemas distribuidos se popularizaron en la dcada de 1990.
Comenzando con redes de workstations, clusters, y redes P2P, han
avanzado hasta consolidar infraestructuras computacionales de amplia
aplicabilidad y uniendo recursos de diversas ubicaciones geogrficas
Los sistemas globales fueron originalmente concebidos como grids
computacionales o grids de datos
El siguiente paso en la evolucin de los sistemas distribuidos consisti en
alcanzar la ubicuidad, independencia y transparencia al usuario al
instrumentar infraestructuras cloud, principalmente enfocadas en el
procesamiento de grandes volmenes de informacin
Sobre los sistemas cloud se implementa una abstraccin del modelo de
computacin en redes de workstations, que se ha extendido y ha
evolucionado para contemplar el desarrollo de la computacin orientada
a servicios y manejo de grandes volmenes de datos en datacenters

Computacin en la nube (cloud computing)
o Un cloud de recursos computacionales aplica estrategias de computacin
paralela o distribuida segn el caso, o una mezcla de ambos paradigmas
o Las infraestructuras cloud pueden ser construidas utilizando dispositivos
fsicos o mquinas virtuales, implementando grandes datacenters
centralizados o distribuidos
o Se considera como un tipo especial del modelo de computacin utilitaria o
computacin basada en servicios, donde los recursos computacionales
(procesamiento y almacenamiento) es suministrado a demanda
o El desarrollo del paradigma de computacin cloud ha estado impulsado por:
o la creacin del paradigma de Arquitectura orientada a Servicios (SOA) para
disear y desarrollar aplicaciones distribuidas
o el desarrollo de la Web 2.0, focalizada en los conceptos de compartir
informacin, interoperabilidad, diseo centrado en el usuario y la colaboracin
o los avances en la tecnologas de virtualizacin

Terminologas alternativas
o Computacin concurrente: unin de computacin paralela y distribuida,
ambos modelos basados en explotar la concurrencia para mejorar el
rendimiento y aumentar la escalabilidad de las aplicaciones
o Computacin ubicua o pervasiva: modelos de computacin distribuida que
utilizan dispositivos en diversas ubicaciones geogrficas simultneamente,
conectndose entre s mediante redes cableadas o inalmbricas
o Internet de las cosas (Internet of ThingsIoT): interconexin digital de objetos
cotidianos (computadores, sensores, dispositivos electrnicos, e inclusive
humanos!). Utiliza Internet para implementar la computacin ubicua con
cualquier objeto conectado, en cualquier momento y en cualquier lugar. Se
basa en los avances en la identificacin por radiofrecuencia (radio-frequency
identificationRFID), en los sistemas de posicionamiento satelital (Global
Positioning SystemGPS) y en el desarrollo de las redes de sensores.
o Computacin en Internet (Internet computingIC): trmino genrico utilizado
para designar todos los paradigmas de computacin que hacen uso de
Internet como mecanismo de interconexin
LOS PROBLEMAS TAMBIN CRECEN
Requerimientos computacionales de problemas complejos

Los sistemas de HPC y de HTC se enfocan en aspectos relevantes del
rendimiento y disponibilidad, y deben ser capaces de satisfacer las
crecientes demandas de poder de procesamiento
Para lograr estos objetivos, deben contemplarse los siguientes principios
de diseo:
o La eficiencia, que en sistemas de HPC evala tiempos de ejecucin y uso de
recursos al explotar el paralelismo masivo, mientras que en sistemas de HTC
se relaciona con el nmero de transacciones, servicios y/o usuarios que se
pueden atender por unidad de tiempo (throughput), el acceso eficiente a los
datos, las estrategias de almacenamiento y la eficiencia energtica
o La confiabilidad, que evala la robustez y capacidad de auto-administracin,
desde bajo nivel (chip) hasta el ms abstracto (aplicaciones). El objetivo es
proveer sistemas de alto rendimiento que permitan asegurar altos niveles
de calidad de servicio (QoS), an bajo escenarios de alta demanda o
situaciones de falla. Para lograrlo se aplican tcnicas de tolerancia a fallos

Para lograr estos objetivos, deben contemplarse los siguientes principios
de diseo (continuacin):
o La adaptacin de los modelos de programacin, que determina la capacidad
de soportar requerimientos de millones de tareas, potencialmente
trabajando sobre repositorios masivos de datos y sistemas distribuidos
virtualizados, utilizando diferente tipo de recursos fsicos y modelos de
servicio
o La flexibilidad en el desarrollo de aplicaciones, que evala la capacidad de
los sistemas de trabajar tanto en el modelo de alto desempeo (orientado a
aplicaciones cientficas, de ingeniera, industriales) como en el modelo de
alto rendimiento (orientado a aplicaciones comerciales y procesamiento
transaccional)

PROCESAMIENTO PARALELO
En este contexto se ha desarrollado activamente el procesamiento paralelo
Basado en el estudio en Universidades e Institutos.
Aplicado directamente en la industria, organismos cientficos y las empresas.
La evolucin de la aplicacin del paralelismo puede resumirse en:
Paralelismo a nivel de bits (4, 8, 16 bits).
Se reduce a partir de 32 bits (hoy 64 bits).
Paralelismo a nivel de instrucciones.
Pipelining, superescalar, ejecucin fuera de orden, ejecucin especulativa,
prediccin de saltos.

Evolucin de la aplicacin del paralelismo

Paralelismo a travs de hilos (multithreading)
Programacin paralela
Sobre supercomputadores
Sobre mquinas paralelas de bajo costo
A partir de 1990, el desarrollo de las redes de computadoras permiti

otro avance importante:
Procesamiento distribuido
Grid computing y cloud computing

Ventajas:
Mayor capacidad de proceso
Permite ampliar objetivos y campo de trabajo
Permite abordar problemas de mayor complejidad
Permite mejorar calidad y fiabilidad de los resultados
Aumento directo de competitividad
Menor tiempo de proceso

Proporciona ms tiempo para otras etapas de desarrollo del producto
Permite hacer frente a sistemas crticos
Reduccin de costos
Aprovechar la escalabilidad de recursos en el entorno local

PROCESAMIENTO DISTRIBUIDO
Principales conceptos
Procesadores independientes
Autonoma de procesamiento
Interconexin
Habitualmente mediante redes
Cooperacin
Para lograr un objetivo global
Datos compartidos
Varios repositorios de datos
Sincronizacin
Frecuentemente a travs del pasaje explcito de mensajes

Grados de distribucin
Hardware y procesamiento
Datos o Estado
Control
La distribucin puede ser compleja de manejar, frecuentemente se

necesitan herramientas especializadas:
Sistemas Operativos de Red
Sistemas Operativos Distribuidos
Bibliotecas de desarrollo

Ventajas:
Mejora en desempeo:
Al disponer de mayor cantidad de procesadores
Robustez
Dada por la mayor disponibilidad de recursos
Seguridad no centralizada
Deben manejarse cuidadosamente las polticas
Una situacin catica evidentemente es una desventaja
Permite el acceso transparente a los datos no locales
Mecanismos y protocolos para compartir y acceder a la informacin
Escalabilidad
Potencialmente ilimitada en la red

EVOLUCIN TECNOLGICA

APLICACIONES
Amplia aplicabilidad en problemas cientficos
Industriales
Qumica y bioingeniera
Estudio de estructuras moleculares, simulacin de reacciones,
espectroscopa
Fluidodinmica
Anlisis de flujos, turbulencias y simulaciones
Mecnica Industrial
Diseo asistido. Modelos de elementos finitos
Medicina
Estudio del genoma, medicina farmacutica, radioterapia
Electromagnetismo
Diseo de dispositivos de grabacin, instrumentos mdicos, tubos
de rayos X, pantallas planas

APLICACIONES
Comerciales
Telecomunicaciones
Anlisis de trfico, desempeo y calidad de servicio
Redes de control inteligentes
Comercio electrnico
Manejo transaccional en lnea
Servicios web
Buscadores paralelos (metabuscadores)
Sistemas de tiempo real
Bases de datos paralelas
Anlisis de datos
Data mining
Anlisis de mercado, series temporales, etc

APLICACIONES
Investigacin
Simulaciones espaciales
Estudios atmicos
SETI
Inteligencia artificial
Recreacin
Simulaciones tridimensionales y realidad virtual
Cine: actores virtuales
Multimedia: procesamiento de voz e imgenes
Computacin grfica y videojuegos

CASO DE ESTUDIO 1
PREDICCIN CLIMTICA
Modelos climticos globales
Dividir el mundo en una grilla (por ej., de 10 km de paso)
Resolver las ecuaciones de fluidodinmica para cada punto y
tiempo
Requiere un mnimo de 100 Flops por punto por minuto
Prediccin del tiempo (7 das, cada 24 horas): 56 GFLOPS
Prediccin climtica (50 aos, cada 30 das): 4.8 TFLOPS
Perspectiva:
En un computador tradicional con procesador de 3GHz (10 GFLOPS) la prediccin
climtica demandara del orden de 100 aos de tiempo de cmputo.
Es necesario disponer de estrategias ms potentes para el anlisis

CASO DE ESTUDIO 2
ANLISIS DE DATOS
Hallar informacin oculta en grandes cantidades de datos
Qu motivos existen para husmear en grandes cantidades de datos?
Existen dolencias inusuales en los habitantes de una ciudad?
Qu clientes son ms propensos a tratar de hacer fraude al seguro de salud?
Cundo conviene poner en oferta la cerveza?
Qu tipo de publicidad enviar a un cliente?
Recoleccin de datos:
Sensores remotos en un satlite
Telescopios
Microarrays generando data de genes
Simulaciones generando terabytes de datos
Espionaje
CASO DE ESTUDIO 2
ANLISIS DE DATOS
La informacin se descubre mediante un proceso sistemtico
Anlisis estadstico de los datos, comparaciones y relaciones para detectar
tendencias, identificar situaciones o hechos inusuales
El tiempo de procesamiento es creciente con respecto al volumen de datos
Ciertos problemas pueden ser inabordables con los algoritmos de la computacin
secuencial tradicional
Es necesario disponer de mtodos ms potentes para el anlisis

CASO DE ESTUDIO 3
ANLISIS DE DATOS: PAGERANK DE GOOGLE
PageRank: familia de algoritmos utilizados para asignar numricamente la
relevancia de los documentos (o pginas web) indexados por un motor de
bsqueda.
Se basa en la naturaleza democrtica de la web
Un enlace de una pgina A a una pgina B se interpreta como un voto, de la
pgina A, para la pgina B.
Tambin se analiza la pgina que emite el voto
Los votos emitidos por las pginas importantes *con
PageRank elevado], valen ms, y ayudan a hacer a otras
pginas "importantes".

CASO DE ESTUDIO 3
ANLISIS DE DATOS: PAGERANK DE GOOGLE
valores de PageRank que tienen las
pginas que enlazan a A
nmero de enlaces salientes de la
factor de amortiguacin 0.85,
pgina i (sean o no hacia A)
probabilidad de que un navegante
contine pulsando links
El PageRank no se actualiza instantneamente, ni siquiera diariamente, [tarda
varios das en completarse]. Las timas actualizaciones del Pagerank fueron en
4/2 y 5/12 de 2013 [oficial] y julio de 2014 [extraoficial].
Datos:
1.000 millones de pginas en 1999 (estimado)
30.000 millones en 2005 (Yahoo)
90.000 millones en 2007 (estimado Google)
Google dej de reportar luego de indicar que indexaba 8.000 millones
+50.000 millones de pginas indexadas (estimado 2014)
CASO DE ESTUDIO 4
SETI @HOME
Giordano Bruno (1548-2000): hay vida en otros mundos.
Resultado: la hoguera !!
Carl Gauss (1777-1855): comunicacin con la luna. trigo
Resultado: sin financiacin.

tierra
Joseph Von Litron (1840): crculo de fuego
agua
Charles Cros (1869): espejo gigante.

Voyager (1977): placa de oro

CASO DE ESTUDIO 4
SETI @HOME
Nikola Tesla (1899) anunci seales coherentes desde Marte
Guglielmo Marconi (1920) detect seales extraas desde el espacio
Frank Drake (1960): Proyecto Ozma, busc en el canal de 1420-1420.4 MHz
SETI (Search for ExtraTerrestrial Intelligence)

Universidad de California (desde 1971)
Utiliza mtodos cientficos para la bsqueda de emisiones electromagnticas
por parte de civilizaciones en planetas lejanos

CASO DE ESTUDIO 4
SETI @HOME
Avances en SETI
Correccin del efecto Doppler coherente
Ancho de canal ms fino, incrementa la sensitividad
Resolucin variable de ancho de banda y tiempo
Bsqueda de mltiples tipos de seales
Anlisis de distribucin Gaussiana
Bsqueda de pulsos repetidos
Problema: requiere TFLOPs de procesamiento
Solucin: computacin paralela/distribuida
SETI@HOME: usa tiempo de cmputo donado voluntariamente por
usuarios en todo el mundo para ayudar a analizar los datos recabados
por los radiotelescopios

CASO DE ESTUDIO 4
SETI @HOME
Divisin del dominio de cmputo
Distribucin de datos
Anlisis distribuido
Reporte de resultados

CASO DE ESTUDIO 4
SETI @HOME
Estadsticas (2010)
> 5 millones de usuarios (mayor nmero para un proyecto de computacin distribuida)
> 3 millones de computadores en 253 pases
> medio milln de personas participan diariamente
En 2001, SETI@home sobrepas el nmero de 1021 operaciones de punto flotante (el
cmputo ms largo de la historia segn Guinness World Records).
En 2009, SETI@home tena una capacidad de cmputo mayor a 800 TFLOPS
1000 aos de tiempo de cmputo por da
Ms de dos millones de aos de tiempo de cmputo agregado
Se procesan seales 10 veces ms dbiles que las de 1980-1990
Ha sido el punto de partida para muchos proyectos similares
Folding@home, Einstein@home, MilkyWay@home, Rosetta@home, etc.

CASO DE ESTUDIO 5
INTERACCIN ENTRE PARTCULAS
N-body problem
Predecir el movimiento de un conjunto de partculas y sus interacciones
Aplicaciones:
Astronoma (movimiento de cuerpos celestes) y fsica (medios granulares)
Computacin grfica (iluminacin)
Termodinmica (radiacin trmica)
Inconveniente: sistemas complejos involucran millones de partculas.
Solucin: paralelismo de procesamiento simtrico

Computacin multithreading
Utilizando coprocesadores (XeonPhi) o procesadores grficos (GPU)
APLICACIONES
Sectores de aplicacin (Top500)
Segments Count Share % Rmax Sum (GF) Rpeak Sum (GF) Processor Sum
Academic 79 15.80 % 10258602 15254518 1205160

Classified 8 1.60 % 752813 974331 100464
Government 16 3.20 % 1060789 1686243 154460
Industry 285 57.00 % 15222240 25767492 2450854

Research 105 21.00 % 31113640 40809541 3813010
Vendor 7 1.40 % 521941 687823 55976
Totals 500 100% 58930025.59 85179949.00 7779924
sistemas performance

APLICACIONES
Utilizar herramientas de desarrollo, simulacin y optimizacin que
utilicen paralelismo permite:
Reducir el tiempo necesario para desarrollar, analizar y optimizar
diversas alternativas de diseo
Obtener resultados ms precisos
Abordar casos realistas y escenarios extremos
Analizar alternativas de diseo que en otro caso resultaran intratables
En definitiva, las tcnicas de procesamiento posibilitan obtener

resultados ms precisos de un modo eficiente en la resolucin de
instancias difciles de problemas complejos

APLICACIONES
RESUMEN
Procesamiento paralelo de gran porte
Aplicaciones cientficas
Manejo de enormes volmenes de datos
Procesamiento paralelo de mediano porte
Aplicaciones comerciales
Procesamiento transaccional financiero
Bases de datos distribuidas
Programas multithreading
Aplicaciones de escritorio
Procesamiento distribuido
Internet, grid y cloud, web services

CONSIDERACIONES IMPORTANTES
DISEO del HARDWARE
Tecnologa, poder y cantidad de los elementos de procesamiento
Conectividad entre elementos
TCNICAS de PROGRAMACIN
Abstracciones y primitivas para cooperacin
Mecanismos de comunicacin
La clave es la integracin de estos aspectos

para obtener un mejor desempeo computacional
en la resolucin de aplicaciones

COMPUTACIN DE ALTA PERFORMANCE
Aspectos relevantes:
Arquitecturas de computadores paralelos
Modelos de programacin
Diseo de algoritmos eficientes
Medidas para evaluar los algoritmos paralelos
Lenguajes y bibliotecas para programacin paralela y distribuida
Tendencias tecnolgicas actuales de diseo y programacin
SERN LOS ASPECTOS A ABORDAR

A LO LARGO DEL CURSO

Tema1 2017

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema1 2017

Cargado por

Copyright:

Formatos disponibles

COMPUTACIN DE ALTA

COMPUTACIN DE ALTA PERFORMANCE 2017 1 INTRODUCCIN

Presentar los fundamentos de la computacin de alto desempeo y su

Introducir los conceptos bsicos de la computacin paralela y distribuida.

Presentar conceptos, tcnicas y herramientas de desarrollo de aplicacin

Capacitar al estudiante para la resolucin de problemas complejos

COMPUTACIN DE ALTA PERFORMANCE 2017 2 INTRODUCCIN

Comienzo del curso: 7 de marzo 2016

30 horas de exposiciones tericas

COMPUTACIN DE ALTA PERFORMANCE 2017 3 INTRODUCCIN

Pgina web del curso: http://www.fing.edu.uy/inco/cursos/hpc

APROBACIN DEL CURSO

COMPUTACIN DE ALTA PERFORMANCE 2017 6 INTRODUCCIN

El sitio forma parte de un proyecto que

COMPUTACIN DE ALTA PERFORMANCE 2017 7 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 8 INTRODUCCIN

(los asombrosos 80 aos)

Intel ASCI Red/9152 (Sandia NL, USA, 1997):

M-13 (Nauchno-Issledovatesky Institute Vychislitelnyh

IBM 7030 "Stretch (LANL, USA, 1961):

Colossus Mark 2 (UK, 1946):

COMPUTACIN DE ALTA PERFORMANCE 2017 10 INTRODUCCIN

Categoras NO estrictamente disjuntas entre s

COMPUTACIN DE ALTA PERFORMANCE 2017 12 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 13 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 15 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 16 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 17 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 18 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 19 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 20 INTRODUCCIN

Computacin de alto desempeo

COMPUTACIN DE ALTA PERFORMANCE 2017 21 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 22 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 23 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 24 INTRODUCCIN

Utilizados para aplicaciones de procesamiento transaccional masivo y

En la actualidad, el desarrollo de sistemas de computacin orientadas a

COMPUTACIN DE ALTA PERFORMANCE 2017 25 INTRODUCCIN

Propulsados por las mejoras e innovaciones tecnolgicas, han

COMPUTACIN DE ALTA PERFORMANCE 2017 27 INTRODUCCIN

IBM NORC (Columbia

COMPUTACIN DE ALTA PERFORMANCE 2017 28 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 29 INTRODUCCIN

Incremento de poder de cmputo (Top500, escala logartmica!)

Siguen el mismo comportamiento exponencial, con diferentes pendientes

COMPUTACIN DE ALTA PERFORMANCE 2017 31 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 32 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 33 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 34 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 35 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 36 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 37 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 38 INTRODUCCIN

Internet surge como una fuente potencial de recursos de computacin

Se ha desarrollando la tecnologa grid (y recientemente cloud):

COMPUTACIN DE ALTA PERFORMANCE 2017 39 INTRODUCCIN

Sin embargo, permiten resolver problemas interesantes en los

COMPUTACIN DE ALTA PERFORMANCE 2017 40 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 41 INTRODUCCIN

Switch KVM (16 puertos) y consola

COMPUTACIN DE ALTA PERFORMANCE 2017 43 INTRODUCCIN

COMPUTACIN DE ALTA PERFORMANCE 2017 45 INTRODUCCIN