Slides01CP2012AntecedentesGenerales

29/08/2012
UTEM
29/08/2012
UTEM
ASIGNATURA
COMPUTACIN PARALELA
Departamento de Computacin e
Informtica
Facultad de Ingeniera
INTRODUCCIN
2012
Oscar Magna V.
Civil Engineering on Computer Science & MBA
Dr (c) in Business Management and Administration
Technological Metropolitan University
Santiago of Chile
omagna@utem.cl, osemav@gmail.com
http://omagna.tripod.com
(56-2) 787.7211
C H I L E.
OMV - INF 5141
UTEM
COMPUTACION PARALELA
-3-
UTEM
COMPUTACIN PARALELA
INF - 5141
1.
2.
3.
Introduccin
Modelos y Topologas
Mtricas (I)
INGENIERA CIVIL EN COMPUTACIN

Mencin Informtica
UNIVERSIDAD TECNOLGICA METROPOLITANA
Oscar E. Magna V.
Ingeniero Civil en Informtica & MBA
Dr (c ) en Administracin y Direccin de Empresas
omagna@utem.cl
http:// omagna.tripod.com
OMV - INF 5141
Slide-1
-2-
OMV - INF 5141
-4-
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
UTEM
TEMA 1: INTRODUCCIN
NOCIONES BASICAS
UTEM
Computador paralelo: Capaz de ejecutar varias instrucciones

simultneamente..
Computacin Paralela: Uso de varios procesadores trabajando juntos para
resolver una tarea comn:
Cada procesador trabaja en una porcin del problema.
Los procesos pueden intercambiar datos, a travs de la direcciones de
memoria compartidas o mediante una red de interconexin.
Programacin Paralela: Considera aspectos conceptuales y las
particularidades fsicas de la computacin paralela.
Objetivo: Mejorar las prestaciones mediante un buen aprovechamiento de la
ejecucin simultanea.
OMV - INF 5141
NOCIONES BASICAS
Necesidad de la computacin paralela
Limitaciones fsicas de la computacin secuencial

Limite de la velocidad de la luz: Estancamiento en los incrementos de la
frecuencia de reloj.
Limite de Integracin: Cerca del limite mximo.
Mas frecuencia Mas consumo + Temperaturas muy elevadas
Problemas con complejidad elevada
Dentro de los problemas tratables (tiempo polinomial) existen:
Problemas de gran dimensin: costo polinomial de grado alto o
aplicabilidad a grandes problemas.
Problemas de tiempo real
Problemas de gran desafo: gran importancia social. Estudio del genoma
humano, prediccin meteorolgica mundial, modelado fenmenos ssmicos,
...
-5-
OMV - INF 5141
TEMA 1: INTRODUCCIN
UTEM
NOCIONES BASICAS
-7-
TEMA 1: INTRODUCCIN
Ejemplo: Ordenar un conjunto de libros
UTEM
NOCIONES BASICAS
Necesidad de la Computacin paralela. Ejemplo
Libros organizados en estantes.

Estantes agrupados en estanteras.
Una persona
Velocidad limitada.
Varias personas Enfoques
a) Repartir libros entre trabajadores + ordenac.
simultnea.
Trabajadores deben desplazarse.
Repartir libros y estanteras
Si trabajador encuentra un libro suyo lo
almacena.
Si no, lo pasa al responsable.
Aspectos de la solucin paralela:
Descomposicin: Tarea es dividida es subtareas.
Asignacin: tareas son asignadas a trabajadores.
Comunicacin: Trabajadores deben cooperar.
Diferentes soluciones paralelas de un problema
OMV - INF 5141
-6-
OMV - INF 5141
-8-
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
UTEM
TEMA 1: INTRODUCCIN
COMPUTADOR PARALELO - VENTAJAS
UTEM
Impacto sobre gran variedad de areas

Desde simulaciones para ciencia e ingeniera a aplicaciones comerciales en minera de datos y
procesamiento de transacciones.
Argumento de peso: Beneficios de costo + requisitos rendimiento de aplicaciones
Aplicaciones en Ingenieria y Diseno
Diseo de aviones, Circuitos de alta velocidad, estructuras, etc..
Diseo de sistemas nano electromecnicos: Mltiples escalas espaciales y temporales, varios
fenmenos fsicos acoplados, etc.
Modelos matemticos, modelos geomtricos, desarrollo de algoritmos, etc.
Optimizacin discreta/continua: Optimizacin lineal, Branch-and-Bound (Ramificacin y
Acotamiento para la resolucin de modelos de Programacin Entera), Progr. Gentica.
Aplicaciones cientificas
Bioinformtica: Anlisis de secuencias biolgicas nuevas medicinas, curar enfermedades
Fsica computacional: prediccin meteorolgica, Astrofsica, prediccin inundaciones, etc.
Aplicaciones Comerciales
Grandes servidores de bases de datos: Wall Street
Anlisis para optimizar negocios y decisiones de mercado, minera de datos, etc.
Computador paralelo.
Multiprocesadores, procesadores multicore, GPUs, etc.
Varios ordenadores (paralelos o no) interconectados
clusters de ordenadores
Ventajas
Mas velocidad de ejecucin y precisin clculos
Buena relacin costo/prestaciones
Permite atacar problemas considerados irresolubles
OMV - INF 5141
ALCANCE LA COMPUTACIN PARALELA
-9-
OMV - INF 5141
TEMA 1: INTRODUCCIN
UTEM
TEMA 1: INTRODUCCIN
ASPECTOS DE LA PROGRAMACIN PARALELA
OMV - INF 5141
- 11 -
UTEM
- 10 -
EJEMPLOS
OMV - INF 5141
Simulacin de semiconductores 2D
- 12 -
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
UTEM
EJEMPLOS
TEMA 1: INTRODUCCIN
Sntesis de imgenes Fotorealistas
UTEM
EVOLUCIN
DEMANDAS COMPUTACIONALES
16 Flops/seg
OMV - INF 5141
- 13 -
OMV - INF 5141
GRANDES PROBLEMAS
Cambios Globales
Genoma Humano
Turbulencia de fluidos
Cinemtica de vehculos
Movimiento de los ocanos
Dinmica de los fluidos vizcosos
Modelamiento de los superconductores
Dinmica cromo-cuntica (QCD: Quantum Chromo
Dynamics )
Visin
19 Flops/seg
TEMA 1: INTRODUCCIN
UTEM
EJEMPLOS
112 Flops/sesg
- 15 -
TEMA 1: INTRODUCCIN
Simulacin de aguas poco profundas en GPUs
UTEM
EVOLUCIN
Las primeras mquinas constaban:

Colecciones de microprocesadores,
Colas bidireccionales entre procesadores vecinos.
Los mensajes son reenviados por los procesadores intermedios.
Fuerte estudio de las topologas y los algoritmos de encaminamiento.
OMV - INF 5141
- 14 -
OMV - INF 5141
- 16 -
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
UTEM
LATENCIA
EVOLUCIN
UTEM
WorldCom
Para tener un nmero grande de transferencias simultneas es necesario una gran
cantidad de caminos distintos.
Las redes son como las carreteras:
WorldCom (NASDAQ: WCOM) es una destacada empresa global de

comunicaciones para la generacin digital que opera en ms de 65 pases y
que en el ao 2000 alcanz unos ingresos de aproximadamente 40.000
millones de dlares (pero con problemas financieros en el ao 2010).
link = calle
switch = interseccin
distancias (hops) = nmero de tramos atravesados
algoritmos de enrutamiento = plan de viaje
La empresa se ha establecido como competidor local en infraestructuras de

red con ms de 107 partners, en 91 pases de todo el mundo y en los 6
continentes.
Propiedades
Latencia (velocidad)
Ancho de Banda
- limitado por el nmero de caminos
- y por la velocidad que acepta cada camino
OMV - INF 5141
Los servicios de telecomunicaciones suponen tres cuartas partes del

mercado global, que asciende a alrededor de 1 Billn de dlares.
- 17 -
OMV - INF 5141
LATENCIA
- 19 -
LATENCIA
UTEM
UTEM
WorldCom
Latencia (latency): tiempo que tarda un
paquete de datos en llegar desde su origen a
su destino
La Latencia no es constante en el tiempo, por
lo que tambin hay que considerar su
variacin, concepto que se conoce con el
nombre de Jitter
OMV - INF 5141
- 18 -
OMV - INF 5141
- 20 -
10
29/08/2012
29/08/2012
LATENCIA
UTEM
UTEM
INDICADORES DE CALIDAD
ENLACES DE CONEXION DE TRFICO INTERNET
Resumen Trafico PIT Interconectados (24 hrs)

Claro
WorldCom
Ej. Cifras mensuales de latencia mensual
55ms o menos por viajes de ida y vuelta dentro de Europa y dentro de
Norteamrica (para los clientes de EE.UU. y Canad).
55ms o menos por viajes regionales de ida y vuelta dentro de Europa y dentro de
Norteamrica (para los clientes que no son de EE.UU. y Canad).
95ms o menos para viajes transatlnticos de ida y vuelta entre Londres y Nueva
York.
Ej. Entrega de paquetes de:

99.5 por ciento o ms para viajes regionales de ida y vuelta dentro de Europa y
Norteamrica.
99.5 por ciento o ms para viajes transatlnticos de ida y vuelta entre Londres y
Nueva York.
OMV - INF 5141
UTEM
Estadsticas de los indicadores de calidad de lls enlaces de conexin de trfico internet, conforme a lo establecido en la norma tcnica de resolucin
n698 de 30.06.00 de la subsecretara de telecomunicaciones.
- 21 -
OMV - INF 5141
UTEM
- 23 -

Movistar - GlobalCrossing

Claro
OMV - INF 5141
- 22 -
OMV - INF 5141
11
- 24 -
12
29/08/2012
29/08/2012
LATENCIA
LATENCIA
UTEM
UTEM
PIT Global Crossing
PIT Claro
Latencia
(Punto de Intercambio de Trfico )

OMV - INF 5141
Estadsticas actualizadas el Lunes 12 de Diciembre de 2011 a las 17:05

OMV - INF 5141
- 25 -
TASA DE OCUPACIN
- 27 -
LATENCIA
UTEM
UTEM
PIT Claro
PIT Claro
Tasa de Ocupacin
Estadsticas actualizadas el Lunes 12 de Diciembre de 2011 a las 17:05

OMV - INF 5141
- 26 -
OMV - INF 5141
13
- 28 -
14
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
Enlaces de conexin de trfico Internet
UTEM
EVOLUCIN
UTEM
Ej. PIT ENTEL

(Punto de Intercambio de Trfico )
Topologas Regulares: Lineales y Anillos

Lineales
Dimetro: n-1.
Distancia media: ~2/3n
Anillos
Dimetro: n/2.
Distancia media: n/3
Usadas en algoritmos sobre arrays 1D
OMV - INF 5141
- 29 -
OMV - INF 5141
TEMA 1: INTRODUCCIN
TEMA 1: INTRODUCCIN
EVOLUCIN
UTEM
- 31 -
EVOLUCIN
UTEM
Topologas Regulares: Mallas y Toros

Las redes vienen caracterizadas por:
Su Topologa: Cmo estn conectados sus nodos
- Dos tipos de nodos: switches y hosts
Algoritmos de Encaminamiento
- Ejemplo: Todo a la izquierda y luego hacia arriba
Su dimetro: valor mximo de las distancias entre los nodos de la red.
Estrategia en el Switching
- circuit switching
- packet switching
Control de Flujo
- Qu hacer en caso de congestin
- Stall (quedarse atascado), descartar, cambio de ruta,
usar buffers, etc.
2D
Dimetro:
2 n
Malla
Toro
Usadas en algoritmos sobre arrays 2D y 3D

OMV - INF 5141
- 30 -
OMV - INF 5141
15
- 32 -
16
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
UTEM
OMV - INF 5141
TEMA 1: INTRODUCCIN
EVOLUCIN
EVOLUCIN
UTEM
- 33 -
OMV - INF 5141
TEMA 1: INTRODUCCIN
UTEM
OMV - INF 5141
TEMA 1: INTRODUCCIN
Topologas
EVOLUCIN
- 35 -
UTEM
- 34 -
OMV - INF 5141
17
- 36 -
18
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
DETALLE REDES
Topologas
UTEM
UTEM
REDES DE INTERCONEXIN REDES ESTTICAS
Tipos de Redes Estticas
(a)
(c)
(b)
(e)
(f)
(d)
(g)
(h)
Figura 3. Diversas topologas. Los puntos gruesos representan

conmutadores. No se muestran las CPU ni las memorias. (a) Una
estrella. (b) Una interconexin total. (c) Un rbol. (d) Un anillo. (e) Una
cuadrcula. (f) Un toroide doble. (g) Un cubo. (h) Un hipercubo 4D.
Anillo
Estrella
Mallas Mesh
rboles binarios
Hypertree
Pirmides
Hipercubos
Cubos conectados con ciclos
Redes de Bruijn
TEMA 1: INTRODUCCIN
UTEM
Topologa: Medidas de caracterizacin bsicas
UTEM
DETALLE REDES
ESTRELLA
Estrella: Red en la cual los nodos estn conectados directamente a

un punto central y todas las comunicaciones se han de hacer a
travs de esta
19
20
29/08/2012
UTEM

ANILLO
UTEM
Anillo: Nodos se conectan en forma de anillo.
UTEM
29/08/2012

RBOLES BINARIOS
Los nodos se disponen en un rbol binario.

MALLAS MESH
UTEM

HYPERTREE
Hypertree: Red con menos dimetro y mejor ancho de biseccin
Malla Mesh: consiste en un arreglo q-dimensional de nodos.
Hypertree profundidad 2 y grado 4
21
22
29/08/2012
UTEM

PIRAMIDES
29/08/2012
UTEM

HIPERCUBOS
UTEM
DETALLE REDES
CUBOS CONECTADOS CON CICLOS
Pirmides: combina las ventajas del Mesh con los rboles.
Pirmide de tamao 16
UTEM

RED BRUIJN
Red Bruijn con 8 nodos
23
24
29/08/2012
29/08/2012
DETALLE REDES
UTEM
UTEM
DETALLE REDES
BUSES
Tipos redes estticas
Bus compartido mltiple
Redes basadas en camino compartido

Conexin continua entre procesadores y memoria.
Procesadores compiten por acceder a los caminos.
Ejemplo: Buses
Redes conmutadas
Mecanismos de conmutacin para acceder a la memoria.
Mas costosas y eficientes.
1 Dimensin
Arbitraje en dos etapas
rbitros 1-N:
rbitro b de
2 y 3 dimensiones: Buses forman parrilla.
Ejemplos: Conmutador barra-cruz, redes multietapa.
UTEM
DETALLE REDES
BUSES
UTEM
Existe un nico bus que interconecta todos los mdulos.
DETALLE REDES
BUSES
Bus compartido mltiple

Arquitectura en cluster
Conexin mediante bus global
Caractersticas:
Econmica
No escalable
La lectura se divide en tres fases:

1. Transferencia de la direccin por el bus al controlador de memoria
2. El controlador ejecuta la operacin de lectura.
3. El transfieren los datos por el bus al procesador.
25
26
29/08/2012
UTEM
DETALLE REDES
CONMUTADOR BARRACRUZ
UTEM
Conmutador: rbitro + unidad de conexin bus-bus.

Acceso simultneo de todos los procesadores a todos los mdulos
de memoria.
Tiene un conmutador por cada pareja procesador mdulo de
memoria.
UTEM
29/08/2012
DETALLE REDES
REDES MULTIETAPA RED OMEGA
Red Omega
Red No bloqueante
DETALLE REDES
REDES MULTIETAPA
UTEM
DETALLE REDES
REDES MULTIETAPA RED SHUFFLE EXCHANGE
Redes Multietapa
Red Shuffle-Exchange
Mezcla entre Buses y Barra-Cruz
Los arcos Exchange conectan nodos cuyos nmeros difieren en el

bit menos significativo.
Conjunto de etapas de enlaces y conmutadores intercaladas.

Ejemplo
Red Omega
Red Shuffe Exchange
Red Butterfly
Red Shuffle Exchange con 8 nodos
27
28
29/08/2012
UTEM
DETALLE REDES
REDES MULTIETAPA-RED BUTTERFLY
29/08/2012
UTEM
Topologas Estticas
Ejemplo: Intel Paragon
Butterfly de 32 nodos
UTEM
Topologas Hbridas
UTEM
Topologas Estticas
Ejemplo: Cray T3E
29
30
29/08/2012
UTEM
Topologas Estticas
29/08/2012
UTEM
Topologas Hbridas
Propiedades:
Resumen de algunas caractersticas de las topologas de redes estticas conectando p
nodos.
TEMA 1: INTRODUCCIN
UTEM
Topologas Dinmicas
UTEM
TENDENCIAS
TENDENCIAS EN LAS APLICACIONES
- Ejemplo: IBM SP2/3
Demanda de mejor rendimiento promueve avances en hardware y

viceversa
La demanda de mejor rendimiento llevara a un incremento exponencial en el rendimiento
de los procesadores
El cmputo paralelo es adecuado para las aplicaciones ms demandantes
La demanda por mejor rendimiento vara entre aplicaciones
Es necesario ofrecer sistemas que crecen en rendimiento y costo de una manera
progresiva.
La presin por alto rendimiento es extrema para un conjunto pequeo de aplicaciones.
Incrementos moderados en rendimiento son necesarios para una amplia variedad de
aplicaciones
Medidas de eficiencia
Aceleracin (Speedup)
Nuevas Aplicaciones
Escalabilidad
Eficiencia
Ms Performance
OMV - INF 5141
31
- 64 -
32
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
UTEM
TEMA 1: INTRODUCCIN
TENDENCIAS
UTEM
3. TENDENCIAS
Curva de Aprendizaje
CMPUTO PARA INGENIERA
Computadoras con una gran cantidad de procesadores son
necesarias en una amplia variedad de industrias
Petrleo (anlisis de reservas)

Automotriz (simulacin de choques, eficiencia en la combustin de enerticos,
anlisis aerodinmico)
Aeronutica (anlisis de flujo, eficiencia de turbinas, mecnica estructural,
electromagnetismo)
Diseo asistido por computadora
Industria farmacutica (modelado molecular)
Visualizacin
entretenimiento
arquitectura
Modelado financiero
OMV - INF 5141
- 65 -
OMV - INF 5141
TEMA 1: INTRODUCCIN
UTEM
- 67 -
TEMA 1: INTRODUCCIN
3. TENDENCIAS
UTEM
Procesamiento de Voz e Imgenes
3. TENDENCIAS
CMPUTO COMERCIAL
Tambin requiere de computadoras paralelas
Las demandas no son tan altas como en el cmputo cientfico, pero su uso es
mucho ms amplio
El poder computacional determina la escala de los negocios que pueden ser
manejados
Bases de datos, procesamiento de transacciones en lnea, soporte de decisiones,
minera de datos (Data Mining) , ...
Benchmarks diseados por el Transaction Processing Performace Council (TPC)
Otra medidas de rendimiento: transacciones por minuto en una carga de trabajo tpica
tpmc - (throughput)
OMV - INF 5141
- 66 -
OMV - INF 5141
33
- 68 -
34
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
TEMA 1: INTRODUCCIN
3. TENDENCIAS
UTEM
3. TENDENCIAS
UTEM
AVANCES EN LA TECNOLOGA
2.400
RESULTADOS DE TPC
(Transaction Processing
Performace Council)
100 millones de transistores a inicios del siglo 21

La cantidad de transistores crece ms rpido que
las velocidades de reloj.
40% cada ao, un orden de magnitud en 20 aos
30% cada ao
Frecuencia de Relojes
Densidad de Transistores
Flops P IV: 5.6 billion floating-point operations per second

OMV - INF 5141
- 69 -
OMV - INF 5141
TEMA 1: INTRODUCCIN
TEMA 1: INTRODUCCIN
3. TENDENCIAS
UTEM
UTEM
AVANCES EN LA TECNOLOGA
La diferencia entre capacidad de memoria y velocidad es cada vez

ms pronunciada
La capacidad se incrementa por 1000x de 1980-95, la velocidad solo 2x
DRAM de gigabits para el siglo 21 pero la diferencia con la velocidad de los
procesadores ser mayor
Memorias grandes son ms lentas, mientras los procesadores se vuelven ms rpidos
Existe la necesidad de transferir ms datos en paralelo
Existe la necesidad de tener ms niveles de cache
El paralelismo incrementa el tamao efectivo de cada nivel de la jerarqua de memoria
sin incrementar el tiempo de acceso
Se debe explotar el paralelismo y la localidad de memoria entre los sistemas de
memoria
Lo mismo se debe aplicar a los discos: discos paralelos implica ms memoria cache
Instruction )
Explotar la localidad en los accesos de datos

evita la latencia de instrucciones y reducir CPI
mejora la utilizacin del procesador
El aspecto fundamental es distribuir recursos
actualmente 1/3 cmputo, 1/3 cache, 1/3 reloj
TENDENCIAS
ALMACENAMIENTO
Los avances se deben bsicamente en el decremento de la geometra de los CI (l)

los circuitos son ms rpidos y/o requieren menor potencia
El tamao de los CI se ha incrementado
El rango de reloj se incrementa de manera aproximadamente proporcional a la geometra
(l).
El nmero de transistores se incrementa del orden de l2 .
Rendimiento > 100x por dcada, 10x para relojes
Cmo usar ms transistores?
Aplicar paralelismo en el procesamiento
operaciones mltiples por ciclo de reloj reducen el promedio de CPI (Cycles Per
OMV - INF 5141
- 71 -
- 70 -
OMV - INF 5141
35
- 72 -
36
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
UTEM
TEMA 1: INTRODUCCIN
3. TENDENCIAS
UTEM
3. TENDENCIAS
TENDENCIAS EN LA ARQUITECTURA
PARALELISMO A NIVEL DE INSTRUCCIONES
La arquitectura toma provecho de los avances tecnolgicos para obtener mejor
rendimiento y ms capacidades
Las dos formas de usar ms transistores son:
Paralelismo
cuando varias operaciones se realizan en paralelo, el nmero de ciclos para ejecutar
un programa se reduce
Localidad
cada vez que las referencias se hacen cerca del procesador, la latencia del acceso a
niveles de acceso ms lentos se reduce y el nmero de ciclos para ejecutar el
programa tambin se reduce
Tendencia actual es incrementar el paralelismo
Hasta 1985: paralelismo a nivel de bits: 4 bits, 8 bits, 16 bits se empieza a reducir a partir
de 32 bits.
arquitecturas actuales de 64 bits
85-95: paralelismo a nivel de instrucciones pipelining, superescalar, ejecucin fuera de
orden, ejecucin especulativa, prediccin de saltos
OMV - INF 5141
Aceleraciones reportadas
para procesadores
superescalares
Grandes diferencias (varianza) debido a:

el dominio de aplicaciones investigado (numricas vs. no numricas) y las
capacidades del procesador modelado
- 73 -
OMV - INF 5141
TEMA 1: INTRODUCCIN
UTEM
- 75 -
TEMA 1: INTRODUCCIN
3. TENDENCIAS
UTEM
3. TENDENCIAS
POTENCIAL IDEAL DEL ILP
(Instruction-Level Parallelism )
FASES EN LA GENERACIN VLSI
Qu tan bueno es el
paralelismo a nivel de
instrucciones?
N instrucciones generadas
El siguiente paso: paralelismo a

nivel de hilos (multithreading)
OMV - INF 5141
N instrucciones generadas por ciclo
Condiciones ideales:
Recursos infinitos
Ancho de Banda ilimitado
Prediccin de saltos perfecta
Es necesario considerar cache real y latencias debido a fallas de cache
- 74 -
OMV - INF 5141
37
- 76 -
38
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
UTEM
TEMA 1: INTRODUCCIN
3. TENDENCIAS
3. TENDENCIAS
UTEM
100,000
RESULTADOS DE ESTUDIOS REALES
ANCHO DE BANDA
Sun E10000
Shared bus bandwidth (MB/s)
10,000
Procesadores que ejecutan 4 instrucciones simultneamente

Estudios reales muestran una aceleracin al doble
Estudios recientes sugieren que es necesario ir ms all de los bloques bsicos
1,000
SS690MP 120
SS690MP 140
Symmetry81/21
100
SGI PowerSeries
Power
Sequent B2100
Sequent
B8000
10
1984
OMV - INF 5141
SGI
Sun E6000
PowerCh
AS8400
XL
CS6400
HPK400
SC2000E
AS2100
SC2000
P-Pro
SS1000E
SS1000
SS20
SE70/SE30
SS10/
SE10/
SE60
SGI Challenge
- 77 -
OMV - INF 5141
1986
1988
1990
1992
3. TENDENCIAS
UTEM
Los procesadores rpidos empiezan a saturar al bus

actualmente existe una amplia variedad de sistemas de memoria
compartida de computadoras de escrito a servidores
MULTIPROCESADORES
1998
- 79 -
3. TENDENCIAS
ECONOMA
Los microprocesadores no son solamente rpidos sino tambin BARATOS
Los costos de desarrollo son decenas de millones de dlares (5-100 tpicos)
Sin embargo, se venden muchos ms microprocesadores comparados con las
supercomputadoras
Crucial para tomar ventaja de la inversin y usar a los microprocesadores como el
bloque bsico
Alternativas efectivas en costo y rendimiento
Multiprocesadores con un nmero limitado
Impulsados por vendedores de hardware y software (Ej. bases de datos).
Impulsados por Intel
Un mercado potencial grande
Cmputo Cientfico
El mercado es muy limitado
Dominado por procesadores de vectores durante los 79s
En los 90s, multiprocesadores de gran escala han ido reemplazando a las
supercomputadoras
Es natural conectar varios procesadores a una memoria

compartida
aplicado en servidores para negocios
OMV - INF 5141
1996
TEMA 1: INTRODUCCIN
TEMA 1: INTRODUCCIN
UTEM
1994
OMV - INF 5141
- 78 -
39
- 80 -
40
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
UTEM
TEMA 1: INTRODUCCIN
3. TENDENCIAS
UTEM
3. TENDENCIAS
LAS 500 COMPUTADORAS MS RPIDAS

RENDIMIENTO DE
UNIPROCESADORES
LINPACK
massively parallel
processing
pseudo-vector processing
Symmetrical Multiprocessor
OMV - INF 5141
- 81 -
OMV - INF 5141
TEMA 1: INTRODUCCIN
TEMA 1: INTRODUCCIN
UTEM
- 83 -
3. TENDENCIAS
UTEM
RENDIMIENTO DE
COMPUTADORAS
PARALELAS
3. TENDENCIAS
RESUMEN DE TENDENCIAS EN LAS APLICACIONES
Aun las computadoras Cray se han convertido en computadoras paralelas: X-
La transicin a cmputo paralelo ha ocurrido para aplicaciones de

ciencia e ingeniera
El cmputo paralelo se encuentra en progreso en el mbito del
cmputo comercial
Bases de datos, procesamiento de transacciones y modelos
financieros
Se utilizan sistema de pequea y mediana escala
Aplicaciones de escritorio utilizan programas multihilos
(multithreading) los cuales son parecidos a programas paralelos
Existe una gran demanda para mejorar el throughput en cargas de
trabajo secuenciales
Existen demandas slidas de las aplicaciones y se espera un
incremento en el futuro
MP(2-4), Y-MP(4-8), C-90(16), T94(32)
Desde 1993 Cray tambin produce computadoras paralelas masivas: T3D, T3E.
OMV - INF 5141
- 82 -
OMV - INF 5141
41
- 84 -
42
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
TEMA 1: INTRODUCCIN
UTEM
3. TENDENCIAS
3. TENDENCIAS
UTEM
RESUMEN DE TENDENCIAS
MEJORA DEL RENDIMIENTO
Tecnologa
Modos de mejorar el rendimiento

Trabajar mas duro: Usar hardware ms rpido, o reducir CPI
Trabajar mejor: Optimizar el cdigo y los algoritmos
Pedir ayuda: Usar mltiples procesadores (procesamiento paralelo)
Limitaciones de los computadores secuenciales

Limitaciones fsicas
Vectorizacin es slo adecuada para cierta clase de problemas
Mejoras estructurales, tales como segmentacin, ILP (superescalaridad,
ejecucin fuera de orden, ), no son suficientes para aplicaciones lmite, y
no son escalables
OMV - INF 5141
- 85 -
OMV - INF 5141
TEMA 1: INTRODUCCIN
TEMA 1: INTRODUCCIN
UTEM
- 87 -
3. TENDENCIAS
UTEM
RESUMEN DE TENDENCIAS
4. APLICACIONES QUE PRECISAN COMPUTACIN PARALELA
POR QU ORDENADORES MS POTENTES ?
Tecnologa
Paradigma tradicional cientfico y de la ingeniera

Formular la teora o realizar el diseo (sobre el papel)
Realizar la experimentacin o construir el sistema
Sustituir ambos por experimentos numricos
Los fenmenos reales son muy complejos como para modelizarlos a mano
Los experimentos reales son:
- demasiado duros: construir un gran tnel
- demasiado costosos: construir un avin de pasajeros (desechable)
- demasiado lentos: esperar por la evolucin glaciar
-demasiado peligrosos: drogas de diseo, armamento
El rendimiento de los procesadores se incrementa entre 50% y 100%

cada ao
La densidad de transistores en CI (circuitos integrados) se duplica cada 3
aos
La capacidad de la DRAM se cuadruplica cada 3 aos
Una gran inversin para desarrollo es posible al mercado existente
El paralelismo es una forma natural de mejorar el rendimiento
OMV - INF 5141
Por qu ordenadores paralelos? Los secuenciales son muy lentos
- 86 -
OMV - INF 5141
43
- 88 -
44
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
TEMA 1: INTRODUCCIN
UTEM
UTEM
SIMULACIONES MDICAS (HEART)
DESAFOS COMPUTACIONALES
Modelado global del clima

Simulacin dinmica 3d de colisiones
Modelado astrofsico
Modelado de estructuras anti-terremoto
Simulaciones mdicas (heart)
Bsquedas en web
Procesos transaccionales
Diseo de drogas
Evolucin de las especies
Armas nucleares
Muchas estructuras biolgicas pueden ser modelizadas como estructuras

elsticas en un fluido no-comprimible.
Usando el mtodo immersed boundary esto implica resolver sistemas de
ecuaciones de Navier-Stokes ms algunos cmputos especficos
[Peskin&McQueen]
20 aos de estudios en el modelo para disear vlvulas artificiales
Para un modelo exacto seras necesarios ordenadores 100 veces ms rpidos
que un Cray C90 y con 100 veces ms de memoria
MAYOR PODER COMPUTACIONAL => MODELO MS EXACTO (USABLE)
OMV - INF 5141
UTEM
- 89 -
OMV - INF 5141
- 91 -
TEMA 1: INTRODUCCIN
TEMA 1: INTRODUCCIN
UTEM
COMPUTACIN PARALELA EN BSQUEDAS EN WEB
MODELADO
GLOBAL DEL
CLIMA
Paralelismo funcional
Indexacin, ordenacin, crawling
Paralelismo en las preguntas
usuarios mltiples
Encontrar informacin dentro del caos
Preprocesado de la informacin en el web para facilitar las bsquedas
OMV - INF 5141
- 90 -
OMV - INF 5141
45
- 92 -
46
29/08/2012
29/08/2012
TEMA 1: INTRODUCCIN
UTEM
APLICACIONES PARALELAS
UTEM
RECUPERACIN DE LA INFORMACIN
Bsqueda de documentos tiles en la web

El algoritmo LSI (Latent Semantic Indexing) necesita multiplicar grandes y
dispersas estructuras matriz x vector
Matrices de 10 millones de documentos

Los webs incrementan su espacio cada 5 meses en un 100%
Ideas similares se pueden aplicar a la recuperacin de imgenes
OMV - INF 5141
- 93 -
OMV - INF 5141
- 95 -
UTEM
UTEM
Resumen
Caracteristicas de las Aplicaciones
Paralelas
OMV - INF 5141
- 94 -
OMV - INF 5141
47
- 96 -
48
29/08/2012
29/08/2012
UTEM
OMV - INF 5141
UTEM
- 97 -
OMV - INF 5141
- 99 -
UTEM
OMV - INF 5141
UTEM
- 98 -
OMV - INF 5141
49
- 100 -
50
29/08/2012
29/08/2012
UTEM
OMV - INF 5141
UTEM
- 101 -
OMV - INF 5141
- 103 -
UTEM
OMV - INF 5141
UTEM
- 102 -
OMV - INF 5141
51
- 104 -
52
29/08/2012
29/08/2012
UTEM
Evolution of Computing
UTEM
Web 2.0
Web 3.0
Web 4.0
OMV - INF 5141
- 105 -
OMV - INF 5141
UTEM
- 107 -
UTEM
Pervasive Computing
Computers have become an embed intrinsic part of a
sophisticated, networked, pervasive and ubiquitous
computing environments around humans.
Pervasive Computing: create a ubiquitous environment
that combines processors and sensors with network
technologies (wireless and otherwise) and intelligent
software to create an immerse environment to improve
life.
OMV - INF 5141
- 106 -
OMV - INF 5141
53
- 108 -
54
29/08/2012
29/08/2012
UTEM
UTEM
Some Current Projects

Pervasive computing (also called ubiquitous computing) is the
growing trend towards embedding microprocessors in everyday
objects so they can communicate information. The words
pervasive and ubiquitous mean "existing everywhere." Pervasive
computing devices are completely connected and constantly
available.
Pervasive
computing
relies
on
the
convergence
of wireless technologies, advanced electronics and the Internet.
The goal of researchers working in pervasive computing is to
create smart products that communicate unobtrusively. The
products are connected to the Internet and the data they generate
is easily available.
OMV - INF 5141
1. AHRIwww.cc.gatech.edu/fce/ahri
2. Aura: www-2.cs.cmu.edu/~aura/
3. Endeavour: endeavour.cs.berkeley.edu/
4. HawkTourhttp://www.cs.iit.edu/~scs/
5. Portolano: portolano.cs.washington.edu/
6. Oxyenhttp://oxygen.lcs.mit.edu
7. Smart Space: http://www.nist.gov/smartspace/
8. Sentient Computing: www.uk.research.att.com/spirit/
9. Cooltown: www.cooltown.com
10. EasyLiving: research.microsoft.com/easyliving
11. WebSphere Everyplace: www-3.ibm.com/software/pervasive
- 109 -
OMV - INF 5141
- 111 -
ESTADO DEL ARTE

Computacin Paralela
UTEM
UTEM
Pervasive Computing Applications
IBM Roadrunner: Uno de los superordenador

ms potente del mundo
Roadrunner (correcaminos) es un supercomputador del

Laboratorio Nacional Los lamos en Nuevo Mexico. Ha sido
diseado conjuntamente por IBM y el personal del laboratorio
y es actualmente el supercomputador ms rpido, diseado
para un rendimiento ptimo de 1,026 petaflops, alcanzado en
junio de 2008.
Est equipado con ms 12.000 procesadores tipo PowerXCell

8i mejorados, diseados originalmente para la videoconsola
Sony Playstation 3, colocados en paralelo y 6.912
procesadores Opteron de AMD, unidos mediante 92 km de
fibra ptica en un sistema triblade con InfiniBand. En total
ocupa aproximadamente 1.100 m2.
El Roadrunner funciona bajo el sistema operativo Red Hat

Enterprise Linux y el software de computacin distribuida
xCAT.
Imagen del superordenador

'Roadrunner'. (Foto: IBM)
FUENTE: www.ibm.com, 14 de junio de 2008
OMV - INF 5141
- 110 -
55
56
29/08/2012
UTEM
29/08/2012
ESTADO DEL ARTE

Computacin Paralela
ESTADO DEL ARTE

Computacin Paralela
UTEM
Con un consumo estimado de tres megavatios,

su coste fue de 133 millones de dlares. Fue
instalado en un principio en el centro de IBM
en Poughkeepsie (Nueva York), para despus
ser trasladado al Laboratorio Nacional Los
lamos en Nuevo Mxico, donde se dedicar a
actuar como patrn de seguridad del arsenal
de armas nucleares de Estados Unidos,
adems de al estudio de problemas
relacionados con el clima, la astronoma o la
genmica.
Ranger, Un supercomputador de
Sun
Para hacernos una idea, desde la oficina de

seguridad nuclear de EEUU, citada por el
diario New York Times ponen este ejemplo:
Si los 6.000 millones de habitantes de la
Tierra usaran calculadoras de mano durante
las 24 horas del da, todos los das de la
semana, tardaran 46 aos en realizar todos
los clculos que 'Correcamnios' realiza en un
solo da.
Imagen del superordenador

'Roadrunner'. (Foto: IBM)
FUENTE: www.ibm.com, 14 de junio de 2008
Sun Microsystems, en colaboracin con el

Texas Advanced Computing Center de la
Universidad de Texas (TACC), desarroll un
supercomputador llamado Ranger que, de
acuerdo a los datos facilitados por ambas
entidades, se coloca por derecho propio entre
la lite de los ms potentes superordenadores
del Planeta.
Est basado en el Sun Constellation System,

un entorno de computacin creado por la
propia Sun en 2007, y es capaz de realizar
hasta 504.000.000.000.000 operaciones en
coma flotante por segundo. Es decir, que
alcanza los 504 teraFLOPS, una cifra
espectacular que, por ejemplo, supera
ampliamente los 63,8 teraFLOPS del
MareNostrum, el supercomputador ms
potente de Espaa. An as contina por
debajo del petaFLOP que puede conseguir el
gigante de los gigantes de la
supercomputacin: el Blue Gene/P de IBM.
Algunos datos interesantes de Ranger:
El supercomputador est compuesto por 82 racks de la

gama Sun Blade 6048
Cada rack alberga en su interior a 48 servidores Sun Fire

6000, es decir, cuenta con un total de 3.936 servidores
Cada uno de estos servidores est impulsado por 4

procesadores quad-core de AMD
Por lo tanto, este supercomputador tiene 15.744

procesadores AMD de 4 ncleos
FUENTE: www.abadiadigital.com, 13 de marzo de 2008
ESTADO DEL ARTE

Computacin Paralela
ESTADO DEL ARTE

Computacin Paralela
UTEM
UTEM
Supercomputador
Jaguar asciende a 263
Tflops
Jaguar instalado en el ORNLs National Center

for Computational Sciences, ser actualizado
con 7.832 procesadores Opteron a 2,1 GHz de
cuatro ncleos para alcanzar 263 Tflops. Cada
ncleo contar adems con 2 GB de memoria
alcanzando 62 TB totales.
El supercomputador presta servicio al

departamento de energa estadounidense y a
30 proyectos de universidades y compaas
privadas, centrados en simulacin de nuevos
reactores, fabricacin de biocombustibles,
efectos climticos de los gases de efecto
invernadero o nuevas fuentes energticas
FUENTE: www.nccs.gov, 17 de mayo de 2008
El sistema basado en Cray XT4 permite construir un

clster a partir de sistemas de bajo coste
conectndolos a una red de alta velocidad, en este
caso una SeaStar del mismo fabricante.
Sistemas Unix y SUSE Linux gobiernan el sistema

Jaguar como lo hacen en los principales sistemas de
computacin. Una lista del verano de 2007 mostraba
8 Linux y 2 Unix gobernando las 10 principales
supercomputadoras mundiales.
En el grfico se muestra el
Nmero de Procesadores
compartidos durante el tiempo.
Abarcando un periodo desde

junio de 1993 hasta junio de
2008.
FUENTE: www.top500.org
57
58
29/08/2012
ESTADO DEL ARTE

Computacin Paralela
UTEM
En el grfico se muestra la Familia
de Procesadores compartidas
durante el tiempo.
29/08/2012
UTEM
CASO EJEMPLO
Abarcando un periodo desde junio

de 1993 hasta junio de 2008.
TECNOLOGA MULTICORE
UTEM
ESTADO DEL ARTE

Tecnologa Multicore
ESTADO DEL ARTE

Computacin Paralela
UTEM
Conelpasodeltiempo,lademandadeunmayorpodercomputacionalvacreciendoyporellose
vancreandonuevasformasdecumplirconsta.Tradicionalmente,losdesarrolladoresdesistemas
sehanenfocadoentresvariablesqueinfluyen(endistintosnivelesdeimportancia)enmejorarel
rendimientodeunmicroprocesador:velocidaddereloj,velocidaddelbusyelcach.
En el grfico se muestra la
Arquitectura compartida durante el
tiempo.
Mientrasmsaumentalavelocidaddereloj,msprocesospuedensermanejadosporsegundo.Sin
embargo,esmuydifcilaumentarlavelocidadderelojsingenerarcalorexcesivo(debidoala
cantidaddetransistoresquesenecesitan).Amedidaquelosprocesadoresfueroncreciendode
manerasuperescalar,laenergaconsumidadeuntpicomicroprocesadorpasde1Wa100W.
Abarcando un periodo desde junio de

1993 hasta junio de 2008.
Grfico
Consumo de energa de procesadores
Intel. Potencia en watts por ao.
Fuente: Universidad Catlica Nuestra Seora de la

Asuncin, Facultad de Ciencias y Tecnologa. trabajo
practico de Teora y Aplicaciones de la Informtica 2,
Tecnologa Multicore. Prof. Ing. Juan E. de Urraza,
Sept. 2006.
59
60
29/08/2012
29/08/2012
ESTADO DEL ARTE

Tecnologa Multicore
ESTADO DEL ARTE

Tecnologa Multicore
UTEM
UTEM
SOLUCIN
El problema de los sistemas (SMP y anlogos) es que la memoria es mucho ms lenta
que los procesadores que acceden a ella, y hasta mquinas con un solo procesador
tienden a pasar un tiempo considerable esperando que los datos lleguen de la
memoria.
El caso de SMP es peor, ya que slo un procesador puede acceder a la memoria en un
momento dado; haciendo posible que varios procesadores queden colgados. SMP es
slo un estilo de arquitecturas multiprocesador;
Otras arquitecturas incluyen NUMA, que dedican distintos bancos de memoria a
procesadores diferentes. Esto permite que los procesadores se accedan a la memoria
en paralelo, lo cul mejora la eficiencia si los datos se mapean a procesos especficos.
Sin embargo, el problema de NUMA es que el costo de mover datos de un procesador
a otro es muy elevado.
Aunque los multiprocesadores son una opcin interesante, todava acarrean ciertos
problemas (a parte de los mencionados en los casos de SMP y NUMA) a medida que
aumenta el nmero de procesadores.
Los diseadores de microprocesadores siguieron utilizando ms transistores en los

ncleos para agregar ms capacidad superescalar y de pipelining. El efecto global
fue el incremento exponencial en la generacin de calor debido a la energa
necesaria para el procesamiento. Este problema se vio cuando Intel lanz su
Pentium 4 con tecnologa de 90 nanmetros y 125 millones de transistores. El
consumo pasaba de 90 W a casi 120 W para frecuencias altas. La causa principal
es que hay una corriente de fuga cuando el transistor est desactivado o activado
que aumenta con la frecuencia. Con ms transistores y por encima de los 3,5 GHz,
el consumo de energa debido a estas perdidas se dispara calentndose
muchsimo el chip.
ESTADO DEL ARTE

Tecnologa Multicore
ESTADO DEL ARTE

Tecnologa Multicore
UTEM
UTEM
ALTERNATIVAS
PROBLEMAS
DBS (Demand-Based Switching). DBS permite al procesador reducir el consumo de

energa (bajando la frecuencia y el voltaje) durante los periodos de baja demanda
computacional. DBS est disponible en procesadores single-core actualmente, y su
inclusin en procesadores multicore puede favorecer a la administracin del consumo
de energa, y eventualmente de la generacin de calor.
Considerando que la cantidad de chips crece (uno por procesador) y por tanto,
tambin lo hace el costo. Todo esto, llev a los diseadores de microprocesadores a
idear una tecnologa original que evite la generacin de calor al incrementar el
rendimiento y al mismo tiempo reduzca los costos de fabricacin y por ende, de venta
al usuario final.
Implementando mejores mecanismos de cach. Sin embargo, aunque se agreguen ms

cachs la mejora no es linear (es decir, doblar la cantidad de cachs slo mejora un
poco el rendimiento global del chip y aumenta el costo significativamente).
SMP (Symmetric Multiprocessing). En esta arquitectura dos o ms procesadores
idnticos se conectan a una memoria principal compartida. Los sistemas SMP
permiten a cualquier procesador trabajar sobre cualquier tarea sin importar donde los
datos para sta tarea se localicen en memoria.
MULTICORE
61
62
29/08/2012
29/08/2012
ESTADO DEL ARTE

Tecnologa Multicore
ESTADO DEL ARTE

Tecnologa Multicore
UTEM
UTEM
ARQUITECTURA
ARQUITECTURA
Un chip multicore o CMP (chip multiprocessor) es un circuito integrado, en el cual se

encuentran dos o ms ncleos de procesamiento. El ncleo o core de un
microprocesador es el encargado de realizar todo el trabajo duro. Contiene los cachs
L1 y L2, la unidad aritmtica, el mecanismo de prediccin de pipeline, el controlador
de interrupciones, etctera. Esto, aparte de ofrecer un mayor rendimiento, ayuda a
reducir el consumo de energa general y permite un mejor procesamiento de tareas
simultneas. Idealmente, un procesador dual-core es casi el doble de poderoso que un
procesador single-core. Sin embargo, en la prctica, las ganancias de rendimiento
llegan a un cincuenta por ciento (50%)..
EJEMPLOS
Multithreaded shared-cache chip multiprocessor
ESTADO DEL ARTE

Tecnologa Multicore
ESTADO DEL ARTE

Tecnologa Multicore
UTEM
UTEM
ARQUITECTURA
VENTAJAS MULTICORE
EJEMPLOS
Aunque existe una controversia de si mltiples cores en un chip son

equivalentes a mltiples procesadores se considera que s hay diferencia
entre ambos.
Los sistemas multiprocesadores ubican sus procesadores en distintas piezas
y el paso de datos entre ambos es lento porque el viaje se realiza off-chip.
En el caso de multicore, los ncleos de procesamiento estn la misma pieza
de silicio y gracias a su proximidad permiten aumentar la velocidad del flujo
de informacin entre ellos.
Arquitectura que slo comparte la interfaz
entre cores
Arquitectura que comparte niveles de

cach on-chip
Multi Core CPU Chip
63
64
29/08/2012
29/08/2012
ESTADO DEL ARTE

Tecnologa Multicore
ESTADO DEL ARTE

Tecnologa Multicore
UTEM
UTEM
VENTAJAS MULTICORE
DESVENTAJAS MULTICORE
La proximidad de mltiples cores en una misma pieza tienen la ventaja de que la

coherencia de cach puede operar a una velocidad ms alta de reloj que si las
seales viajasen off-chip (fuera de chip entre microprocesadores).
Un procesador con dos ncleos utiliza menos energa que dos procesadores de un
ncleo emparejados, principalmente por la energa extra necesaria para enviar
seales externas al chip y porque la geometra del silicio permite a los ncleos
operar a voltajes ms bajos; lo cual reduce la latencia.
Con un nico procesador, una aplicacin exigente pone a trabajar a tope al
procesador, generando gran cantidad de calor. Si existen diversos cores, se
balancear la carga de forma ms eficiente (o el trabajo se dar a un core mientras el
otro reposa en el caso del dual-core) lo que en conjunto hace que se genere menor
energa. Incluso, si una aplicacin multi-hilo coloca peridicamente a pleno
rendimiento a todos los ncleos a la vez, esto ocurrir de forma intermitente,
pudiendo bajar la temperatura en el intermedio.
Se deben realizar ajustes a las aplicaciones existentes para que maximicen la

utilizacin de los recursos computacionales provistos por los procesadores
multicore. As mismo, la habilidad de los procesadores multicore de incrementar
el rendimiento depende del uso de mltiples hebras en las aplicaciones. Por
ejemplo, la mayora de los video juegos corren ms rpido en un procesador
single-core de 3GHz que en un dual-core de 2GHz (tecnologa ao 2006, por
ejemplo), porque son incapaces de utilizar de forma eficiente ms de un ncleo a la
vez.
El hecho que dos ncleos de procesamiento compartan el mismo sistema de bus y
el ancho de banda de memoria limita el real aprovechamiento de la tecnologa. Si
un slo core tiene problemas con el ancho de banda de memoria, ir a la tecnologa
dual-core slo mejorar en un rango de 30 a 70%.
Multicore tiene inconvenientes en el sistema de interconexin, que est limitado
por la resistencia y capacitancia de los conectores, sean aluminio, cobre u otro
metal de mejores propiedades o el uso de semiconductores diferentes al silicio
como el germanio, indio o compuestos como SiGe o InP.
ESTADO DEL ARTE

Tecnologa Multicore
ESTADO DEL ARTE

Tecnologa Multicore
UTEM
UTEM
VENTAJAS MULTICORE
APROVECHAMIENTO DE LA TECNOLOGA MULTICORE EN EL SOFTWARE
El software se beneficia de las arquitecturas multicore en los casos donde el

cdigo puede ser ejecutado en paralelo. Bajo la mayora de los sistemas operativos
ms comunes esto requiere que el cdigo se ejecute en distintos hilos. Cada
aplicacin que se ejecuta en un sistema corre en su propio thread y as mltiples
aplicaciones se benefician del multicore. As mismo, cada aplicacin puede tener
varios threads de ejecucin y la misma debe ser escrita especficamente para
realizar esto.
El sistema operativo tambin tiende a ejecutar muchos hilos como parte normal de
su operacin. La ejecucin de mquinas virtuales se beneficia tambin de la
adopcin de las arquitecturas multicore ya que cada mquina virtual corre
independiente de las otras y puede ser ejecutada en paralelo.
MP requiere slo un esfuerzo modesto de ingeniera para cada generacin de

procesadores. Cada miembro de la familia de procesadores slo requiere copias
adicionales del core y hacer algunas modificaciones a la lgica de conexin entre
los ncleos para acomodar los procesadores adicionales en cada generacin
(evitando as una completo rediseo). Ms an, el circuito tpicamente slo
necesita ajustes menores de generacin en generacin, ya que externamente CMP
no cambia en esencia a medida que aumenta la cantidad de cores.
La eficiencia del sistema mejora cuando el sistema ejecuta mltiples aplicaciones
y se aprovechan las aplicaciones multi-hilo, como motores de bases de datos y
software de ingeniera y grficos. A diferencia de single-core que asigna periodos
de tiempo a cada tarea, multicore puede correr tareas de forma simultnea.
65
66
29/08/2012
29/08/2012
ESTADO DEL ARTE

Tecnologa Multicore
AMD:
OPTERON & ATHLON 64 X2
UTEM
UTEM
APROVECHAMIENTO DE LA TECNOLOGA MULTICORE EN EL SOFTWARE
La mayora de los programas no estn escritos para utilizar mltiples threads

debido al desafo de hacerlo. La programacin de cdigo multihilo requiere, a
veces, la coordinacin compleja de los threads y puede introducir dificultades en
el proceso de encontrar bugs debido a los datos que se comparten entre los
distintos hilos. As tambin, existe una falta de motivacin para escribir
aplicaciones multi-hilo porque muchas veces las ventajas que introducen en teora
no son realmente aprovechadas en la prctica.
Las tcnicas de programacin paralela pueden aprovechar al mximo las
arquitecturas multicore. Algunos modelos de programacin paralela existentes son
OpenMP y MPI.
Entre los sistemas que utilizan plenamente las tecnologas multicore se citan:
Maya, Blender3D, Quake 3 & 4, Allied Force, 3DS Max, Adobe Photoshop,
Windows XP Professional, Windows 2003, Mac OS X, Linux, GigaSpaces EAG y
muchos sistemas operativos orientados al uso de servidores.
OMV - INF 5141
ESTADO DEL ARTE

Tecnologa Multicore
- 135 -
ESTADO DEL ARTE

Tecnologa Multicore
UTEM
UTEM
EJEMPLOS COMERCIALES (algunos)
Tecnologa Multicore de Intel
Tecnologa Multicore de AMD
Tecnologa Multicore de Intel
Dic.2011
Quadcore de Intel
67
Dic.2011
68
29/08/2012
29/08/2012
ESTADO DEL ARTE

Tecnologa Multicore
ESTADO DEL ARTE

Tecnologa Multicore
UTEM
UTEM
The 50Gbps Silicon Photonics

Is the latest development from the
Intel Tera-scale Computing Research
Program.
The Teraflops Research Chip

and 80 simple core.
The research chip implements 80 simple

cores, each containing two
programmable floating point engines
the most ever to be integrated on a single
chip. Floating point engines are used for
accurate calculations, such as for
graphics as well as financial and
scientific modeling. In terms of circuit
design, they are more complex than
integer engines, which just process
instructions.
Dic.2011
Dic.2011
ESTADO DEL ARTE

Tecnologa Multicore
ESTADO DEL ARTE

Tecnologa Multicore
UTEM
UTEM
Tera-scale Computing Research Vision
Hafnium-based Intel 45nm Process

Technology 8 Cores
By scaling multi-core architectures to

10s to 100s of cores and embracing a
shift to parallel programming, we aim to
improve performance and increase
energy-efficiency.
Processors on an Intel 45nm

Hafnium-based High-k Metal Gate
''Penryn'' Wafer photographed with
an original Intel Pentium processor
die.
Using an entirely new transistor
formula, the new processors
incorporate 410 million transistors
for each dual core chip, and 820
million for each quad core chip.
The original Intel Pentium
Processor only has 3.1 million
transistors
"Tera" means 1 trillion, or

1,000,000,000,000.
The vision of INTEL is to create
platforms capable of performing trillions
of calculations per second (teraflops) on
trillions of bytes of data (terabytes).
Dic.2011
Dic.2011
69
70
29/08/2012
29/08/2012
ESTADO DEL ARTE

Tecnologa Multicore
UTEM
UTEM
EJEMPLO DE DESEMPEO:
JUEGOS: EFICIENCIA EN RENDERIZACIN 3D
UTEM
EJEMPLO DE DESEMPEO:
JUEGOS

Technology 8 Cores
There are 1 billion nanometers (nm) in one meter. A meter is approximately 3 feet
The original transistor built by Bell Labs in 1947 could be held in your hand, while hundreds of Intels new
45nm transistors can fit on the surface of a single red blood cell.
If a house shrunk at the same pace transistors have, you would not be able to see a house without a
microscope. To see the 45nm transistor, you need a very advanced microscope.
The price of a transistor in one of Intels forthcoming next-generation processors -- codenamed Penryn -- will
be about 1 millionth the average price of a transistor in 1968. If car prices had fallen at the same rate, a new
car today would cost about 1 cent.
You could fit more than 2,000 45nm transistor gates across the width of a human hair.
You could fit more than 30 million 45nm transistors onto the head of a pin, which measures approximately
1.5 million nm (1.5 mm) in diameter.
More than 2 million 45nm transistors could fit on the period at the end of this sentence (estimated to be 1/10
square millimeter in area).
A 45nm transistor can switch on and off approximately 300 billion times a second. A beam of light travels
less than a tenth of an inch during the time it takes a 45nm transistor to switch on and off.
Dic.2011
ESTADO DEL ARTE

Tecnologa Multicore
UTEM

Technology 8 Cores
45nm Size Comparison
o A nail = 20 million nm
o A human hair = 90,000nm
o Ragweed pollen = 20,000nm
o Bacteria = 2,000nm
o Intel 45nm transistor = 45nm
o Rhinovirus = 20nm
o Silicon atom = 0.24nm
Dic.2011
71
72
29/08/2012
UTEM
DISIPACIN TRMICA
VIRTUALIZACIN
UTEM
Virtualization:
Mejora el rendimiento de las aplicaciones relacionadas con virtualizacin, que es
la gestin de varios sistemas operativos desde un mismo puesto.
En ambiente de servidores multicore, donde existen mltiples
usuarios, la aplicacin multi-core
por excelencia es la virtualizacin.
Mltiples usuarios equivalen a
mltiples threads (hilos paralelos de
procesamiento.)
OMV - INF 5141
- 146 -
73

Slides01CP2012AntecedentesGenerales

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Slides01CP2012AntecedentesGenerales

Cargado por

Copyright:

Formatos disponibles

29/08/2012

OMV - INF 5141

INGENIERA CIVIL EN COMPUTACIN

OMV - INF 5141

OMV - INF 5141

Computador paralelo: Capaz de ejecutar varias instrucciones

OMV - INF 5141

Necesidad de la computacin paralela

Limitaciones fsicas de la computacin secuencial

OMV - INF 5141

Ejemplo: Ordenar un conjunto de libros

Necesidad de la Computacin paralela. Ejemplo

Libros organizados en estantes.

OMV - INF 5141

COMPUTADOR PARALELO - VENTAJAS

Impacto sobre gran variedad de areas

OMV - INF 5141

ALCANCE LA COMPUTACIN PARALELA

OMV - INF 5141

ASPECTOS DE LA PROGRAMACIN PARALELA

OMV - INF 5141

OMV - INF 5141

Sntesis de imgenes Fotorealistas

OMV - INF 5141

Simulacin de aguas poco profundas en GPUs

Las primeras mquinas constaban:

OMV - INF 5141

OMV - INF 5141

WorldCom (NASDAQ: WCOM) es una destacada empresa global de

La empresa se ha establecido como competidor local en infraestructuras de

OMV - INF 5141

Los servicios de telecomunicaciones suponen tres cuartas partes del

OMV - INF 5141

OMV - INF 5141

OMV - INF 5141

Resumen Trafico PIT Interconectados (24 hrs)

Ej. Entrega de paquetes de:

OMV - INF 5141

Resumen Trafico PIT Interconectados (24 hrs)

Resumen Trafico PIT Interconectados (24 hrs)

OMV - INF 5141

OMV - INF 5141

PIT Global Crossing

(Punto de Intercambio de Trfico )

Estadsticas actualizadas el Lunes 12 de Diciembre de 2011 a las 17:05

OMV - INF 5141

Estadsticas actualizadas el Lunes 12 de Diciembre de 2011 a las 17:05

OMV - INF 5141

Enlaces de conexin de trfico Internet

Ej. PIT ENTEL

Topologas Regulares: Lineales y Anillos

OMV - INF 5141

Topologas Regulares: Mallas y Toros

Usadas en algoritmos sobre arrays 2D y 3D

OMV - INF 5141

OMV - INF 5141

OMV - INF 5141

OMV - INF 5141

OMV - INF 5141

REDES DE INTERCONEXIN REDES ESTTICAS

Tipos de Redes Estticas

Figura 3. Diversas topologas. Los puntos gruesos representan

Topologa: Medidas de caracterizacin bsicas