Está en la página 1de 37

29/08/2012

UTEM

29/08/2012

UTEM

ASIGNATURA
COMPUTACIN PARALELA
Departamento de Computacin e
Informtica

Facultad de Ingeniera

INTRODUCCIN

2012

Oscar Magna V.
Civil Engineering on Computer Science & MBA
Dr (c) in Business Management and Administration
Technological Metropolitan University
Santiago of Chile
omagna@utem.cl, osemav@gmail.com
http://omagna.tripod.com
(56-2) 787.7211
C H I L E.

OMV - INF 5141

UTEM

COMPUTACION PARALELA

-3-

UTEM

COMPUTACIN PARALELA
INF - 5141
1.
2.
3.

Introduccin
Modelos y Topologas
Mtricas (I)

INGENIERA CIVIL EN COMPUTACIN


Mencin Informtica
UNIVERSIDAD TECNOLGICA METROPOLITANA
Oscar E. Magna V.
Ingeniero Civil en Informtica & MBA
Dr (c ) en Administracin y Direccin de Empresas
omagna@utem.cl
http:// omagna.tripod.com

OMV - INF 5141

COMPUTACION PARALELA

Slide-1
-2-

OMV - INF 5141

COMPUTACION PARALELA

-4-

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN
UTEM

TEMA 1: INTRODUCCIN

NOCIONES BASICAS

UTEM

Computador paralelo: Capaz de ejecutar varias instrucciones


simultneamente..
Computacin Paralela: Uso de varios procesadores trabajando juntos para
resolver una tarea comn:
Cada procesador trabaja en una porcin del problema.
Los procesos pueden intercambiar datos, a travs de la direcciones de
memoria compartidas o mediante una red de interconexin.
Programacin Paralela: Considera aspectos conceptuales y las
particularidades fsicas de la computacin paralela.
Objetivo: Mejorar las prestaciones mediante un buen aprovechamiento de la
ejecucin simultanea.

OMV - INF 5141

COMPUTACION PARALELA

NOCIONES BASICAS

Necesidad de la computacin paralela

Limitaciones fsicas de la computacin secuencial


Limite de la velocidad de la luz: Estancamiento en los incrementos de la
frecuencia de reloj.
Limite de Integracin: Cerca del limite mximo.
Mas frecuencia Mas consumo + Temperaturas muy elevadas
Problemas con complejidad elevada
Dentro de los problemas tratables (tiempo polinomial) existen:
Problemas de gran dimensin: costo polinomial de grado alto o
aplicabilidad a grandes problemas.
Problemas de tiempo real
Problemas de gran desafo: gran importancia social. Estudio del genoma
humano, prediccin meteorolgica mundial, modelado fenmenos ssmicos,
...

-5-

OMV - INF 5141

COMPUTACION PARALELA

TEMA 1: INTRODUCCIN
UTEM

NOCIONES BASICAS

-7-

TEMA 1: INTRODUCCIN

Ejemplo: Ordenar un conjunto de libros

UTEM

NOCIONES BASICAS

Necesidad de la Computacin paralela. Ejemplo

Libros organizados en estantes.


Estantes agrupados en estanteras.
Una persona
Velocidad limitada.
Varias personas Enfoques
a) Repartir libros entre trabajadores + ordenac.
simultnea.
Trabajadores deben desplazarse.
Repartir libros y estanteras
Si trabajador encuentra un libro suyo lo
almacena.
Si no, lo pasa al responsable.
Aspectos de la solucin paralela:
Descomposicin: Tarea es dividida es subtareas.
Asignacin: tareas son asignadas a trabajadores.
Comunicacin: Trabajadores deben cooperar.
Diferentes soluciones paralelas de un problema
OMV - INF 5141

COMPUTACION PARALELA

-6-

OMV - INF 5141

COMPUTACION PARALELA

-8-

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN
UTEM

TEMA 1: INTRODUCCIN

COMPUTADOR PARALELO - VENTAJAS

UTEM

Impacto sobre gran variedad de areas


Desde simulaciones para ciencia e ingeniera a aplicaciones comerciales en minera de datos y
procesamiento de transacciones.
Argumento de peso: Beneficios de costo + requisitos rendimiento de aplicaciones
Aplicaciones en Ingenieria y Diseno
Diseo de aviones, Circuitos de alta velocidad, estructuras, etc..
Diseo de sistemas nano electromecnicos: Mltiples escalas espaciales y temporales, varios
fenmenos fsicos acoplados, etc.
Modelos matemticos, modelos geomtricos, desarrollo de algoritmos, etc.
Optimizacin discreta/continua: Optimizacin lineal, Branch-and-Bound (Ramificacin y
Acotamiento para la resolucin de modelos de Programacin Entera), Progr. Gentica.
Aplicaciones cientificas
Bioinformtica: Anlisis de secuencias biolgicas nuevas medicinas, curar enfermedades
Fsica computacional: prediccin meteorolgica, Astrofsica, prediccin inundaciones, etc.
Aplicaciones Comerciales
Grandes servidores de bases de datos: Wall Street
Anlisis para optimizar negocios y decisiones de mercado, minera de datos, etc.

Computador paralelo.
Multiprocesadores, procesadores multicore, GPUs, etc.
Varios ordenadores (paralelos o no) interconectados
clusters de ordenadores
Ventajas
Mas velocidad de ejecucin y precisin clculos
Buena relacin costo/prestaciones
Permite atacar problemas considerados irresolubles

OMV - INF 5141

COMPUTACION PARALELA

ALCANCE LA COMPUTACIN PARALELA

-9-

OMV - INF 5141

COMPUTACION PARALELA

TEMA 1: INTRODUCCIN
UTEM

TEMA 1: INTRODUCCIN

ASPECTOS DE LA PROGRAMACIN PARALELA

OMV - INF 5141

COMPUTACION PARALELA

- 11 -

UTEM

- 10 -

EJEMPLOS

OMV - INF 5141

Simulacin de semiconductores 2D

COMPUTACION PARALELA

- 12 -

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN
UTEM

EJEMPLOS

TEMA 1: INTRODUCCIN

Sntesis de imgenes Fotorealistas

UTEM

EVOLUCIN

DEMANDAS COMPUTACIONALES

16 Flops/seg
OMV - INF 5141

COMPUTACION PARALELA

- 13 -

OMV - INF 5141

GRANDES PROBLEMAS
Cambios Globales
Genoma Humano
Turbulencia de fluidos
Cinemtica de vehculos
Movimiento de los ocanos
Dinmica de los fluidos vizcosos
Modelamiento de los superconductores
Dinmica cromo-cuntica (QCD: Quantum Chromo
Dynamics )
Visin

19 Flops/seg
COMPUTACION PARALELA

TEMA 1: INTRODUCCIN
UTEM

EJEMPLOS

112 Flops/sesg
- 15 -

TEMA 1: INTRODUCCIN

Simulacin de aguas poco profundas en GPUs

UTEM

EVOLUCIN

Las primeras mquinas constaban:


Colecciones de microprocesadores,
Colas bidireccionales entre procesadores vecinos.
Los mensajes son reenviados por los procesadores intermedios.
Fuerte estudio de las topologas y los algoritmos de encaminamiento.

OMV - INF 5141

COMPUTACION PARALELA

- 14 -

OMV - INF 5141

COMPUTACION PARALELA

- 16 -

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN
UTEM

LATENCIA

EVOLUCIN

UTEM

WorldCom
Para tener un nmero grande de transferencias simultneas es necesario una gran
cantidad de caminos distintos.
Las redes son como las carreteras:

WorldCom (NASDAQ: WCOM) es una destacada empresa global de


comunicaciones para la generacin digital que opera en ms de 65 pases y
que en el ao 2000 alcanz unos ingresos de aproximadamente 40.000
millones de dlares (pero con problemas financieros en el ao 2010).

link = calle
switch = interseccin
distancias (hops) = nmero de tramos atravesados
algoritmos de enrutamiento = plan de viaje

La empresa se ha establecido como competidor local en infraestructuras de


red con ms de 107 partners, en 91 pases de todo el mundo y en los 6
continentes.

Propiedades
Latencia (velocidad)
Ancho de Banda
- limitado por el nmero de caminos
- y por la velocidad que acepta cada camino

OMV - INF 5141

COMPUTACION PARALELA

Los servicios de telecomunicaciones suponen tres cuartas partes del


mercado global, que asciende a alrededor de 1 Billn de dlares.

- 17 -

OMV - INF 5141

LATENCIA

COMPUTACION PARALELA

- 19 -

LATENCIA

UTEM

UTEM

WorldCom
Latencia (latency): tiempo que tarda un
paquete de datos en llegar desde su origen a
su destino
La Latencia no es constante en el tiempo, por
lo que tambin hay que considerar su
variacin, concepto que se conoce con el
nombre de Jitter

OMV - INF 5141

COMPUTACION PARALELA

- 18 -

OMV - INF 5141

COMPUTACION PARALELA

- 20 -

10

29/08/2012

29/08/2012

LATENCIA
UTEM

UTEM

INDICADORES DE CALIDAD
ENLACES DE CONEXION DE TRFICO INTERNET

Resumen Trafico PIT Interconectados (24 hrs)


Claro

WorldCom
Ej. Cifras mensuales de latencia mensual
55ms o menos por viajes de ida y vuelta dentro de Europa y dentro de
Norteamrica (para los clientes de EE.UU. y Canad).
55ms o menos por viajes regionales de ida y vuelta dentro de Europa y dentro de
Norteamrica (para los clientes que no son de EE.UU. y Canad).
95ms o menos para viajes transatlnticos de ida y vuelta entre Londres y Nueva
York.

Ej. Entrega de paquetes de:


99.5 por ciento o ms para viajes regionales de ida y vuelta dentro de Europa y
Norteamrica.
99.5 por ciento o ms para viajes transatlnticos de ida y vuelta entre Londres y
Nueva York.
OMV - INF 5141

UTEM

COMPUTACION PARALELA

Estadsticas de los indicadores de calidad de lls enlaces de conexin de trfico internet, conforme a lo establecido en la norma tcnica de resolucin
n698 de 30.06.00 de la subsecretara de telecomunicaciones.

- 21 -

OMV - INF 5141

INDICADORES DE CALIDAD
ENLACES DE CONEXION DE TRFICO INTERNET

UTEM

COMPUTACION PARALELA

- 23 -

INDICADORES DE CALIDAD
ENLACES DE CONEXION DE TRFICO INTERNET

Resumen Trafico PIT Interconectados (24 hrs)


Movistar - GlobalCrossing

Resumen Trafico PIT Interconectados (24 hrs)


Claro

Estadsticas de los indicadores de calidad de lls enlaces de conexin de trfico internet, conforme a lo establecido en la norma tcnica de resolucin
n698 de 30.06.00 de la subsecretara de telecomunicaciones.

Estadsticas de los indicadores de calidad de lls enlaces de conexin de trfico internet, conforme a lo establecido en la norma tcnica de resolucin
n698 de 30.06.00 de la subsecretara de telecomunicaciones.

OMV - INF 5141

COMPUTACION PARALELA

- 22 -

OMV - INF 5141

11

COMPUTACION PARALELA

- 24 -

12

29/08/2012

29/08/2012

LATENCIA

LATENCIA
UTEM

UTEM

PIT Global Crossing

PIT Claro
Latencia

(Punto de Intercambio de Trfico )


OMV - INF 5141

Estadsticas actualizadas el Lunes 12 de Diciembre de 2011 a las 17:05


COMPUTACION PARALELA

OMV - INF 5141

- 25 -

TASA DE OCUPACIN

COMPUTACION PARALELA

- 27 -

LATENCIA

UTEM

UTEM

PIT Claro

PIT Claro

Tasa de Ocupacin

Estadsticas actualizadas el Lunes 12 de Diciembre de 2011 a las 17:05


OMV - INF 5141

COMPUTACION PARALELA

- 26 -

OMV - INF 5141

13

COMPUTACION PARALELA

- 28 -

14

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN

Enlaces de conexin de trfico Internet

UTEM

EVOLUCIN

UTEM

Ej. PIT ENTEL


(Punto de Intercambio de Trfico )

Topologas Regulares: Lineales y Anillos


Lineales

Dimetro: n-1.
Distancia media: ~2/3n
Anillos

Dimetro: n/2.
Distancia media: n/3
Usadas en algoritmos sobre arrays 1D
OMV - INF 5141

COMPUTACION PARALELA

- 29 -

OMV - INF 5141

COMPUTACION PARALELA

TEMA 1: INTRODUCCIN

TEMA 1: INTRODUCCIN

EVOLUCIN

UTEM

- 31 -

EVOLUCIN

UTEM

Topologas Regulares: Mallas y Toros


Las redes vienen caracterizadas por:
Su Topologa: Cmo estn conectados sus nodos
- Dos tipos de nodos: switches y hosts
Algoritmos de Encaminamiento
- Ejemplo: Todo a la izquierda y luego hacia arriba
Su dimetro: valor mximo de las distancias entre los nodos de la red.
Estrategia en el Switching
- circuit switching
- packet switching
Control de Flujo
- Qu hacer en caso de congestin
- Stall (quedarse atascado), descartar, cambio de ruta,
usar buffers, etc.

2D
Dimetro:

2 n

Malla

Toro

Usadas en algoritmos sobre arrays 2D y 3D


OMV - INF 5141

COMPUTACION PARALELA

- 30 -

OMV - INF 5141

15

COMPUTACION PARALELA

- 32 -

16

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN
UTEM

OMV - INF 5141

TEMA 1: INTRODUCCIN

EVOLUCIN

COMPUTACION PARALELA

EVOLUCIN

UTEM

- 33 -

OMV - INF 5141

COMPUTACION PARALELA

TEMA 1: INTRODUCCIN
UTEM

OMV - INF 5141

TEMA 1: INTRODUCCIN

Topologas

EVOLUCIN

COMPUTACION PARALELA

- 35 -

UTEM

- 34 -

OMV - INF 5141

17

COMPUTACION PARALELA

- 36 -

18

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN

DETALLE REDES

Topologas
UTEM

UTEM

REDES DE INTERCONEXIN REDES ESTTICAS

Tipos de Redes Estticas

(a)

(c)

(b)

(e)

(f)

(d)

(g)

(h)

Figura 3. Diversas topologas. Los puntos gruesos representan


conmutadores. No se muestran las CPU ni las memorias. (a) Una
estrella. (b) Una interconexin total. (c) Un rbol. (d) Un anillo. (e) Una
cuadrcula. (f) Un toroide doble. (g) Un cubo. (h) Un hipercubo 4D.

Anillo
Estrella
Mallas Mesh
rboles binarios
Hypertree
Pirmides
Hipercubos
Cubos conectados con ciclos
Redes de Bruijn

TEMA 1: INTRODUCCIN
UTEM

Topologa: Medidas de caracterizacin bsicas

UTEM

DETALLE REDES
REDES DE INTERCONEXIN REDES ESTTICAS
ESTRELLA

Estrella: Red en la cual los nodos estn conectados directamente a


un punto central y todas las comunicaciones se han de hacer a
travs de esta

19

20

29/08/2012

UTEM

REDES DE INTERCONEXIN REDES ESTTICAS


ANILLO

UTEM

Anillo: Nodos se conectan en forma de anillo.

UTEM

29/08/2012

REDES DE INTERCONEXIN REDES ESTTICAS


RBOLES BINARIOS

Los nodos se disponen en un rbol binario.

REDES DE INTERCONEXIN REDES ESTTICAS


MALLAS MESH

UTEM

REDES DE INTERCONEXIN REDES ESTTICAS


HYPERTREE

Hypertree: Red con menos dimetro y mejor ancho de biseccin

Malla Mesh: consiste en un arreglo q-dimensional de nodos.

Hypertree profundidad 2 y grado 4

21

22

29/08/2012

UTEM

REDES DE INTERCONEXIN REDES ESTTICAS


PIRAMIDES

29/08/2012

UTEM

REDES DE INTERCONEXIN REDES ESTTICAS


HIPERCUBOS

UTEM

DETALLE REDES
REDES DE INTERCONEXIN REDES ESTTICAS
CUBOS CONECTADOS CON CICLOS

Pirmides: combina las ventajas del Mesh con los rboles.

Pirmide de tamao 16

UTEM

REDES DE INTERCONEXIN REDES ESTTICAS


RED BRUIJN

Red Bruijn con 8 nodos

23

24

29/08/2012

29/08/2012

DETALLE REDES
UTEM

REDES DE INTERCONEXIN REDES ESTTICAS

UTEM

DETALLE REDES
REDES DE INTERCONEXIN REDES ESTTICAS
BUSES

Tipos redes estticas

Bus compartido mltiple

Redes basadas en camino compartido


Conexin continua entre procesadores y memoria.
Procesadores compiten por acceder a los caminos.
Ejemplo: Buses
Redes conmutadas
Mecanismos de conmutacin para acceder a la memoria.
Mas costosas y eficientes.

1 Dimensin
Arbitraje en dos etapas
rbitros 1-N:
rbitro b de
2 y 3 dimensiones: Buses forman parrilla.

Ejemplos: Conmutador barra-cruz, redes multietapa.

UTEM

DETALLE REDES
REDES DE INTERCONEXIN REDES ESTTICAS
BUSES

UTEM

Existe un nico bus que interconecta todos los mdulos.

DETALLE REDES
REDES DE INTERCONEXIN REDES ESTTICAS
BUSES

Bus compartido mltiple


Arquitectura en cluster
Conexin mediante bus global

Caractersticas:

Econmica
No escalable

La lectura se divide en tres fases:


1. Transferencia de la direccin por el bus al controlador de memoria
2. El controlador ejecuta la operacin de lectura.
3. El transfieren los datos por el bus al procesador.

25

26

29/08/2012

UTEM

DETALLE REDES
REDES DE INTERCONEXIN REDES ESTTICAS
CONMUTADOR BARRACRUZ

UTEM

Conmutador: rbitro + unidad de conexin bus-bus.


Acceso simultneo de todos los procesadores a todos los mdulos
de memoria.
Tiene un conmutador por cada pareja procesador mdulo de
memoria.

UTEM

29/08/2012

DETALLE REDES
REDES DE INTERCONEXIN REDES ESTTICAS
REDES MULTIETAPA RED OMEGA

Red Omega
Red No bloqueante

DETALLE REDES
REDES DE INTERCONEXIN REDES ESTTICAS
REDES MULTIETAPA

UTEM

DETALLE REDES
REDES DE INTERCONEXIN REDES ESTTICAS
REDES MULTIETAPA RED SHUFFLE EXCHANGE

Redes Multietapa

Red Shuffle-Exchange

Mezcla entre Buses y Barra-Cruz

Los arcos Exchange conectan nodos cuyos nmeros difieren en el


bit menos significativo.

Conjunto de etapas de enlaces y conmutadores intercaladas.


Ejemplo
Red Omega
Red Shuffe Exchange
Red Butterfly
Red Shuffle Exchange con 8 nodos

27

28

29/08/2012

UTEM

DETALLE REDES
REDES DE INTERCONEXIN REDES ESTTICAS
REDES MULTIETAPA-RED BUTTERFLY

29/08/2012

UTEM

Topologas Estticas

Ejemplo: Intel Paragon

Butterfly de 32 nodos

UTEM

Topologas Hbridas

UTEM

Topologas Estticas

Ejemplo: Cray T3E

29

30

29/08/2012

UTEM

Topologas Estticas

29/08/2012

UTEM

Topologas Hbridas

Propiedades:
Resumen de algunas caractersticas de las topologas de redes estticas conectando p
nodos.

TEMA 1: INTRODUCCIN
UTEM

Topologas Dinmicas

UTEM

TENDENCIAS

TENDENCIAS EN LAS APLICACIONES

- Ejemplo: IBM SP2/3

Demanda de mejor rendimiento promueve avances en hardware y


viceversa
La demanda de mejor rendimiento llevara a un incremento exponencial en el rendimiento
de los procesadores
El cmputo paralelo es adecuado para las aplicaciones ms demandantes
La demanda por mejor rendimiento vara entre aplicaciones
Es necesario ofrecer sistemas que crecen en rendimiento y costo de una manera
progresiva.
La presin por alto rendimiento es extrema para un conjunto pequeo de aplicaciones.
Incrementos moderados en rendimiento son necesarios para una amplia variedad de
aplicaciones
Medidas de eficiencia
Aceleracin (Speedup)
Nuevas Aplicaciones
Escalabilidad
Eficiencia
Ms Performance

OMV - INF 5141

31

COMPUTACION PARALELA

- 64 -

32

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN
UTEM

TEMA 1: INTRODUCCIN

TENDENCIAS

UTEM

3. TENDENCIAS

Curva de Aprendizaje
CMPUTO PARA INGENIERA
Computadoras con una gran cantidad de procesadores son
necesarias en una amplia variedad de industrias

Petrleo (anlisis de reservas)


Automotriz (simulacin de choques, eficiencia en la combustin de enerticos,
anlisis aerodinmico)
Aeronutica (anlisis de flujo, eficiencia de turbinas, mecnica estructural,
electromagnetismo)
Diseo asistido por computadora
Industria farmacutica (modelado molecular)
Visualizacin
entretenimiento
arquitectura
Modelado financiero

OMV - INF 5141

COMPUTACION PARALELA

- 65 -

OMV - INF 5141

COMPUTACION PARALELA

TEMA 1: INTRODUCCIN
UTEM

- 67 -

TEMA 1: INTRODUCCIN

3. TENDENCIAS

UTEM

Procesamiento de Voz e Imgenes

3. TENDENCIAS

CMPUTO COMERCIAL
Tambin requiere de computadoras paralelas

Las demandas no son tan altas como en el cmputo cientfico, pero su uso es
mucho ms amplio
El poder computacional determina la escala de los negocios que pueden ser
manejados
Bases de datos, procesamiento de transacciones en lnea, soporte de decisiones,
minera de datos (Data Mining) , ...
Benchmarks diseados por el Transaction Processing Performace Council (TPC)
Otra medidas de rendimiento: transacciones por minuto en una carga de trabajo tpica
tpmc - (throughput)

OMV - INF 5141

COMPUTACION PARALELA

- 66 -

OMV - INF 5141

33

COMPUTACION PARALELA

- 68 -

34

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN

TEMA 1: INTRODUCCIN

3. TENDENCIAS

UTEM

3. TENDENCIAS

UTEM

AVANCES EN LA TECNOLOGA

2.400
RESULTADOS DE TPC
(Transaction Processing
Performace Council)

100 millones de transistores a inicios del siglo 21


La cantidad de transistores crece ms rpido que
las velocidades de reloj.
40% cada ao, un orden de magnitud en 20 aos

30% cada ao
Frecuencia de Relojes

Densidad de Transistores

Flops P IV: 5.6 billion floating-point operations per second


OMV - INF 5141

COMPUTACION PARALELA

- 69 -

OMV - INF 5141

COMPUTACION PARALELA

TEMA 1: INTRODUCCIN

TEMA 1: INTRODUCCIN

3. TENDENCIAS

UTEM

UTEM

AVANCES EN LA TECNOLOGA

La diferencia entre capacidad de memoria y velocidad es cada vez


ms pronunciada
La capacidad se incrementa por 1000x de 1980-95, la velocidad solo 2x
DRAM de gigabits para el siglo 21 pero la diferencia con la velocidad de los
procesadores ser mayor
Memorias grandes son ms lentas, mientras los procesadores se vuelven ms rpidos
Existe la necesidad de transferir ms datos en paralelo
Existe la necesidad de tener ms niveles de cache
El paralelismo incrementa el tamao efectivo de cada nivel de la jerarqua de memoria
sin incrementar el tiempo de acceso
Se debe explotar el paralelismo y la localidad de memoria entre los sistemas de
memoria
Lo mismo se debe aplicar a los discos: discos paralelos implica ms memoria cache

Instruction )

Explotar la localidad en los accesos de datos


evita la latencia de instrucciones y reducir CPI
mejora la utilizacin del procesador
El aspecto fundamental es distribuir recursos
actualmente 1/3 cmputo, 1/3 cache, 1/3 reloj

COMPUTACION PARALELA

TENDENCIAS

ALMACENAMIENTO

Los avances se deben bsicamente en el decremento de la geometra de los CI (l)


los circuitos son ms rpidos y/o requieren menor potencia
El tamao de los CI se ha incrementado
El rango de reloj se incrementa de manera aproximadamente proporcional a la geometra
(l).
El nmero de transistores se incrementa del orden de l2 .
Rendimiento > 100x por dcada, 10x para relojes
Cmo usar ms transistores?
Aplicar paralelismo en el procesamiento
operaciones mltiples por ciclo de reloj reducen el promedio de CPI (Cycles Per

OMV - INF 5141

- 71 -

- 70 -

OMV - INF 5141

35

COMPUTACION PARALELA

- 72 -

36

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN
UTEM

TEMA 1: INTRODUCCIN

3. TENDENCIAS

UTEM

3. TENDENCIAS

TENDENCIAS EN LA ARQUITECTURA
PARALELISMO A NIVEL DE INSTRUCCIONES
La arquitectura toma provecho de los avances tecnolgicos para obtener mejor
rendimiento y ms capacidades
Las dos formas de usar ms transistores son:
Paralelismo
cuando varias operaciones se realizan en paralelo, el nmero de ciclos para ejecutar
un programa se reduce
Localidad
cada vez que las referencias se hacen cerca del procesador, la latencia del acceso a
niveles de acceso ms lentos se reduce y el nmero de ciclos para ejecutar el
programa tambin se reduce
Tendencia actual es incrementar el paralelismo
Hasta 1985: paralelismo a nivel de bits: 4 bits, 8 bits, 16 bits se empieza a reducir a partir
de 32 bits.
arquitecturas actuales de 64 bits
85-95: paralelismo a nivel de instrucciones pipelining, superescalar, ejecucin fuera de
orden, ejecucin especulativa, prediccin de saltos
OMV - INF 5141

COMPUTACION PARALELA

Aceleraciones reportadas
para procesadores
superescalares

Grandes diferencias (varianza) debido a:


el dominio de aplicaciones investigado (numricas vs. no numricas) y las
capacidades del procesador modelado

- 73 -

OMV - INF 5141

COMPUTACION PARALELA

TEMA 1: INTRODUCCIN
UTEM

- 75 -

TEMA 1: INTRODUCCIN

3. TENDENCIAS

UTEM

3. TENDENCIAS

POTENCIAL IDEAL DEL ILP

(Instruction-Level Parallelism )

FASES EN LA GENERACIN VLSI

Qu tan bueno es el
paralelismo a nivel de
instrucciones?

N instrucciones generadas

El siguiente paso: paralelismo a


nivel de hilos (multithreading)

OMV - INF 5141

N instrucciones generadas por ciclo

Condiciones ideales:
Recursos infinitos
Ancho de Banda ilimitado
Prediccin de saltos perfecta
Es necesario considerar cache real y latencias debido a fallas de cache
COMPUTACION PARALELA

- 74 -

OMV - INF 5141

37

COMPUTACION PARALELA

- 76 -

38

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN
UTEM

TEMA 1: INTRODUCCIN

3. TENDENCIAS

3. TENDENCIAS

UTEM
100,000

RESULTADOS DE ESTUDIOS REALES

ANCHO DE BANDA

Sun E10000

Shared bus bandwidth (MB/s)

10,000

Procesadores que ejecutan 4 instrucciones simultneamente


Estudios reales muestran una aceleracin al doble
Estudios recientes sugieren que es necesario ir ms all de los bloques bsicos

1,000

SS690MP 120
SS690MP 140
Symmetry81/21

100

SGI PowerSeries

COMPUTACION PARALELA

Power

Sequent B2100

Sequent
B8000
10
1984

OMV - INF 5141

SGI
Sun E6000
PowerCh
AS8400
XL
CS6400

HPK400
SC2000E
AS2100
SC2000
P-Pro
SS1000E
SS1000
SS20
SE70/SE30
SS10/
SE10/
SE60

SGI Challenge

- 77 -

OMV - INF 5141

1986

1988

1990

1992

COMPUTACION PARALELA

3. TENDENCIAS

UTEM

Los procesadores rpidos empiezan a saturar al bus


actualmente existe una amplia variedad de sistemas de memoria
compartida de computadoras de escrito a servidores

MULTIPROCESADORES

COMPUTACION PARALELA

1998

- 79 -

3. TENDENCIAS

ECONOMA
Los microprocesadores no son solamente rpidos sino tambin BARATOS
Los costos de desarrollo son decenas de millones de dlares (5-100 tpicos)
Sin embargo, se venden muchos ms microprocesadores comparados con las
supercomputadoras
Crucial para tomar ventaja de la inversin y usar a los microprocesadores como el
bloque bsico
Alternativas efectivas en costo y rendimiento
Multiprocesadores con un nmero limitado
Impulsados por vendedores de hardware y software (Ej. bases de datos).
Impulsados por Intel
Un mercado potencial grande
Cmputo Cientfico
El mercado es muy limitado
Dominado por procesadores de vectores durante los 79s
En los 90s, multiprocesadores de gran escala han ido reemplazando a las
supercomputadoras

Es natural conectar varios procesadores a una memoria


compartida
aplicado en servidores para negocios

OMV - INF 5141

1996

TEMA 1: INTRODUCCIN

TEMA 1: INTRODUCCIN
UTEM

1994

OMV - INF 5141

- 78 -

39

COMPUTACION PARALELA

- 80 -

40

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN
UTEM

TEMA 1: INTRODUCCIN

3. TENDENCIAS

UTEM

3. TENDENCIAS

LAS 500 COMPUTADORAS MS RPIDAS


RENDIMIENTO DE
UNIPROCESADORES
LINPACK

massively parallel
processing
pseudo-vector processing
Symmetrical Multiprocessor

OMV - INF 5141

COMPUTACION PARALELA

- 81 -

OMV - INF 5141

COMPUTACION PARALELA

TEMA 1: INTRODUCCIN

TEMA 1: INTRODUCCIN
UTEM

- 83 -

3. TENDENCIAS

UTEM

RENDIMIENTO DE
COMPUTADORAS
PARALELAS

3. TENDENCIAS

RESUMEN DE TENDENCIAS EN LAS APLICACIONES

Aun las computadoras Cray se han convertido en computadoras paralelas: X-

La transicin a cmputo paralelo ha ocurrido para aplicaciones de


ciencia e ingeniera
El cmputo paralelo se encuentra en progreso en el mbito del
cmputo comercial
Bases de datos, procesamiento de transacciones y modelos
financieros
Se utilizan sistema de pequea y mediana escala
Aplicaciones de escritorio utilizan programas multihilos
(multithreading) los cuales son parecidos a programas paralelos
Existe una gran demanda para mejorar el throughput en cargas de
trabajo secuenciales
Existen demandas slidas de las aplicaciones y se espera un
incremento en el futuro

MP(2-4), Y-MP(4-8), C-90(16), T94(32)

Desde 1993 Cray tambin produce computadoras paralelas masivas: T3D, T3E.
OMV - INF 5141

COMPUTACION PARALELA

- 82 -

OMV - INF 5141

41

COMPUTACION PARALELA

- 84 -

42

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN

TEMA 1: INTRODUCCIN
UTEM

3. TENDENCIAS

3. TENDENCIAS

UTEM

RESUMEN DE TENDENCIAS

MEJORA DEL RENDIMIENTO

Tecnologa

Modos de mejorar el rendimiento


Trabajar mas duro: Usar hardware ms rpido, o reducir CPI
Trabajar mejor: Optimizar el cdigo y los algoritmos
Pedir ayuda: Usar mltiples procesadores (procesamiento paralelo)

Limitaciones de los computadores secuenciales


Limitaciones fsicas
Vectorizacin es slo adecuada para cierta clase de problemas
Mejoras estructurales, tales como segmentacin, ILP (superescalaridad,
ejecucin fuera de orden, ), no son suficientes para aplicaciones lmite, y
no son escalables

OMV - INF 5141

COMPUTACION PARALELA

- 85 -

OMV - INF 5141

COMPUTACION PARALELA

TEMA 1: INTRODUCCIN

TEMA 1: INTRODUCCIN
UTEM

- 87 -

3. TENDENCIAS

UTEM
RESUMEN DE TENDENCIAS

4. APLICACIONES QUE PRECISAN COMPUTACIN PARALELA

POR QU ORDENADORES MS POTENTES ?

Tecnologa

Paradigma tradicional cientfico y de la ingeniera


Formular la teora o realizar el diseo (sobre el papel)
Realizar la experimentacin o construir el sistema
Sustituir ambos por experimentos numricos
Los fenmenos reales son muy complejos como para modelizarlos a mano
Los experimentos reales son:
- demasiado duros: construir un gran tnel
- demasiado costosos: construir un avin de pasajeros (desechable)
- demasiado lentos: esperar por la evolucin glaciar
-demasiado peligrosos: drogas de diseo, armamento

El rendimiento de los procesadores se incrementa entre 50% y 100%


cada ao
La densidad de transistores en CI (circuitos integrados) se duplica cada 3
aos
La capacidad de la DRAM se cuadruplica cada 3 aos
Una gran inversin para desarrollo es posible al mercado existente
El paralelismo es una forma natural de mejorar el rendimiento
OMV - INF 5141

COMPUTACION PARALELA

Por qu ordenadores paralelos? Los secuenciales son muy lentos

- 86 -

OMV - INF 5141

43

COMPUTACION PARALELA

- 88 -

44

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN

TEMA 1: INTRODUCCIN

4. APLICACIONES QUE PRECISAN COMPUTACIN PARALELA

UTEM

UTEM

4. APLICACIONES QUE PRECISAN COMPUTACIN PARALELA

SIMULACIONES MDICAS (HEART)

DESAFOS COMPUTACIONALES

Modelado global del clima


Simulacin dinmica 3d de colisiones
Modelado astrofsico
Modelado de estructuras anti-terremoto
Simulaciones mdicas (heart)
Bsquedas en web
Procesos transaccionales
Diseo de drogas
Evolucin de las especies
Armas nucleares

Muchas estructuras biolgicas pueden ser modelizadas como estructuras


elsticas en un fluido no-comprimible.
Usando el mtodo immersed boundary esto implica resolver sistemas de
ecuaciones de Navier-Stokes ms algunos cmputos especficos
[Peskin&McQueen]
20 aos de estudios en el modelo para disear vlvulas artificiales
Para un modelo exacto seras necesarios ordenadores 100 veces ms rpidos
que un Cray C90 y con 100 veces ms de memoria
MAYOR PODER COMPUTACIONAL => MODELO MS EXACTO (USABLE)

OMV - INF 5141

UTEM

COMPUTACION PARALELA

- 89 -

OMV - INF 5141

COMPUTACION PARALELA

- 91 -

TEMA 1: INTRODUCCIN

TEMA 1: INTRODUCCIN

4. APLICACIONES QUE PRECISAN COMPUTACIN PARALELA

4. APLICACIONES QUE PRECISAN COMPUTACIN PARALELA

UTEM

COMPUTACIN PARALELA EN BSQUEDAS EN WEB

MODELADO
GLOBAL DEL
CLIMA

Paralelismo funcional
Indexacin, ordenacin, crawling
Paralelismo en las preguntas
usuarios mltiples
Encontrar informacin dentro del caos
Preprocesado de la informacin en el web para facilitar las bsquedas

OMV - INF 5141

COMPUTACION PARALELA

- 90 -

OMV - INF 5141

45

COMPUTACION PARALELA

- 92 -

46

29/08/2012

29/08/2012

TEMA 1: INTRODUCCIN
UTEM

APLICACIONES PARALELAS

4. APLICACIONES QUE PRECISAN COMPUTACIN PARALELA

UTEM

RECUPERACIN DE LA INFORMACIN

Bsqueda de documentos tiles en la web


El algoritmo LSI (Latent Semantic Indexing) necesita multiplicar grandes y
dispersas estructuras matriz x vector

Matrices de 10 millones de documentos


Los webs incrementan su espacio cada 5 meses en un 100%
Ideas similares se pueden aplicar a la recuperacin de imgenes
OMV - INF 5141

COMPUTACION PARALELA

- 93 -

OMV - INF 5141

COMPUTACION PARALELA

- 95 -

APLICACIONES PARALELAS
UTEM

UTEM

Resumen
Caracteristicas de las Aplicaciones
Paralelas

OMV - INF 5141

COMPUTACION PARALELA

- 94 -

OMV - INF 5141

47

COMPUTACION PARALELA

- 96 -

48

29/08/2012

29/08/2012

APLICACIONES PARALELAS

APLICACIONES PARALELAS

UTEM

OMV - INF 5141

UTEM

COMPUTACION PARALELA

- 97 -

OMV - INF 5141

APLICACIONES PARALELAS

- 99 -

APLICACIONES PARALELAS

UTEM

OMV - INF 5141

COMPUTACION PARALELA

UTEM

COMPUTACION PARALELA

- 98 -

OMV - INF 5141

49

COMPUTACION PARALELA

- 100 -

50

29/08/2012

29/08/2012

APLICACIONES PARALELAS

APLICACIONES PARALELAS

UTEM

OMV - INF 5141

UTEM

COMPUTACION PARALELA

- 101 -

OMV - INF 5141

APLICACIONES PARALELAS

- 103 -

APLICACIONES PARALELAS

UTEM

OMV - INF 5141

COMPUTACION PARALELA

UTEM

COMPUTACION PARALELA

- 102 -

OMV - INF 5141

51

COMPUTACION PARALELA

- 104 -

52

29/08/2012

29/08/2012

APLICACIONES PARALELAS
UTEM

Evolution of Computing

UTEM

Web 2.0
Web 3.0
Web 4.0
OMV - INF 5141

COMPUTACION PARALELA

- 105 -

OMV - INF 5141

COMPUTACION PARALELA

APLICACIONES PARALELAS
UTEM

- 107 -

Evolution of Computing

UTEM

Pervasive Computing
Computers have become an embed intrinsic part of a
sophisticated, networked, pervasive and ubiquitous
computing environments around humans.
Pervasive Computing: create a ubiquitous environment
that combines processors and sensors with network
technologies (wireless and otherwise) and intelligent
software to create an immerse environment to improve
life.

OMV - INF 5141

COMPUTACION PARALELA

- 106 -

OMV - INF 5141

53

COMPUTACION PARALELA

- 108 -

54

29/08/2012

29/08/2012

Evolution of Computing

UTEM

Evolution of Computing

UTEM

Some Current Projects


Pervasive computing (also called ubiquitous computing) is the
growing trend towards embedding microprocessors in everyday
objects so they can communicate information. The words
pervasive and ubiquitous mean "existing everywhere." Pervasive
computing devices are completely connected and constantly
available.
Pervasive
computing
relies
on
the
convergence
of wireless technologies, advanced electronics and the Internet.
The goal of researchers working in pervasive computing is to
create smart products that communicate unobtrusively. The
products are connected to the Internet and the data they generate
is easily available.
OMV - INF 5141

COMPUTACION PARALELA

1. AHRIwww.cc.gatech.edu/fce/ahri
2. Aura: www-2.cs.cmu.edu/~aura/
3. Endeavour: endeavour.cs.berkeley.edu/
4. HawkTourhttp://www.cs.iit.edu/~scs/
5. Portolano: portolano.cs.washington.edu/
6. Oxyenhttp://oxygen.lcs.mit.edu
7. Smart Space: http://www.nist.gov/smartspace/
8. Sentient Computing: www.uk.research.att.com/spirit/
9. Cooltown: www.cooltown.com
10. EasyLiving: research.microsoft.com/easyliving
11. WebSphere Everyplace: www-3.ibm.com/software/pervasive

- 109 -

OMV - INF 5141

- 111 -

ESTADO DEL ARTE


Computacin Paralela

Evolution of Computing

UTEM

COMPUTACION PARALELA

UTEM

Pervasive Computing Applications

IBM Roadrunner: Uno de los superordenador


ms potente del mundo

Roadrunner (correcaminos) es un supercomputador del


Laboratorio Nacional Los lamos en Nuevo Mexico. Ha sido
diseado conjuntamente por IBM y el personal del laboratorio
y es actualmente el supercomputador ms rpido, diseado
para un rendimiento ptimo de 1,026 petaflops, alcanzado en
junio de 2008.

Est equipado con ms 12.000 procesadores tipo PowerXCell


8i mejorados, diseados originalmente para la videoconsola
Sony Playstation 3, colocados en paralelo y 6.912
procesadores Opteron de AMD, unidos mediante 92 km de
fibra ptica en un sistema triblade con InfiniBand. En total
ocupa aproximadamente 1.100 m2.

El Roadrunner funciona bajo el sistema operativo Red Hat


Enterprise Linux y el software de computacin distribuida
xCAT.

Imagen del superordenador


'Roadrunner'. (Foto: IBM)

FUENTE: www.ibm.com, 14 de junio de 2008

OMV - INF 5141

COMPUTACION PARALELA

- 110 -

55

56

29/08/2012

UTEM

29/08/2012

ESTADO DEL ARTE


Computacin Paralela

ESTADO DEL ARTE


Computacin Paralela

UTEM

Con un consumo estimado de tres megavatios,


su coste fue de 133 millones de dlares. Fue
instalado en un principio en el centro de IBM
en Poughkeepsie (Nueva York), para despus
ser trasladado al Laboratorio Nacional Los
lamos en Nuevo Mxico, donde se dedicar a
actuar como patrn de seguridad del arsenal
de armas nucleares de Estados Unidos,
adems de al estudio de problemas
relacionados con el clima, la astronoma o la
genmica.

Ranger, Un supercomputador de
Sun

Para hacernos una idea, desde la oficina de


seguridad nuclear de EEUU, citada por el
diario New York Times ponen este ejemplo:
Si los 6.000 millones de habitantes de la
Tierra usaran calculadoras de mano durante
las 24 horas del da, todos los das de la
semana, tardaran 46 aos en realizar todos
los clculos que 'Correcamnios' realiza en un
solo da.

Imagen del superordenador


'Roadrunner'. (Foto: IBM)

FUENTE: www.ibm.com, 14 de junio de 2008

Sun Microsystems, en colaboracin con el


Texas Advanced Computing Center de la
Universidad de Texas (TACC), desarroll un
supercomputador llamado Ranger que, de
acuerdo a los datos facilitados por ambas
entidades, se coloca por derecho propio entre
la lite de los ms potentes superordenadores
del Planeta.

Est basado en el Sun Constellation System,


un entorno de computacin creado por la
propia Sun en 2007, y es capaz de realizar
hasta 504.000.000.000.000 operaciones en
coma flotante por segundo. Es decir, que
alcanza los 504 teraFLOPS, una cifra
espectacular que, por ejemplo, supera
ampliamente los 63,8 teraFLOPS del
MareNostrum, el supercomputador ms
potente de Espaa. An as contina por
debajo del petaFLOP que puede conseguir el
gigante de los gigantes de la
supercomputacin: el Blue Gene/P de IBM.

Algunos datos interesantes de Ranger:

El supercomputador est compuesto por 82 racks de la


gama Sun Blade 6048

Cada rack alberga en su interior a 48 servidores Sun Fire


6000, es decir, cuenta con un total de 3.936 servidores

Cada uno de estos servidores est impulsado por 4


procesadores quad-core de AMD

Por lo tanto, este supercomputador tiene 15.744


procesadores AMD de 4 ncleos
FUENTE: www.abadiadigital.com, 13 de marzo de 2008

ESTADO DEL ARTE


Computacin Paralela

ESTADO DEL ARTE


Computacin Paralela

UTEM

UTEM

Supercomputador
Jaguar asciende a 263
Tflops

Jaguar instalado en el ORNLs National Center


for Computational Sciences, ser actualizado
con 7.832 procesadores Opteron a 2,1 GHz de
cuatro ncleos para alcanzar 263 Tflops. Cada
ncleo contar adems con 2 GB de memoria
alcanzando 62 TB totales.

El supercomputador presta servicio al


departamento de energa estadounidense y a
30 proyectos de universidades y compaas
privadas, centrados en simulacin de nuevos
reactores, fabricacin de biocombustibles,
efectos climticos de los gases de efecto
invernadero o nuevas fuentes energticas

FUENTE: www.nccs.gov, 17 de mayo de 2008

El sistema basado en Cray XT4 permite construir un


clster a partir de sistemas de bajo coste
conectndolos a una red de alta velocidad, en este
caso una SeaStar del mismo fabricante.

Sistemas Unix y SUSE Linux gobiernan el sistema


Jaguar como lo hacen en los principales sistemas de
computacin. Una lista del verano de 2007 mostraba
8 Linux y 2 Unix gobernando las 10 principales
supercomputadoras mundiales.

En el grfico se muestra el
Nmero de Procesadores
compartidos durante el tiempo.

Abarcando un periodo desde


junio de 1993 hasta junio de
2008.
FUENTE: www.top500.org

57

58

29/08/2012

ESTADO DEL ARTE


Computacin Paralela

UTEM
En el grfico se muestra la Familia
de Procesadores compartidas
durante el tiempo.

29/08/2012

UTEM

CASO EJEMPLO

Abarcando un periodo desde junio


de 1993 hasta junio de 2008.

TECNOLOGA MULTICORE

FUENTE: www.top500.org

UTEM

ESTADO DEL ARTE


Tecnologa Multicore

ESTADO DEL ARTE


Computacin Paralela

UTEM
Conelpasodeltiempo,lademandadeunmayorpodercomputacionalvacreciendoyporellose
vancreandonuevasformasdecumplirconsta.Tradicionalmente,losdesarrolladoresdesistemas
sehanenfocadoentresvariablesqueinfluyen(endistintosnivelesdeimportancia)enmejorarel
rendimientodeunmicroprocesador:velocidaddereloj,velocidaddelbusyelcach.

En el grfico se muestra la
Arquitectura compartida durante el
tiempo.

Mientrasmsaumentalavelocidaddereloj,msprocesospuedensermanejadosporsegundo.Sin
embargo,esmuydifcilaumentarlavelocidadderelojsingenerarcalorexcesivo(debidoala
cantidaddetransistoresquesenecesitan).Amedidaquelosprocesadoresfueroncreciendode
manerasuperescalar,laenergaconsumidadeuntpicomicroprocesadorpasde1Wa100W.

Abarcando un periodo desde junio de


1993 hasta junio de 2008.

Grfico
Consumo de energa de procesadores
Intel. Potencia en watts por ao.

FUENTE: www.top500.org

Fuente: Universidad Catlica Nuestra Seora de la


Asuncin, Facultad de Ciencias y Tecnologa. trabajo
practico de Teora y Aplicaciones de la Informtica 2,
Tecnologa Multicore. Prof. Ing. Juan E. de Urraza,
Sept. 2006.

59

60

29/08/2012

29/08/2012

ESTADO DEL ARTE


Tecnologa Multicore

ESTADO DEL ARTE


Tecnologa Multicore

UTEM

UTEM
SOLUCIN
El problema de los sistemas (SMP y anlogos) es que la memoria es mucho ms lenta
que los procesadores que acceden a ella, y hasta mquinas con un solo procesador
tienden a pasar un tiempo considerable esperando que los datos lleguen de la
memoria.
El caso de SMP es peor, ya que slo un procesador puede acceder a la memoria en un
momento dado; haciendo posible que varios procesadores queden colgados. SMP es
slo un estilo de arquitecturas multiprocesador;
Otras arquitecturas incluyen NUMA, que dedican distintos bancos de memoria a
procesadores diferentes. Esto permite que los procesadores se accedan a la memoria
en paralelo, lo cul mejora la eficiencia si los datos se mapean a procesos especficos.
Sin embargo, el problema de NUMA es que el costo de mover datos de un procesador
a otro es muy elevado.
Aunque los multiprocesadores son una opcin interesante, todava acarrean ciertos
problemas (a parte de los mencionados en los casos de SMP y NUMA) a medida que
aumenta el nmero de procesadores.

Los diseadores de microprocesadores siguieron utilizando ms transistores en los


ncleos para agregar ms capacidad superescalar y de pipelining. El efecto global
fue el incremento exponencial en la generacin de calor debido a la energa
necesaria para el procesamiento. Este problema se vio cuando Intel lanz su
Pentium 4 con tecnologa de 90 nanmetros y 125 millones de transistores. El
consumo pasaba de 90 W a casi 120 W para frecuencias altas. La causa principal
es que hay una corriente de fuga cuando el transistor est desactivado o activado
que aumenta con la frecuencia. Con ms transistores y por encima de los 3,5 GHz,
el consumo de energa debido a estas perdidas se dispara calentndose
muchsimo el chip.

ESTADO DEL ARTE


Tecnologa Multicore

ESTADO DEL ARTE


Tecnologa Multicore

UTEM

UTEM

ALTERNATIVAS

PROBLEMAS

DBS (Demand-Based Switching). DBS permite al procesador reducir el consumo de


energa (bajando la frecuencia y el voltaje) durante los periodos de baja demanda
computacional. DBS est disponible en procesadores single-core actualmente, y su
inclusin en procesadores multicore puede favorecer a la administracin del consumo
de energa, y eventualmente de la generacin de calor.

Considerando que la cantidad de chips crece (uno por procesador) y por tanto,
tambin lo hace el costo. Todo esto, llev a los diseadores de microprocesadores a
idear una tecnologa original que evite la generacin de calor al incrementar el
rendimiento y al mismo tiempo reduzca los costos de fabricacin y por ende, de venta
al usuario final.

Implementando mejores mecanismos de cach. Sin embargo, aunque se agreguen ms


cachs la mejora no es linear (es decir, doblar la cantidad de cachs slo mejora un
poco el rendimiento global del chip y aumenta el costo significativamente).
SMP (Symmetric Multiprocessing). En esta arquitectura dos o ms procesadores
idnticos se conectan a una memoria principal compartida. Los sistemas SMP
permiten a cualquier procesador trabajar sobre cualquier tarea sin importar donde los
datos para sta tarea se localicen en memoria.

MULTICORE

61

62

29/08/2012

29/08/2012

ESTADO DEL ARTE


Tecnologa Multicore

ESTADO DEL ARTE


Tecnologa Multicore

UTEM

UTEM

ARQUITECTURA

ARQUITECTURA

Un chip multicore o CMP (chip multiprocessor) es un circuito integrado, en el cual se


encuentran dos o ms ncleos de procesamiento. El ncleo o core de un
microprocesador es el encargado de realizar todo el trabajo duro. Contiene los cachs
L1 y L2, la unidad aritmtica, el mecanismo de prediccin de pipeline, el controlador
de interrupciones, etctera. Esto, aparte de ofrecer un mayor rendimiento, ayuda a
reducir el consumo de energa general y permite un mejor procesamiento de tareas
simultneas. Idealmente, un procesador dual-core es casi el doble de poderoso que un
procesador single-core. Sin embargo, en la prctica, las ganancias de rendimiento
llegan a un cincuenta por ciento (50%)..

EJEMPLOS

Multithreaded shared-cache chip multiprocessor

ESTADO DEL ARTE


Tecnologa Multicore

ESTADO DEL ARTE


Tecnologa Multicore
UTEM

UTEM

ARQUITECTURA

VENTAJAS MULTICORE

EJEMPLOS

Aunque existe una controversia de si mltiples cores en un chip son


equivalentes a mltiples procesadores se considera que s hay diferencia
entre ambos.
Los sistemas multiprocesadores ubican sus procesadores en distintas piezas
y el paso de datos entre ambos es lento porque el viaje se realiza off-chip.
En el caso de multicore, los ncleos de procesamiento estn la misma pieza
de silicio y gracias a su proximidad permiten aumentar la velocidad del flujo
de informacin entre ellos.
Arquitectura que slo comparte la interfaz
entre cores

Arquitectura que comparte niveles de


cach on-chip

Multi Core CPU Chip

63

64

29/08/2012

29/08/2012

ESTADO DEL ARTE


Tecnologa Multicore

ESTADO DEL ARTE


Tecnologa Multicore

UTEM

UTEM

VENTAJAS MULTICORE

DESVENTAJAS MULTICORE

La proximidad de mltiples cores en una misma pieza tienen la ventaja de que la


coherencia de cach puede operar a una velocidad ms alta de reloj que si las
seales viajasen off-chip (fuera de chip entre microprocesadores).
Un procesador con dos ncleos utiliza menos energa que dos procesadores de un
ncleo emparejados, principalmente por la energa extra necesaria para enviar
seales externas al chip y porque la geometra del silicio permite a los ncleos
operar a voltajes ms bajos; lo cual reduce la latencia.
Con un nico procesador, una aplicacin exigente pone a trabajar a tope al
procesador, generando gran cantidad de calor. Si existen diversos cores, se
balancear la carga de forma ms eficiente (o el trabajo se dar a un core mientras el
otro reposa en el caso del dual-core) lo que en conjunto hace que se genere menor
energa. Incluso, si una aplicacin multi-hilo coloca peridicamente a pleno
rendimiento a todos los ncleos a la vez, esto ocurrir de forma intermitente,
pudiendo bajar la temperatura en el intermedio.

Se deben realizar ajustes a las aplicaciones existentes para que maximicen la


utilizacin de los recursos computacionales provistos por los procesadores
multicore. As mismo, la habilidad de los procesadores multicore de incrementar
el rendimiento depende del uso de mltiples hebras en las aplicaciones. Por
ejemplo, la mayora de los video juegos corren ms rpido en un procesador
single-core de 3GHz que en un dual-core de 2GHz (tecnologa ao 2006, por
ejemplo), porque son incapaces de utilizar de forma eficiente ms de un ncleo a la
vez.
El hecho que dos ncleos de procesamiento compartan el mismo sistema de bus y
el ancho de banda de memoria limita el real aprovechamiento de la tecnologa. Si
un slo core tiene problemas con el ancho de banda de memoria, ir a la tecnologa
dual-core slo mejorar en un rango de 30 a 70%.
Multicore tiene inconvenientes en el sistema de interconexin, que est limitado
por la resistencia y capacitancia de los conectores, sean aluminio, cobre u otro
metal de mejores propiedades o el uso de semiconductores diferentes al silicio
como el germanio, indio o compuestos como SiGe o InP.

ESTADO DEL ARTE


Tecnologa Multicore

ESTADO DEL ARTE


Tecnologa Multicore

UTEM

UTEM

VENTAJAS MULTICORE

APROVECHAMIENTO DE LA TECNOLOGA MULTICORE EN EL SOFTWARE

El software se beneficia de las arquitecturas multicore en los casos donde el


cdigo puede ser ejecutado en paralelo. Bajo la mayora de los sistemas operativos
ms comunes esto requiere que el cdigo se ejecute en distintos hilos. Cada
aplicacin que se ejecuta en un sistema corre en su propio thread y as mltiples
aplicaciones se benefician del multicore. As mismo, cada aplicacin puede tener
varios threads de ejecucin y la misma debe ser escrita especficamente para
realizar esto.
El sistema operativo tambin tiende a ejecutar muchos hilos como parte normal de
su operacin. La ejecucin de mquinas virtuales se beneficia tambin de la
adopcin de las arquitecturas multicore ya que cada mquina virtual corre
independiente de las otras y puede ser ejecutada en paralelo.

MP requiere slo un esfuerzo modesto de ingeniera para cada generacin de


procesadores. Cada miembro de la familia de procesadores slo requiere copias
adicionales del core y hacer algunas modificaciones a la lgica de conexin entre
los ncleos para acomodar los procesadores adicionales en cada generacin
(evitando as una completo rediseo). Ms an, el circuito tpicamente slo
necesita ajustes menores de generacin en generacin, ya que externamente CMP
no cambia en esencia a medida que aumenta la cantidad de cores.
La eficiencia del sistema mejora cuando el sistema ejecuta mltiples aplicaciones
y se aprovechan las aplicaciones multi-hilo, como motores de bases de datos y
software de ingeniera y grficos. A diferencia de single-core que asigna periodos
de tiempo a cada tarea, multicore puede correr tareas de forma simultnea.

65

66

29/08/2012

29/08/2012

ESTADO DEL ARTE


Tecnologa Multicore

AMD:
OPTERON & ATHLON 64 X2

UTEM

UTEM

APROVECHAMIENTO DE LA TECNOLOGA MULTICORE EN EL SOFTWARE

La mayora de los programas no estn escritos para utilizar mltiples threads


debido al desafo de hacerlo. La programacin de cdigo multihilo requiere, a
veces, la coordinacin compleja de los threads y puede introducir dificultades en
el proceso de encontrar bugs debido a los datos que se comparten entre los
distintos hilos. As tambin, existe una falta de motivacin para escribir
aplicaciones multi-hilo porque muchas veces las ventajas que introducen en teora
no son realmente aprovechadas en la prctica.
Las tcnicas de programacin paralela pueden aprovechar al mximo las
arquitecturas multicore. Algunos modelos de programacin paralela existentes son
OpenMP y MPI.
Entre los sistemas que utilizan plenamente las tecnologas multicore se citan:
Maya, Blender3D, Quake 3 & 4, Allied Force, 3DS Max, Adobe Photoshop,
Windows XP Professional, Windows 2003, Mac OS X, Linux, GigaSpaces EAG y
muchos sistemas operativos orientados al uso de servidores.
OMV - INF 5141

ESTADO DEL ARTE


Tecnologa Multicore

COMPUTACION PARALELA

- 135 -

ESTADO DEL ARTE


Tecnologa Multicore

UTEM

UTEM

EJEMPLOS COMERCIALES (algunos)

EJEMPLOS COMERCIALES (algunos)

Tecnologa Multicore de Intel

Tecnologa Multicore de AMD

Tecnologa Multicore de Intel

Dic.2011

Quadcore de Intel

67

Dic.2011

68

29/08/2012

29/08/2012

ESTADO DEL ARTE


Tecnologa Multicore

ESTADO DEL ARTE


Tecnologa Multicore

UTEM

UTEM

EJEMPLOS COMERCIALES (algunos)

EJEMPLOS COMERCIALES (algunos)

The 50Gbps Silicon Photonics


Is the latest development from the
Intel Tera-scale Computing Research
Program.

The Teraflops Research Chip


and 80 simple core.

The research chip implements 80 simple


cores, each containing two
programmable floating point engines
the most ever to be integrated on a single
chip. Floating point engines are used for
accurate calculations, such as for
graphics as well as financial and
scientific modeling. In terms of circuit
design, they are more complex than
integer engines, which just process
instructions.
Dic.2011

Dic.2011

ESTADO DEL ARTE


Tecnologa Multicore

ESTADO DEL ARTE


Tecnologa Multicore

UTEM

UTEM

EJEMPLOS COMERCIALES (algunos)

EJEMPLOS COMERCIALES (algunos)

Tera-scale Computing Research Vision

Hafnium-based Intel 45nm Process


Technology 8 Cores

By scaling multi-core architectures to


10s to 100s of cores and embracing a
shift to parallel programming, we aim to
improve performance and increase
energy-efficiency.

Processors on an Intel 45nm


Hafnium-based High-k Metal Gate
''Penryn'' Wafer photographed with
an original Intel Pentium processor
die.
Using an entirely new transistor
formula, the new processors
incorporate 410 million transistors
for each dual core chip, and 820
million for each quad core chip.
The original Intel Pentium
Processor only has 3.1 million
transistors

"Tera" means 1 trillion, or


1,000,000,000,000.
The vision of INTEL is to create
platforms capable of performing trillions
of calculations per second (teraflops) on
trillions of bytes of data (terabytes).

Dic.2011

Dic.2011

69

70

29/08/2012

29/08/2012

ESTADO DEL ARTE


Tecnologa Multicore
UTEM

UTEM

EJEMPLO DE DESEMPEO:
JUEGOS: EFICIENCIA EN RENDERIZACIN 3D

UTEM

EJEMPLO DE DESEMPEO:
JUEGOS

EJEMPLOS COMERCIALES (algunos)

Hafnium-based Intel 45nm Process


Technology 8 Cores
There are 1 billion nanometers (nm) in one meter. A meter is approximately 3 feet
The original transistor built by Bell Labs in 1947 could be held in your hand, while hundreds of Intels new
45nm transistors can fit on the surface of a single red blood cell.
If a house shrunk at the same pace transistors have, you would not be able to see a house without a
microscope. To see the 45nm transistor, you need a very advanced microscope.
The price of a transistor in one of Intels forthcoming next-generation processors -- codenamed Penryn -- will
be about 1 millionth the average price of a transistor in 1968. If car prices had fallen at the same rate, a new
car today would cost about 1 cent.
You could fit more than 2,000 45nm transistor gates across the width of a human hair.
You could fit more than 30 million 45nm transistors onto the head of a pin, which measures approximately
1.5 million nm (1.5 mm) in diameter.
More than 2 million 45nm transistors could fit on the period at the end of this sentence (estimated to be 1/10
square millimeter in area).
A 45nm transistor can switch on and off approximately 300 billion times a second. A beam of light travels
less than a tenth of an inch during the time it takes a 45nm transistor to switch on and off.
Dic.2011

ESTADO DEL ARTE


Tecnologa Multicore
UTEM
EJEMPLOS COMERCIALES (algunos)

Hafnium-based Intel 45nm Process


Technology 8 Cores
45nm Size Comparison
o A nail = 20 million nm
o A human hair = 90,000nm
o Ragweed pollen = 20,000nm
o Bacteria = 2,000nm
o Intel 45nm transistor = 45nm
o Rhinovirus = 20nm
o Silicon atom = 0.24nm
Dic.2011

71

72

29/08/2012

UTEM

DISIPACIN TRMICA

VIRTUALIZACIN
UTEM
Virtualization:
Mejora el rendimiento de las aplicaciones relacionadas con virtualizacin, que es
la gestin de varios sistemas operativos desde un mismo puesto.
En ambiente de servidores multicore, donde existen mltiples
usuarios, la aplicacin multi-core
por excelencia es la virtualizacin.
Mltiples usuarios equivalen a
mltiples threads (hilos paralelos de
procesamiento.)

OMV - INF 5141

COMPUTACION PARALELA

- 146 -

73

También podría gustarte