Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sumario
I. El proceso de renderizacin [7] II. El nacimiento de GPGPU y su evolucin [9] III. Arquitectura de la tarjeta grfica y la memoria de vdeo [12] IV. Comparativa CPU-GPU y contribuciones de la GPU [5] V. Computacin grfica de altas prestaciones para propsito general [20] (OPCIONAL)
2
I. El proceso de renderizacin
El proceso de renderizacin
10
13
Consultas a B.D. Minera de datos Operaciones de reduccin Ganancia esperada en GPU: 5-10x
14
Ambos aspectos se resuelven con la llegada de CUDA en la serie 8 de Nvidia (Noviembre de 2006). CUDA: Compute Unified Device Architecture. CUDA: Cmo Utilizar un Dispositivo Avanzado con eficiencia, versatilidad, precisin y sencillez.
15
16
18
19
20
22
23
100,000 10,000 Rendimiento 1,000 100 10 1 1980 1985 1990 1995 Ao 2000 2005 2010 Memoria
Proc 60%/ao
Procesador
24
24
La memoria: Latencia
Respecto a los modelos comerciales de memoria principal, la memoria de vdeo lleva una ventaja de dos generaciones:
26
27
28
29
30
La memoria: Su controlador
Responsable del dilogo conjunto con los chips de memoria de vdeo de forma sncrona. Se ubica dentro del rea de integracin de la GPU. Esto lo emplea el K8 de AMD y luego Intel. Se conecta fsicamente al bus de memoria. Establece una longitud de rfaga fija para los dilogos, que suele ser 8 en 2008. Esto sugiere una lnea de cach de 256 bytes (bajo bus de 256 bits). Responsable de conocer la relacin con la memoria cach interna y la memoria principal externa.
31
32
33
CONGESTION
34
Penaliza:
TAMAO ANCHURA FRECUENCIA
36
2014
2000 2237 200 4000 322 23
Tendencia
4x / dcada 10x / dcada 0.3x / dcada 16x / dcada 9x / dcada 2x / dcada
Ritmo evolutivo: Chips: Transistores > Frecuencia > Consumo Memoria: Tamao > Ancho banda > Latencia
39
CPU GPU
10% 30%
90% 70%
170 W. 180 W.
350 W. 360 W.
40
sin embargo, la CPU presenta ms puntos trridos Fallece a una temperatura inferior
Lmites trmicos en CPU:
Area de integracin: 95C. Diodo trmico (lomo): 75C. Disipador: 65C. Aire de la carcasa: 55C
42
Aportaciones de la GPU
Cdigo: Reorganizarlo de forma data-parallel desde el principio (GPU), en lugar de proceder secuencialmente para luego quedar en manos del paralelismo a nivel de instruccin (CPU). Datos: Mover el trabajo hacia donde estn los datos (GPU), en lugar de mover los datos hacia donde est el trabajo (CPU). Mixto: Invertir el tradicional cuello de botella en el acceso a datos. Ms transistores y menos velocidad para los cores, menos transistores y ms velocidad para la memoria.
44
Radeon HD 2900 GeForce 8800 Intel Core 2 Quad STI Cell BE Sun UltraSparc T2
4 16 4 8 8
80 8 8 4 1
64 32 4 4 1
48 96 1 1 4
Intel: Slo el procesamiento SSE, sin incluir la FPU x86. STI (Sony-Toshiba-IBM): Slo los cores de los SPEs, sin contar el PPE. ALUs/core: Punto flotante de 32 bits (las ALUs son suma-producto). T: El ratio entre los contextos de threads de un core y los threads que pueden ejecutarse de forma simultnea. Describe hasta qu punto los cores de un procesador son capaces de ocultar sus paradas a travs de multithreading hardware.
45
46
GeForce
Ocio y entretenimiento
Quadro
Diseo y creacin
TeslaTM
Computacin de altas prestaciones
48
51
52
53
54
Tamao de la memoria de vdeo GDDR3 Anchura del bus de memoria GDDR3 Frecuencia de reloj de la memoria GDDR3 Ancho de banda de la memoria Bus de comunicacin con CPU Entorno de programacin
56
57
Ventas de GPUs
(millones)
25
2006
2007
59
60
62
GPU (Nvidia) G80 600 MHz / 1.35 GHz 128 stream processsors
madd(2 FLOPS) x128 SP x 1.35 GHz = 345.6 GFLOPS
316.8 GFLOPS CPU (AMD) 8 Gbytes de DDR2 2x 333 MHz 128 bits (doble canal) 10.8 Gbytes/sg.
12.4 TFLOPS !! GPU (Nvidia) 1.5 Gbytes de GDDR3 2x 800 MHz 384 bits 76.8 Gbytes/sg.
63
`
Computation units Classification map
CPU
GPU
PS 3
Label 1 Label 2
background undetermined
64
Resultados experimentales
Para una media de 600 pacientes que son tratados en el hospital anualmente y 5-6 muestras de imgenes de alta resolucin por cada paciente, la aplicacin que funciona con Matlab tarda 21 meses en procesar toda la informacin en un PC. Con una sola GPU, el tiempo se reduce a:
5.3 das utilizando Cg. 2.4 das utilizando CUDA.
66
Escalabilidad en CPU-GPU
67
Optical inspection Particle physics Protein folding Quantum chemistry Ray tracing Radar Reservoir simulation Robotic vision/AI Robotic surgery Satellite data analysis Seismic imaging Surgery simulation Surveillance Ultrasound Video conferencing Telescope Video Visualization Wireless X-ray
68
Resumen final
El procesamiento streaming o basado en flujos representa una nueva forma de hacer las cosas, donde los protagonistas son los datos, no las instrucciones. Cada vez se le saca ms provecho desde la perspectiva de un programador no familiarizado con la peculiar idiosincrasia de la programacin grfica. El fenmeno ha trascendido ya a los multiprocesadores, donde se busca un modelo hbrido en el que cada procesador pueda hacer lo que mejor sabe. La industria del ocio garantiza la viabilidad comercial de futuros desarrollos y la escalabilidad de la arquitectura augura un futuro muy prometedor.
69