Cache 3ra Parte

Memoria Cache
Optimizaciones
Tipos de misses
● Compulsivos: son los que se ocasionan en la primera vez que

un bloque es referenciado.
● Capacitivos: son los que se producen si la cache no puede

contener a todos los bloques que se necesitan para la
ejecución de un programa.
● Conflictivos: si se utiliza mapeo directo o set asociativo, se

producen (además) misses debido a que muchos bloques
mapean al mismo set, lo que genera que se descarten bloques
que son requeridos posteriormente.
Optimizaciones
¿Cómo podemos reducir el tiempo promedio de acceso a

memoria caché?
Average Memory Access time = Hit time + Miss rate*Miss penalty
MEMORIA
MEMORIA
PRINCIPAL
PRINCIPAL
CPU
CPU CACHE
CACHE
e jo r ar un
M
c t o pue-
asp e
p e r judi- Aumentar el
de Ancho de banda
tro.
car o
Optimizaciones
¿Cómo podemos reducir el tiempo promedio de acceso a

memoria caché?
MEMORIA
MEMORIA
PRINCIPAL
PRINCIPAL
CPU
CPU CACHE
CACHE
e jo r ar un
M
c t o pue-
asp e
p e r judi-
de Aumentar el
tro.
car o Ancho de banda
Optimizaciones
A) Reducir el Miss Rate C) Reducir el Hit Time

➢ Mayor Tamaño de Cache ➢ Caches Simples
➢ Mayor Tamaño de Bloque ➢ Way Prediction
➢ Mayor Asociatividad
➢ Victim Caches
B) Reducir el Miss Penalty D) Aumentar el Ancho de Banda
➢ Caches Multinivel ➢ Non Blocking Caches
➢ Prioridad a los reads miss ➢ Multibancked Caches
➢ ER y CWF ➢ Pipelined Caches
➢ Prefetching de información
Optimizaciones: Reduciendo el Miss Rate
● Mayor tamaño de cache para reducir el miss rate

– ¿Qué tipos de misses estamos reduciendo?
● Capacitivos
– ¿Qué desventaja presenta?
● Mayor hit time
● Mayor costo y consumo
CPU Chip CPU Chip
Cache
Cache Cache
Cache
CPU
CPU CPU
CPU
L1
L1 L1
L1
● Bloques más grandes para reducir el miss rate

– ¿Qué tipos de misses reducimos y que localidad favorecemos?
● ↓ Misses compulsivos (localidad espacial) t e nie ndo
Man
año
e l ta m
che
de c a
Cache
Cache Cache
Cache
L1
L1 L1
L1

● ↓ Misses compulsivos (localidad espacial)
– ¿Qué sucede con el Miss Penalty?
Miss penalty
Tiempo de
transferencia
Tiempo de acceso
Tamaño de bloque

● ↓ Misses compulsivos (localidad espacial) e ndo
t e ni
Man
– ¿Que sucede con el Miss Penalty? año
el t a m
che
↑ Miss penalty de c a
●
– ¿Qué tipo de misses puede empeorar y porqué?

● ↑ Conflict misses
Cache
Cache Cache
Cache
L1
L1 L1
L1
n t e niendo
Ma
● Tamaño de bloque y Miss rate t a m año
e l
che
de c a
Miss rate
Cuanto más grande
A medida que pasamos es el bloque, menos
de bloques pequeños a bloques entran en cache.
bloques grandes Aumentarán los conflictos
aprovechamos la localidad (los bloques serán
espacial, el miss rate reemplazados con más
disminuye. frecuencia) comprometiendo
la localidad temporal.
Tamaño de bloque
Polution point
● Tamaño de bloque y Average access time
Average
Access
Time
Tamaño de bloque

● Mayor asociatividad para reducir el miss rate

– ¿Qué tipos de Misses estamos reduciendo?
● Conflictivos
– Dos reglas empíricas:
● 8-way ~ full asociativo
● Regla 2:1
– ¿Qué desventajas podemos observar?
● ↑ Hit Time
● Empleo de Victim cache para reducir el Miss Rate
Cache
Cache
CPU L1
L1
CPU
Cache
Cache
L2
L2
Victim
Victim
cache
cache
– L1 con MD + Victim cache Full asociativa


Miss en L1
Cache
Cache
CPU L1
L1
CPU
Cache
Cache
L2
L2
Victim
Victim
cache
cache


Miss en L1
Cache
Cache
CPU L1
L1
CPU
Cache
Cache
L2
L2
Victim
Victim
cache
cache


Miss en L1
Cache
Cache
CPU L1
L1
CPU
Cache
Cache
L2
L2
Victim
Victim
cache
cache


Miss en L1
Cache
Cache
CPU L1
L1
CPU
Cache
Cache
L2
L2
Victim
Victim
cache
cache

– ↓ Misses por conflicto
Optimizaciones

➢ Victim Caches
Optimizaciones: Reduciendo el Miss Penalty
● Caches Multi-nivel para reducir el Miss Penalty
AMAT
AMAT ==Hit
Hittime
timeL1L1++Miss
Missrate
rateL1L1*Miss
*Misspenalty
penaltyL1L1
==Hit
Hittime
timeL1L1++Miss
Missrate
rateL1L1*(Hit
*(Hittime
timeL2L2++Miss
Missrate
rateL2L2*Miss
*Misspenalty
penaltyL2L2))
– Miss Rate Local a Li: número de misses en Li dividido por el

número de accesos a Li. Equivale al Miss Rate de Li.
– Miss Rate Global para Li: número de misses en Li dividido por el
total de accesos. Para dos niveles: Miss Rate L1x Miss Rate L2.
● ¿Cuál será el Average Memory Access Time? Si:

– Cada 1000 referencias a memoria hay 40 misses en L1 y 20
misses en L2
– Hit TimeL1 = 1 ciclo
– Hit TimeL2 = 10 ciclos
– Miss PenaltyL2 = 200 ciclos
AMAT
AMAT2niveles = Hit time ++Miss
Missrate
rateL1L1*Miss
*Misspenalty
2niveles = Hit timeL1
L1 penaltyL1L1
==11++(40/1000)*(Hit
(40/1000)*(Hittime
timeL2L2++Miss
Missrate
rateL2L2*Miss
*Misspenalty
penaltyL2L2))
==11++0.04*(10
0.04*(10++(20/40)*200)
(20/40)*200)
==11++0.04*110
0.04*110==5.4
5.4ciclos
ciclos
AMAT
AMATsin = 1 + (40/1000)*200
L2 = 1 + (40/1000)*200
sinL2 23
==11++0.04*200
0.04*200==99ciclos
ciclos
● ¿Cuál será el Average Memory Access Time? Si:

– Cada 1000 referencias a memoria hay 40 misses en L1 y 20
misses en L2 Miss RateL1 = 4%
– Hit TimeL1 = 1 ciclo
Miss Rate LocalL2 = 50%
– Hit TimeL2 = 10 ciclos
– Miss PenaltyL2 = 200 ciclos Miss Rate GlobalL2 = 2%
AMAT
AMAT2niveles = Hit time ++Miss
Missrate
rateL1L1*Miss
*Misspenalty
2niveles = Hit timeL1
L1 penaltyL1L1
==11++(40/1000)*(Hit
(40/1000)*(Hittime
timeL2L2++Miss
Missrate
rateL2L2*Miss
*Misspenalty
penaltyL2L2))
==11++0.04*(10
0.04*(10++(20/40)*200)
(20/40)*200)
==11++0.04*110
0.04*110==5.4
5.4ciclos
ciclos
AMAT
AMATsin = 1 + (40/1000)*200
L2 = 1 + (40/1000)*200
sinL2 24
==11++0.04*200
0.04*200==99ciclos
ciclos


– Inclusión/Exclusión Multinivel:
● Inclusión Multinivel: Todo dato en L1 siempre se encuentra en L2.
– Reemplazo de un bloque de L1 por uno de L2.
● Exclusión Multinivel: Todo dato en L1 nunca se encuentra en L2.
– Swap de bloques entre L1 y L2.
– AMD Opteron
● Dar Prioridad a los Read Miss frente a los Writes

– Mejora para writes con write-through → write buffer
– ¿Qué inconveniente se puede presentar? CACHE
Si 512 y 1024 mapean al 0:
M[512] ← R3
R1 ← M[1024]
Write buffer
R2 ← M[512]
MEMORIA
MEMORIA
PRINCIPAL
PRINCIPAL

[R3]
X 0
M[512] ← R3
R1 ← M[1024]
Write buffer M[512] ← R3
R2 ← M[512]
MEMORIA
MEMORIA
PRINCIPAL
PRINCIPAL
512 X
1024 Z

[R3]
X
Z 0
Si 512 y 1024 mapean al 0: e ad Miss

R
M[512] ← R3
R1 ← M[1024]
R2 ← M[512]
MEMORIA
MEMORIA
PRINCIPAL
PRINCIPAL
512 X
1024 Z

Z 0

d Miss
Rea
M[512] ← R3
R1 ← M[1024]
R2 ← M[512]
MEMORIA
MEMORIA
PRINCIPAL
PRINCIPAL
512 X
1024 Z

[R3]
Z 0

d Miss
Rea
M[512] ← R3
R1 ← M[1024]
R2 ← M[512]
MEMORIA
MEMORIA
PRINCIPAL
PRINCIPAL
512 X
Dato viejo
1024 Z

[R3]
Z 0

d Miss
Rea
M[512] ← R3
R1 ← M[1024]
R2 ← M[512]
MEMORIA
MEMORIA
– Solución 1: asegurar buffer vacío PRINCIPAL
PRINCIPAL
● Puede incrementar todos los read miss penalties
– Solución 2: chequear el buffer 512 X
Dato viejo
1024 Z
● Ante un miss: ¿Debo esperar a todo el bloque para

entregar la palabra al procesador?
– Hay dos posibles esquemas:
● Early Restart MEMORIA
PRINCIPAL
CPU Cache
L1
– Gano dependiendo de dónde se encuentra la palabra

solicitada.

● Early Restart MEMORIA
PRINCIPAL
CPU Cache
L1
● Critical word first

MEMORIA
PRINCIPAL
CPU Cache
L1

● Early Restart: Entregar la palabra a penas esté disponible.
● Critical word first: Entregar la palabra requerida al instante.
– Mejor si bloques grandes.
– La cache atiende accesos sucesivos a otros bloques.
– Localidad espacial requerirá al resto del bloque.
– Miss Penalty no es trivial.
● Prefetching de información
– Disponer de la información
con antelación.
– Por HW.
Cache
CacheL1
L1
– Por SW. MEMORIA
MEMORIA
CPU
CPU PRINCIPAL
PRINCIPAL
Mi
ss
Prefetch
buffer
Optimizaciones

➢ Victim Caches
Optimizaciones: Reduciendo el Hit Time
● Caches pequeñas y simples para reducir el Hit time

– Pequeñas:
tag index offset
● ↓ Tiempo de indexado
Cache
Cache
● L2 en chip L1
L1
– Simples:
● Ej: usar mapeo directo
– (-) ↑ Misses capacitivos y conflictivos
● Caches multi-nivel
● Victim Caches
Optimizaciones: Reduciendo el Hit Time
● Way Prediction para reducir el Hit time

– ¿Cómo se puede combinar un Hit time veloz como el de
mapeo directo con menos cantidad de conflictos como en
set-asociativo?
– Way Prediction:
● Bits extras para predecir
● Una comparación de TAG // lectura del dato
● ¿Qué pasa si miss?
● 85% de acierto
Optimizaciones

➢ Victim Caches
Optimizaciones: aumentando el Ancho de Banda
● Cache No bloqueante:
– Solapar trabajo de CPU con resolución de misses
– Atender Read Hits luego de un Miss
– Mejora el Miss Penalty efectivo
– “Miss under Miss” o “Hit under multiple Miss”
● Multibanked caches
Optimizaciones: aumentando el Ancho de Banda
● Cache No bloqueante:
– Solapar trabajo de CPU con resolución de misses
– Atender Read Hits luego de un Miss
– Mejora el Miss Penalty efectivo
– “Miss under Miss” o “Hit under multiple Miss”
● Multibanked caches
● Pipelined Caches
– + mayor throughput
– - latencia individual para un hit
– + Hit Time
Referencias
Hennessy, J., and Patterson, D. Computer Architecture,

second ed. Morgan Kaufmann, 1996. (Capítulo 5)
Hennessy, J., and Patterson, D. Computer Architecture,
fourth ed. Morgan Kaufmann, 2006. (Capítulo 5 y
Apéndice C)
45

Cache 3ra Parte

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cache 3ra Parte

Cargado por

Copyright:

Formatos disponibles

Memoria Cache

● Compulsivos: son los que se ocasionan en la primera vez que

● Capacitivos: son los que se producen si la cache no puede

● Conflictivos: si se utiliza mapeo directo o set asociativo, se

¿Cómo podemos reducir el tiempo promedio de acceso a

Average Memory Access time = Hit time + Miss rate*Miss penalty

¿Cómo podemos reducir el tiempo promedio de acceso a

Average Memory Access time = Hit time + Miss rate*Miss penalty

A) Reducir el Miss Rate C) Reducir el Hit Time

● Mayor tamaño de cache para reducir el miss rate

CPU Chip CPU Chip

● Bloques más grandes para reducir el miss rate

● Bloques más grandes para reducir el miss rate

● Bloques más grandes para reducir el miss rate

– ¿Qué tipo de misses puede empeorar y porqué?

● Tamaño de bloque y Average access time

Average Memory Access time = Hit time + Miss rate*Miss penalty

● Mayor asociatividad para reducir el miss rate

● Empleo de Victim cache para reducir el Miss Rate

– L1 con MD + Victim cache Full asociativa

● Empleo de Victim cache para reducir el Miss Rate

– L1 con MD + Victim cache Full asociativa

● Empleo de Victim cache para reducir el Miss Rate

– L1 con MD + Victim cache Full asociativa

● Empleo de Victim cache para reducir el Miss Rate

– L1 con MD + Victim cache Full asociativa

● Empleo de Victim cache para reducir el Miss Rate

– L1 con MD + Victim cache Full asociativa

A) Reducir el Miss Rate C) Reducir el Hit Time

● Caches Multi-nivel para reducir el Miss Penalty

– Miss Rate Local a Li: número de misses en Li dividido por el

● ¿Cuál será el Average Memory Access Time? Si:

● ¿Cuál será el Average Memory Access Time? Si:

● Caches Multi-nivel para reducir el Miss Penalty

● Caches Multi-nivel para reducir el Miss Penalty

● Dar Prioridad a los Read Miss frente a los Writes

Si 512 y 1024 mapean al 0:

● Dar Prioridad a los Read Miss frente a los Writes

Si 512 y 1024 mapean al 0:

● Dar Prioridad a los Read Miss frente a los Writes

Si 512 y 1024 mapean al 0: e ad Miss

● Dar Prioridad a los Read Miss frente a los Writes

Si 512 y 1024 mapean al 0:

● Dar Prioridad a los Read Miss frente a los Writes

Si 512 y 1024 mapean al 0:

● Dar Prioridad a los Read Miss frente a los Writes

Si 512 y 1024 mapean al 0:

● Ante un miss: ¿Debo esperar a todo el bloque para

– Gano dependiendo de dónde se encuentra la palabra

● Ante un miss: ¿Debo esperar a todo el bloque para

● Critical word first

● Ante un miss: ¿Debo esperar a todo el bloque para

A) Reducir el Miss Rate C) Reducir el Hit Time

● Caches pequeñas y simples para reducir el Hit time

● Way Prediction para reducir el Hit time

A) Reducir el Miss Rate C) Reducir el Hit Time

Hennessy, J., and Patterson, D. Computer Architecture,

También podría gustarte