Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ndice
Versiones Pentium 4
La jerarqua de memoria
Cache de datos Trace Cache (antigua IC) Resto de niveles unificados: comparten datos e instrucciones
Tamao reducido Complementada con una cache de segundo nivel mucho mayor y con un gran ancho de banda.
2 ciclos en las lecturas de enteros 6 ciclos para la lectura de un dato de punto flotante. TLB de 64 entradas En paralelo a la cache
Almacena tanto instrucciones como datos. El tamao de lnea es de 128 bytes divida en dos sectores que pueden accederse independientemente Un fallo en la cache implica la lectura de 128 bytes de memoria principal, para escribir ambos sectores El ancho de banda es de 256 bits para encarar las fuertes necesidades de las aplicaciones multimedia La cache est segmentada admitiendo una nueva operacin cada dos ciclos de reloj Fallo en L2 , se inicia peticin a la MP (bus del sistema) Ancho de banda de 3.2 Gbytes/s,
Polticas de escritura
Strong Uncacheable
Lecturas y escrituras se ejecuta en orden del programa No se hace ningn acceso a memoria ni TLB til para los dispositivos de I/O a memoria Mismas caractersticas que Strong Uncacheable Puede ser eliminado programando el MTRRs del procesador La escritura se puede retrasar y combinarla en el buffer de escritura para reducir acesos a memoria Si el buffer est lleno se puede retrasar la escritura Permite lecturas especulativas Todas las operaciones de escritura se realizan en MC y MP Si hay acierto de lectura se lee y escribe en MC Si hay fallo se actualiza la MP
Uncacheable
Write Combining
Write-through
Write-back
Write protected
Trace Cache
El concepto de Trace Cache fue presentado en 1996. Capturar el comportamiento dinmico de las secuencias de instrucciones Almacenando trazas de instrucciones en lugar de bloques contiguos La Trace Cache se usa en paralelo a la cache de instrucciones. Si la direccin accedida est en la Trace Cache, y las predicciones realizadas sobre esa direccin coinciden con las indicadas en la entrada correspondiente de la Trace Cache, su traza ser la utilizada, olvidndonos del acceso a la cache de instrucciones Si se produce un fallo en el acceso, se proceder a la bsqueda y decodificacin de las instrucciones en la cache de segundo nivel
Trace Cache
La Trace Cache dispone de capacidad suficiente para almacenar 12K micro-operaciones Organizadas en 8 conjuntos, con 6 micro-operaciones en cada lnea.
slo 3 podrn ser suministradas en cada ciclo a la lgica de ejecucin del procesador
Es el medio de evitar la decodificacin reiterada de instrucciones, ya que almacena nicamente micro operaciones.
En caso de fallo en la prediccin de un salto, o de la reejecucin de cierta parte del cdigo, las instrucciones envueltas en la ejecucin no deben ser decodificadas nuevamente, pues ya se encuentran en la Trace Cache (y adems, en el supuesto orden de ejecucin) Incluye su propio predictor de saltos, su objetivo es predecir el comportamiento de las instrucciones de salto presentes en la Trace Cache en un momento concreto Dispone de 512 entradas y de una pila de direcciones de retorno (para las llamadas a funciones y procedimientos) de 16 entradas
10
Prefetching de datos Reordenacin de lecturas (Store forwarding) respecto a otras operaciones de memoria Uso del dato a escribir por un store por los loads dependientes de l (Store-to-Load forwarding) Ejecucin especulativa de lecturas Combinacin de escrituras
11
Nivel
Capacidad
Primero (Datos)
8 KB
64
2/6
Write Through
Trace Cache
12 K uops
N/A
N/A
N/A
Segundo Nivel
512 KB
128
7/7
Write Back
12
Caractersticas
P4 423 pines
P4 Extreme Edition
Microarquitectura
NetBurst
NetBurs t
NetBurst
NetBurst
NetBurst
NetBurst
Frecuencias (GHz)
1,30 - 2
1,50 - 2
1,60 - 3,06
2,40 - 3,40
3,20 y 3,40
2,40 - 3,40
Tamao L2 Tamao L3
256K No se aplica
256K No se aplica
512K No se aplica
512K No se aplica
512K 2 MB
1MB No se aplica
400
400
400 , 533
800
800
800
Algunas medidas
14
Conclusin
Se separan las instrucciones de los datos Hay dos niveles de cache, L1 de 8Kb, y L2 mucho ms grande 512Kb Trace cache est basada en micro operaciones, lo cual elimina trabajo de decodificacin innecesario. Adems se ordenan de la forma ms eficiente
15
Bibliografa
http://www.intel.com/technology/itj/2004/volume08issue
01/art01_microarchitecture/p03_netburst.htm http://sobrepc.com/hardware/pentium4/p4-1.html