Está en la página 1de 4

Una matriz iterativo arquitectura del procesador

Para el cálculo de la matriz

Stephen Lam PS

Escuela de Informática y Ciencias Matemáticas

Oxford Brookes University, Oxford OX3 0BP

Reino Unido

Resumen: Este artículo examina una arquitectura de procesador array iterativo

que puede ser usado para calcular de manera eficiente una amplia gama de matriz

algoritmos. La topología de este procesador de matriz puede ser descrito como dos

estrechamente acoplado malla de nodos de proceso. Las conexiones verticales

entre las dos mallas contribuir a su dimensionalidad. Los beneficios de

esta topología de conexión única puede ser aspirado a través de la asignación de

matriz algoritmos algebraicos. Una mayor explotación de un mayor

dimensionalidad no será considerada debido a su falta de sentido práctico durante mucho

integración de semiconductores a gran escala. La preocupación principal de este estudio es

el mapeo de flujos de datos de algoritmos subyacentes a la lógica

configuración de los conjuntos de procesadores de tal manera que el cálculo se puede realizar

iterativa.

1. Introducción

Entre arquitecturas de procesador de matriz, las matrices sistólicas que fueron introducidos por

Kung y Lciserson [1] crearon una marea investigación en la última década, y este impulso

sigue creciendo. Los principales atractivos de esta arquitectura ARC su simplicidad,

regularidad, la modularidad y la localidad. Las características arquitectónicas de los arrays


sistólicos

concuerda con el modelo de la computación para muchos algoritmos matriz algebraicas, como

Un resultado el rendimiento del sistema a menudo se cierra para sus límites teóricos. En adición,

estas características de arco particularmente favorable para semiconductor muy gran escala

integración. Para el desarrollo de arrays sistólicos con alto rendimiento computacional,

que deben cumplir los criterios de estrecha correspondencia entre los flujos de datos algorítmico
y la matriz de topología subyacente. Por lo tanto, una pregunta que hacer es si matriz común

topologías (es decir, lineal, malla, triangular, hexagonal, etc.) son apropiados para todas matriz

cálculo. En principio, la mayor parte de cálculo de matriz puede ser mapeado en arrays lineales

por algunos medios de separación y transformación. Sin embargo, la arrays arco resultante

propensos a tener problemas de balanceo de carga y requieren control complicado. topologías

tales como matrices triangulares son ideales para cierto cálculo, pero para aquellos de cálculo

solamente. En álgebra de matrices, la secuencia de cálculo a menudo requiere que repetirse


muchas

veces hasta que se cumple la precisión numérica o una orden en particular es en el lugar. Por lo
tanto,

hay una gran necesidad de la topología de conjuntos sistólicos a ser más versátil y culpa

tolerante. En este documento, una topología de matriz para itcrative cálculo array será

introducido. En este contexto, los arrays sistólicos Kung-Leiserson se denominan

arrays sistólicos convencionales.

2. La arquitectura del procesador iterativo de matriz

El procesador array propuesto consiste en un número de procesamiento homogénea

nodos que están conectados entre sí lógicamente como dos capas intersticiales de arrays de malla,

778

como se representa en la Figura 1. Debido a su topología de conexión único, se nombra el

"Dos y medio Formación Simbólica dimensional" (TnFDSA) [2]. En la teoría de grafos

terminología, que puede ser descrito como un gráfico de G (N (G), C (G)), donde N (G) es un
conjunto de

nodos de procesamiento y (2 ((3) es un conjunto de conexiones que permiten la comunicación de


datos

entre nodos vecinos más próximos. Para hacer las comparaciones posteriores con el

arrays sistólicos convencionales más fácil, las dimensiones de la TnFDSA son nxnx2 donde

n = ml '~ suponiendo que mxm es la dimensiones de arrays sistólicos convencionales, y

{Ij, k} y {tx, ~, y} son dos conjuntos de índices que se utilizan para tratar un particular,

conexión y el nodo de la matriz, respectivamente. Con esta notación, N (G) y C (G) puede

formuló como sigue:


fijar = 0..n-1

N (G) - Nc ~, LS, y, ~ [5 = O..n-1

ty = 0..1

", 1%, C (G) = ij, k conecta entre NCX, 13, y y

~. "L ~ / 1 = ct + l si ct <n-1

L wnere J = 13 + 1 si ~ <n-1

~ 0 si ~ / ~ 1

celda inferior k'k = 1 si T = 0

~. ~, ~ I, j, 0 t., I, j, 1 1, es decir ~ -.ij, l y ~ ij, o están representados el mismo

"Conexión vertical, y los nodos frontera

I "~ = ~ i, I'0 Br son equivalentes a No, 13, ~,

{O = Ol

~ célula superior donde, ~" 0

Nct'13'0 T a = 1..n-2 13 = ~. nI y TM 0 1 ..

Figura 1: La TnFDSA

Cada nodo de procesamiento, N, se divide en dos partes internas. Ellos son los

unidad de cálculo (CP) y la unidad de comunicación (CM). El papel del PP es

realizar operaciones aritméticas que están determinados por el algoritmo subyacente.

Si bien todos los CM están involucrados en la configuración de la topología lógica global de la

formación. Así, los datos se pueden pasar lateralmente a otros nodos vecinos en la misma

capa, así como el nodo en la capa adyacente vertical de malla. La complejidad de los circuitos

por lo tanto, de cada nodo se determina por la funcionalidad de la CP y la versatilidad

de la CM. El confinamiento de arrays sistólicos convencionales en el intervalo de libre y

granularidad medio permanece aplicable a la TnFDSA tal que su coste-efectividad

para la integración de semiconductores se mantiene. Todo el acceso y control de datos

señales se transportan a través de la nodos frontera, B, y son emitidos por el anfitrión

computadora. Comparando con arrays de malla convencionales, el TnFDSA tiene 2 (n-2)


nodos frontera más. Algunos de almacenamiento local se facilita en cada nodo para sostener
precalculado

datos. Suponiendo que el tiempo de ejecución de cada nodo dominado por la

tiempo de cálculo, el retardo de propagación introducido por las conexiones verticales C ~, ~~ I

es despreciable.

También podría gustarte