An Iterative Array Processor Architecture - En.es

Una matriz iterativo arquitectura del procesador
Para el cálculo de la matriz
Stephen Lam PS
Escuela de Informática y Ciencias Matemáticas
Oxford Brookes University, Oxford OX3 0BP
Reino Unido
Resumen: Este artículo examina una arquitectura de procesador array iterativo
que puede ser usado para calcular de manera eficiente una amplia gama de matriz
algoritmos. La topología de este procesador de matriz puede ser descrito como dos
estrechamente acoplado malla de nodos de proceso. Las conexiones verticales
entre las dos mallas contribuir a su dimensionalidad. Los beneficios de
esta topología de conexión única puede ser aspirado a través de la asignación de
matriz algoritmos algebraicos. Una mayor explotación de un mayor
dimensionalidad no será considerada debido a su falta de sentido práctico durante mucho
integración de semiconductores a gran escala. La preocupación principal de este estudio es
el mapeo de flujos de datos de algoritmos subyacentes a la lógica
configuración de los conjuntos de procesadores de tal manera que el cálculo se puede realizar
iterativa.
1. Introducción
Entre arquitecturas de procesador de matriz, las matrices sistólicas que fueron introducidos por
Kung y Lciserson [1] crearon una marea investigación en la última década, y este impulso
sigue creciendo. Los principales atractivos de esta arquitectura ARC su simplicidad,
regularidad, la modularidad y la localidad. Las características arquitectónicas de los arrays

sistólicos
concuerda con el modelo de la computación para muchos algoritmos matriz algebraicas, como
Un resultado el rendimiento del sistema a menudo se cierra para sus límites teóricos. En adición,
estas características de arco particularmente favorable para semiconductor muy gran escala
integración. Para el desarrollo de arrays sistólicos con alto rendimiento computacional,
que deben cumplir los criterios de estrecha correspondencia entre los flujos de datos algorítmico
y la matriz de topología subyacente. Por lo tanto, una pregunta que hacer es si matriz común
topologías (es decir, lineal, malla, triangular, hexagonal, etc.) son apropiados para todas matriz
cálculo. En principio, la mayor parte de cálculo de matriz puede ser mapeado en arrays lineales
por algunos medios de separación y transformación. Sin embargo, la arrays arco resultante
propensos a tener problemas de balanceo de carga y requieren control complicado. topologías
tales como matrices triangulares son ideales para cierto cálculo, pero para aquellos de cálculo
solamente. En álgebra de matrices, la secuencia de cálculo a menudo requiere que repetirse

muchas
veces hasta que se cumple la precisión numérica o una orden en particular es en el lugar. Por lo
tanto,
hay una gran necesidad de la topología de conjuntos sistólicos a ser más versátil y culpa
tolerante. En este documento, una topología de matriz para itcrative cálculo array será
introducido. En este contexto, los arrays sistólicos Kung-Leiserson se denominan
arrays sistólicos convencionales.
2. La arquitectura del procesador iterativo de matriz
El procesador array propuesto consiste en un número de procesamiento homogénea
nodos que están conectados entre sí lógicamente como dos capas intersticiales de arrays de malla,
778
como se representa en la Figura 1. Debido a su topología de conexión único, se nombra el
"Dos y medio Formación Simbólica dimensional" (TnFDSA) [2]. En la teoría de grafos
terminología, que puede ser descrito como un gráfico de G (N (G), C (G)), donde N (G) es un
conjunto de
nodos de procesamiento y (2 ((3) es un conjunto de conexiones que permiten la comunicación de

datos
entre nodos vecinos más próximos. Para hacer las comparaciones posteriores con el
arrays sistólicos convencionales más fácil, las dimensiones de la TnFDSA son nxnx2 donde
n = ml '~ suponiendo que mxm es la dimensiones de arrays sistólicos convencionales, y
{Ij, k} y {tx, ~, y} son dos conjuntos de índices que se utilizan para tratar un particular,
conexión y el nodo de la matriz, respectivamente. Con esta notación, N (G) y C (G) puede
formuló como sigue:

fijar = 0..n-1
N (G) - Nc ~, LS, y, ~ [5 = O..n-1
ty = 0..1
", 1%, C (G) = ij, k conecta entre NCX, 13, y y
~. "L ~ / 1 = ct + l si ct <n-1
L wnere J = 13 + 1 si ~ <n-1
~ 0 si ~ / ~ 1
celda inferior k'k = 1 si T = 0
~. ~, ~ I, j, 0 t., I, j, 1 1, es decir ~ -.ij, l y ~ ij, o están representados el mismo
"Conexión vertical, y los nodos frontera
I "~ = ~ i, I'0 Br son equivalentes a No, 13, ~,
{O = Ol
~ célula superior donde, ~" 0
Nct'13'0 T a = 1..n-2 13 = ~. nI y TM 0 1 ..
Figura 1: La TnFDSA
Cada nodo de procesamiento, N, se divide en dos partes internas. Ellos son los
unidad de cálculo (CP) y la unidad de comunicación (CM). El papel del PP es
realizar operaciones aritméticas que están determinados por el algoritmo subyacente.
Si bien todos los CM están involucrados en la configuración de la topología lógica global de la
formación. Así, los datos se pueden pasar lateralmente a otros nodos vecinos en la misma
capa, así como el nodo en la capa adyacente vertical de malla. La complejidad de los circuitos
por lo tanto, de cada nodo se determina por la funcionalidad de la CP y la versatilidad
de la CM. El confinamiento de arrays sistólicos convencionales en el intervalo de libre y
granularidad medio permanece aplicable a la TnFDSA tal que su coste-efectividad
para la integración de semiconductores se mantiene. Todo el acceso y control de datos
señales se transportan a través de la nodos frontera, B, y son emitidos por el anfitrión
computadora. Comparando con arrays de malla convencionales, el TnFDSA tiene 2 (n-2)

nodos frontera más. Algunos de almacenamiento local se facilita en cada nodo para sostener
precalculado
datos. Suponiendo que el tiempo de ejecución de cada nodo dominado por la
tiempo de cálculo, el retardo de propagación introducido por las conexiones verticales C ~, ~~ I
es despreciable.

An Iterative Array Processor Architecture - En.es

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

An Iterative Array Processor Architecture - En.es

Cargado por

Copyright:

Formatos disponibles

Una matriz iterativo arquitectura del procesador

Para el cálculo de la matriz

Escuela de Informática y Ciencias Matemáticas

Oxford Brookes University, Oxford OX3 0BP

Resumen: Este artículo examina una arquitectura de procesador array iterativo

estrechamente acoplado malla de nodos de proceso. Las conexiones verticales

entre las dos mallas contribuir a su dimensionalidad. Los beneficios de

esta topología de conexión única puede ser aspirado a través de la asignación de

matriz algoritmos algebraicos. Una mayor explotación de un mayor

dimensionalidad no será considerada debido a su falta de sentido práctico durante mucho

integración de semiconductores a gran escala. La preocupación principal de este estudio es

el mapeo de flujos de datos de algoritmos subyacentes a la lógica

sigue creciendo. Los principales atractivos de esta arquitectura ARC su simplicidad,

regularidad, la modularidad y la localidad. Las características arquitectónicas de los arrays

integración. Para el desarrollo de arrays sistólicos con alto rendimiento computacional,

propensos a tener problemas de balanceo de carga y requieren control complicado. topologías

solamente. En álgebra de matrices, la secuencia de cálculo a menudo requiere que repetirse

introducido. En este contexto, los arrays sistólicos Kung-Leiserson se denominan

arrays sistólicos convencionales.

2. La arquitectura del procesador iterativo de matriz

El procesador array propuesto consiste en un número de procesamiento homogénea

como se representa en la Figura 1. Debido a su topología de conexión único, se nombra el

"Dos y medio Formación Simbólica dimensional" (TnFDSA) [2]. En la teoría de grafos

nodos de procesamiento y (2 ((3) es un conjunto de conexiones que permiten la comunicación de

n = ml '~ suponiendo que mxm es la dimensiones de arrays sistólicos convencionales, y

formuló como sigue:

N (G) - Nc ~, LS, y, ~ [5 = O..n-1

", 1%, C (G) = ij, k conecta entre NCX, 13, y y

celda inferior k'k = 1 si T = 0

~. ~, ~ I, j, 0 t., I, j, 1 1, es decir ~ -.ij, l y ~ ij, o están representados el mismo

"Conexión vertical, y los nodos frontera

I "~ = ~ i, I'0 Br son equivalentes a No, 13, ~,

~ célula superior donde, ~" 0

unidad de cálculo (CP) y la unidad de comunicación (CM). El papel del PP es

realizar operaciones aritméticas que están determinados por el algoritmo subyacente.

Si bien todos los CM están involucrados en la configuración de la topología lógica global de la

por lo tanto, de cada nodo se determina por la funcionalidad de la CP y la versatilidad

de la CM. El confinamiento de arrays sistólicos convencionales en el intervalo de libre y

granularidad medio permanece aplicable a la TnFDSA tal que su coste-efectividad

para la integración de semiconductores se mantiene. Todo el acceso y control de datos

señales se transportan a través de la nodos frontera, B, y son emitidos por el anfitrión

computadora. Comparando con arrays de malla convencionales, el TnFDSA tiene 2 (n-2)

datos. Suponiendo que el tiempo de ejecución de cada nodo dominado por la

tiempo de cálculo, el retardo de propagación introducido por las conexiones verticales C ~, ~~ I

También podría gustarte