Está en la página 1de 7

Traducido del inglés al español - www.onlinedoctranslator.

com

Unidad lógica aritmética paralela de 8 bits ERSFQ


AF Kirichenko, IV Vernik, MY Kamkar, J. Walter, M. Miller, LR Albu y OA Mukhanov

Resumen— Hemos diseñado y probado una unidad aritmética lógica (ALU) Hasta la fecha, los diseños de ALU de superconductores informados se
paralela de 8 bits ERSFQ. El diseño de ALU emplea la ejecución de
implementaron utilizando la lógica RSFQ siguiendo arquitecturas de serie de bits,
instrucciones canalizadas por ondas y cuenta con una arquitectura de
de segmento de bits y paralelas.
segmento de bits modular que se puede extender fácilmente a cualquier
cantidad de bits y se adapta al reciclaje actual. Una señal de acarreo Los diseños bit-serial tienen la complejidad más baja; sin embargo,
sincronizada con una propagación de instrucción asíncrona proporciona la sus latencias aumentan linealmente con la longitud de los operandos,
operación de tubería de onda de la ALU. El conjunto de instrucciones ALU lo que apenas los hace competitivos para su implementación en
consta de 14 instrucciones aritméticas y lógicas. Ha sido diseñado y simulado
procesadores de 32/64 bits [17], [18]. Se utilizaron ALU bit-serial en
para funcionar con una frecuencia de reloj de hasta 10 GHz a 10 kA/cm.2
microprocesadores RSFQ de 8 bits [19]-[24], en los que aún es factible
proceso de fabricación. La ALU está integrada en un banco de pruebas de alta
frecuencia basado en un registro de desplazamiento con un generador de reloj en el un reloj interno 8 veces más rápido. Como ejemplo, en [25] se informó
chip para permitir una prueba integral de alta frecuencia para todos los operandos una ALU bitserial de 80 GHz.
posibles. La ALU ERSFQ de 8 bits, que consta de 6840 uniones Josephson, se fabricó Con el fin de aliviar los requisitos de reloj alto y las largas latencias del
con el MIT Lincoln Lab de 10 kA/cm.2Proceso de fabricación de SFQ5ee con ocho
diseño de bits en serie y mantener una complejidad de hardware moderada,
capas de cableado Nb y una capa de inductancia de alta cinética necesaria para la
se implementó una arquitectura ALU de segmento de bits [26], [27]. Por lo
tecnología ERSFQ. Evaluamos los márgenes de polarización para todas las
instrucciones y varios operandos en el reloj de baja y alta frecuencia. A baja general, en tales diseños, los segmentos paralelos de 4 bits se ejecutaban en
frecuencia, el reloj y toda la propagación de instrucciones a través de ALU se serie, lo que reducía los requisitos del reloj interno, pero el retraso inducido
observaron con márgenes de polarización de por la rotación de la señal de acarreo limita la frecuencia general del reloj de
+/-11% y +/-9%, respectivamente. También a baja velocidad, la ALU exhibió una
la ALU.
funcionalidad correcta para todas las instrucciones aritméticas y lógicas con
Las ALU paralelas son capaces de ofrecer un rendimiento competitivo
márgenes de polarización de +/-6%. Probamos la ALU de 8 bits para todas las
instrucciones hasta una frecuencia de reloj de 2,8 GHz. para procesadores de 32/64 bits. La arquitectura paralela implementada en
RSFQ permite un rendimiento muy alto; sin embargo, la latencia aún puede
ser grande debido a las canalizaciones de ejecución profundas. Para reducir
Términos del Índice—computación energéticamente eficiente, superconductores,
la latencia, se propuso una temporización de tubería de onda asíncrona. En
procesamiento digital, SFQ, ERSFQ.
tal esquema de temporización, una operación puede comenzar
inmediatamente cuando llegan dos operandos independientes. No se
necesita pulso de reloj para pasar a la siguiente etapa. Un pulso de reloj
yo yoNTRODUCCIÓN

S
sigue a los datos para restablecer las celdas para la próxima ola de datos.
SUPERCONDUCTORla tecnología digital está progresando desde el
Utilizando este enfoque de diseño, se demostró una ALU paralela de 8 bits
venerable Rapid Single Flux Quantum (RSFQ) [1], [2] hasta el SFQ
de 20 GHz basada en un sumador paralelo de Kogge-Stone modificado con
energéticamente eficiente [3]-[7] y la lógica adiabática [8], [9]. Estos
un amplio conjunto de instrucciones [28], [29]. Sin embargo, la complejidad
sucesores de RSFQ ahora se consideran una base para la tecnología de
del hardware del circuito era significativa con un área de circuito grande, lo
circuito de baja potencia de próxima generación necesaria para futuros
que lo hacía poco práctico para la integración dentro de un
centros de datos de alta eficiencia energética, supercomputadoras [10]-
microprocesador. En un intento de simplificar el hardware, se informó una
[12] y módulos de control clásicos integrados para computadoras
ALU sparsetree de prefijo paralelo [30]. Hasta la fecha, las ALU paralelas
cuánticas [13] . Una de las lógicas SFQ energéticamente eficientes más
implementadas no son prácticas para la construcción de un microprocesador
prometedoras y prácticas es ERSFQ, que conserva todas las ventajas de
RSFQ, incluidas las bibliotecas de circuitos bien desarrolladas [3], [14], compacto de alto rendimiento.

[15]. La lógica ERSFQ es una de las dos tecnologías de circuitos En este documento, informamos la primera implementación de una ALU

integrados elegidas para la implementación de procesadores de 8 bits ERSFQ paralela. Con el fin de reducir la complejidad y permitir un
superconductores en el proyecto C3 [16]. diseño de circuito integrado muy compacto, se empleó una arquitectura de
La Unidad Lógica Aritmética (ALU) es un módulo de procesamiento clave transporte de ondulación eficiente en el hardware. Este diseño se combinó
de la unidad central de procesamiento (CPU) de una computadora. Dado que con la arquitectura de temporización canalizada por ondas asíncrona. Esto
la ALU es el módulo de CPU que cambia más activamente, define en gran nos permitió preservar un alto rendimiento y evitar el aumento de la latencia
medida el rendimiento e impulsa las opciones arquitectónicas de toda la que es típico en los diseños sencillos de acarreo de ondulación.
unidad de procesamiento.

La investigación se basa en el trabajo apoyado en parte por la Oficina del Director de II. DFIRMA
Inteligencia Nacional (ODNI), Actividad de Proyectos de Investigación Avanzada de
Inteligencia (IARPA), a través del contrato W911NF-14-C0090.
AF Kirichenko, IV Vernik, MY Kamkar, J. Walter, M. Miller y OA Mukhanov
están en HYPRES, Elmsford, NY 10523 EE. UU. (correo electrónico:
A. Arquitectura
alex@hypres.com ) El objetivo de nuestro proyecto era demostrar una CPU paralela ERSFQ de
LR Albu estuvo con IBM TJ Watson Research Center, Yorktown Heights, NY 10598 EE.
UU. (correo electrónico: remus.albu@gmail.com ) 8 bits completamente funcional colocada en un solo chip de 5x5 mm.
2

fabricado en el proceso SFQ5ee de MIT Lincoln Lab [31]. Por lo tanto, la Para expandir el conjunto de instrucciones (Tabla I), hemos
arquitectura elegida debía ser muy compacta. La arquitectura ALU agregado puertas XOR en la entrada para que sirvan como inversores
paralela más compacta se basa en un simple sumador de acarreo de controlables. Junto con la entrada desocupada del medio sumador de la
ondulación. RSFQ es una familia de lógica secuencial, por lo que para segunda fila del LSB (“+1” en la Fig. 1a), la inversión de los operandos de
lograr un alto rendimiento (es decir, velocidad de reloj) hemos entrada permite operaciones como la resta y la comparación, además
empleado la arquitectura de canalización de ondas [32], [33]. de la inversión en sí misma y muchas combinaciones lógicas.
El sumador canalizado por ondas de acarreo de ondas ERSFQ se Tres segmentos de la ALU (1842 uniones Josephson) se
ha descrito y demostrado en [14]. Comprende dos filas de medios simularon con éxito a nivel físico y se optimizaron con el
sumadores con propagación de acarreo asíncrona. La primera fila nuevo simulador de circuito superconductor PSCAN2 [34].
de medios sumadores realiza operaciones XOR y AND en los
operandos, luego la segunda fila produce SUM y CARRY.
B. Interruptor de instrucción

El interruptor de decodificación de instrucciones es el circuito que convierte un


s C s C s C s C
DECIR AH DECIR AH DECIR AH DECIR AH sumador paralelo de acarreo ondulado en una ALU (Fig. 1a). Su función
a b a b a b a b
+1
Cambiar Sudoeste Sudoeste Sudoeste Sudoeste
instrumento

s C s C s C s C
clk clk clk clk
DECIR AH DECIR AH DECIR AH DECIR AH

a b a b a b a b

X X X X X X X X D Salida1 salida2

RS2
inversión

D
inversión b

Reloj
puerto1

RS2
(a) (b)
D

RS 2
puerto2

Fig. 1. Un fragmento del diagrama de bloques de ALU (a) y las configuraciones del interruptor de
instrucción (b). Aquí, "X" representa una celda XOR, "HA" es un medio sumador y "Sw" es un
H Reloj
interruptor de instrucción.
C
Establecer Reiniciar

Para hacer una ALU simple a partir de dicho sumador, separamos estas filas
de medio sumador con interruptores 2x2 reconfigurables (Fig. 1a). Reloj V XOR Y

Dependiendo de la configuración del interruptor (Fig. 1b), el resultado de (a) (b)


esta ALU simple puede ser OR, AND, XOR o ADD. El canal de ondas asegura Fig. 2. Diagrama de bloques del interruptor de instrucción (a) y la notación simbólica del flip-
la sincronización de la propagación CARRY a lo largo de los sumadores de la flop RS de doble puerto (b).

mitad superior con la propagación del código de instrucción de 3 bits a lo


largo de los interruptores de instrucción (Fig. 1). Hemos ralentizado la La funcionalidad es conmutar las salidas SUM y CARRY de la
propagación de la señal del reloj horizontal para que el reloj siga los datos, primera fila de medios sumadores a la segunda fila de medios
formando una onda. Como resultado, tan pronto como el primer segmento sumadores. Hay cinco estados de configuración útiles del
de bit haya calculado el acarreo, la siguiente instrucción puede enviarse para interruptor: ZERO, AND, XOR, OR y ADD (Fig. 1b). Así, una
su ejecución, produciendo una canalización asíncrona (onda). instrucción toma tres líneas de control. Con dos inversiones de
argumentos y una “llevar en"("+1") línea de control, hay un total de
6 líneas de control de instrucción en la ALU (Tabla I).

TABLA I
ALU INSTRUCCIÓNShora del Este

+1 XOR Y LLEVAR inversión A inversión B

Cero 0 0 0 0 0 0
XOR 0 1 0 0 0 0 puerto1 Salida1

NXOR 0 1 0 0 1 0 Salida1 UNED


t
Y 0 0 1 0 0 0
NAND 0 1 1 0 1 1 puerto1

O 0 1 1 0 0 0
RS2

NI 0 0 1 0 1 1 puerto2

A+B 0 1 0 1 0 0
AB 1 1 0 1 0 1 puerto2 salida2
Establecer res mi

licenciado en Letras 1 1 0 1 1 0
NO UN) 0 1 0 0 1 0 (a) (b)
NO ES B) 0 1 0 0 0 1
Fig. 3. Esquemas de la celda flip-flop RS de doble puerto (a) y su notación
A=B 1 1 0 0 0 1
simbólica (b).
Inc A 1 1 0 0 0 0
3

Fig. 5. Micrografía de la ALU con banco de pruebas de alta frecuencia. El recuadro


muestra todo el 5 x 5 mm2chip (alejar).

y el resultado se almacena en el búfer de salida. Por lo tanto, los


Fig. 4. Diagrama de bloques del banco de pruebas para pruebas de alta velocidad de la ALU de 8 bits. resultados pueden leerse desde el búfer de salida a baja velocidad y
analizarse. Este enfoque permite la prueba exhaustiva de ALU que
El interruptor de instrucciones (Fig. 2a) consta de dos flip-flops excede la velocidad límite de la interfaz de temperatura ambiente y
RS de dos puertos [35], [36] (Fig. 2b); uno es para conmutar la señal también sin la explotación de equipos de alta frecuencia muy costosos.
de entrada XOR y el otro es para conmutar la señal de entrada
AND. El esquema de la celda RS2 se muestra en la Fig. 3. Cada ciclo
de reloj, una señal de reloj limpia ambas celdas RS2 y llega a sus
D. Disposición
respectivos puertos de "Reinicio". Según el puerto al que llegue la
señal de lectura destructiva, la señal de entrada se emite desde los La ALU integrada en el banco de pruebas de alta velocidad fue
puertos de salida Out1 o Out2. diseñada y fabricada para MIT-LL SFQ5ee 10-kA/cm2proceso de
La instrucción se propaga entre segmentos ALU a través de líneas de fabricación [31] con ocho capas de cableado de Nb y una capa de alta
transmisión pasivas (PTL) en sincronización con una señal de tubería de inductancia cinética (HKIL). El HKIL permite la colocación de grandes
onda por medio de cierres de flip-flop D. La sincronización de inductores de polarización ERSFQ debajo del área del circuito, lo que
canalización de ondas la proporciona el elemento C de Muller, que reduce sustancialmente el tamaño físico de los circuitos ERSFQ.
sincroniza la propagación de la señal de reloj horizontal y vertical. La Fig. 5 muestra una micrografía de la ALU ERSFQ de 8 bits colocada
en el banco de pruebas de alta velocidad en un 5 x 5 mm.2chip, con ALU
y componentes del banco de pruebas marcados. El circuito completo
C. ALU integrado con banco de pruebas de alta frecuencia
comprende 6840 uniones Josephson, incluidos los JJ de polarización
El banco de pruebas de alta frecuencia incorporado es una característica ERSFQ (1008) y el banco de pruebas (920). La ALU de 8 bits ocupa un
natural de la lógica secuencial. Debido a su memoria interna, RSFQ tiene una área de 1,6 x 0,5 mm2. La ALU está diseñada con un paso de corte de
capacidad natural para cadenas de exploración y búferes. Por lo tanto, probar un 200 m, igualando el paso del archivo de registro diseñado de la CPU.
circuito RSFQ paralelo complejo a alta velocidad es una tarea relativamente fácil Toda la ALU tiene una sola línea de corriente de polarización común.
cuando se emplea un banco de pruebas en chip [37], [38].
La figura 4 muestra un diagrama de bloques del banco de pruebas de alta Hemos simulado y optimizado tres segmentos de bits ALU
frecuencia utilizado para probar la ALU. El operando ALU de 8 bits consta de dos utilizando el nuevo simulador PSCAN2 [34]. También hemos
argumentos de 8 bits (a0-a7yb0-b7) y una instrucción de 6 bits (i0-i5), haciendo que realizado la verificación/extracción de LVS con Cadence, seguida de
el registro de entrada tenga una longitud de 22 bits. Aquí usamos un búfer de tres la simulación del circuito (anotación posterior) con Cadence Spectre
palabras de profundidad, lo que significa que podemos probar a alta velocidad para la verificación de la funcionalidad ALU con los parámetros del
hasta tres operandos secuencialmente. El búfer de registro de entrada consta de circuito extraído. Esta simulación de diseño cercano al físico tiene
una matriz de 3x22 de flip-flops D de doble puerto (D2) [35] conectados en serie en cuenta toda la periferia, como la red de polarización ERSFQ
horizontalmente a través de un puerto y verticalmente a través del segundo
extraída y el cableado del chip.
puerto. Esto comprende una cadena de exploración que puede cargar en serie (a
baja velocidad) tres operandos de entrada de 22 bits y cargarlos en paralelo (a alta
velocidad) en el circuito bajo prueba (la ALU). tercero miEXPERIMENTALRRESULTADOS
El reloj de alta velocidad es generado por un generador de reloj.
Después de cargar los operandos de entrada, en la señal de disparo, el
A. Pruebas de preselección
contador de reloj HF [36] genera exactamente cuatro pulsos SFQ. Estos
pulsos están siendo sincronizados con un generador de HF externo, lo La evaluación experimental de un chip de tal complejidad requiere
que permite variar la frecuencia del reloj. Durante estos cuatro ciclos de algunos pasos, incluida la preselección. Porque el rendimiento de
reloj, se ejecutan tres operandos consecutivos nuestro proceso de fabricación no ha alcanzado el estándar industrial
4

Fig. 6. La ALU en banco de pruebas de HF en un chip de 5 mm con entradas/salidas marcadas.


Fig. 7. Propagación correcta de todas las instrucciones a través de ALU con márgenes de sesgo de
± 9,6%. Los trazos rojos indican las señales de entrada aplicadas y las salidas esperadas. Los
sin embargo, tuvimos que idear algún procedimiento de preselección
trazos azules son las salidas del monitor de instrucciones que se observan con los convertidores
para descartar rápidamente un chip defectuoso de una oblea de bajo SFQ/dc de tipo basculante (Fig. 6).
rendimiento. El objeto más crítico y propenso a defectos en el proceso
de 9 capas [31] es una vía que conecta todas las capas de metal. En
nuestro caso (ERSFQ), esta es una vía entre el HKIL (en la parte inferior
B. Prueba de funcionalidad y alta velocidad
de la pila) y una de las capas de cableado que se conecta a una unión de
polarización Josephson (el llamado inductor de polarización). Una vez que el chip ha superado con éxito el proceso de preselección,
Simplemente midiendo la corriente crítica de la línea de polarización comenzamos una evaluación exhaustiva de la ALU a baja y alta velocidad y
ERSFQ, podríamos detectar inductores de polarización desconectados y medimos sus márgenes operativos de polarización.
descartar dichos chips. Incluso un solo inductor de polarización La Fig. 8 muestra un diagrama de bloques del enfoque de prueba en
defectuoso entre miles conduciría a una falla de funcionalidad, aunque chip de alta velocidad [37] que utilizamos. Aquí usamos el sistema de
a veces el circuito aún funcionaría con márgenes operativos más prueba OCTOPUX [39] para sesgar la ALU y el banco de pruebas en el
pequeños de lo esperado. Entonces, si la corriente crítica de la línea de chip, proporcionando señales de entrada y control, y monitoreando las
polarización ALU fuera significativamente menor que el valor diseñado, salidas. Las pruebas de alta y baja velocidad parecen casi idénticas, con
la excepción de la señal de activación del reloj de alta frecuencia que se
Después de realizar la preselección analógica, comenzamos las aplica en el modo de prueba de alta velocidad.
pruebas digitales. En la primera ejecución, observamos la Para ejecutar la ejecución de la operación, primero se debe cargar el
propagación del reloj a lo largo de la ALU mediante tres monitores búfer de entrada con tres operandos de 22 bits (Fig. 4). Luego aplicamos una
de reloj diseñados específicamente para fines de diagnóstico. Los señal de reloj ALU de baja velocidad para obtener tres resultados
monitores de reloj se colocaron en la entrada de la ALU (clk_monen consecutivos de 8 bits en la salida paralela.
la Fig. 6), a la salida del último corte ALU (clk_out1), y a la salida de En el modo de alta velocidad, antes de aplicar el reloj, se envía una
la cadena de sincronización onda-tubería (clk_out2). El último señal de "disparador HF" (Fig. 8) al contador de reloj en el chip [37],
monitor de reloj muestra si toda la sincronización de tubería de produciendo cuatro pulsos SFQ a una velocidad extremadamente alta
onda funciona correctamente. La presencia de esta señal indica definida por el retraso en un sola fusión. Estos pulsos van al bloque de
que el reloj ha pasado con éxito a través de la cadena de ocho sincronización que comprende un conjunto de latches cronometrados
elementos C de Muller y líneas de transmisión pasivas (PTL). por el generador de HF externo. Por lo tanto, para cada señal inicial, el
Después de que el chip pasa el procedimiento de preselección de la generador de reloj integrado produce cuatro pulsos de reloj a la
cadena de reloj, comenzamos la prueba digital real al verificar la frecuencia dada externamente.
propagación de instrucciones a través de la ALU (Fig. 7). Esta prueba indica Se requiere un pulso de reloj para que la ALU ejecute una onda.
no solo que todos los interruptores de instrucciones de ALU están
operativos, sino también que el banco de pruebas funciona correctamente.
Reloj 4K
Una instrucción se carga como los primeros 6 bits de un operando de 22 bits.
sincronizar
encimera
Tres operandos consecutivos se cargan a través de los puertos d0-d2 en la
Fig. 6. Cinco (“invB”, “invA”, “XOR”, “Y”,y“LLEVAR") de las seis líneas de control
generador de alta frecuencia

de instrucción se pueden monitorear directamente en las salidas de ALU Aporte


disparador de alta frecuencia

Producción
buffer
marcadas en la Fig. 6. La línea de control de instrucción (“+1”) se puede ALU buffer
reloj de baja frecuencia

3x22 bits
monitorear a través de la salida LSB (“O0”). 3x8 bits
operandos

La Fig. 7 muestra el comportamiento correcto de las 6 líneas de control de


instrucciones. Esta prueba solo se puede realizar a baja velocidad, ya que ninguno
de los monitores está almacenado en el búfer, excepto "+1”. El monitor de “+1” (
COMIÓ

llevar en) la línea de control de instrucciones es una salida del primer segmento “PULPIJO” Resultados

(LSB) y se almacena en búfer, por lo que se desplaza dos ciclos de reloj en relación
con los otros cinco monitores.
Fig. 8. Diagrama de bloques de prueba de alta velocidad de la ALU.
5

operación canalizada y tres pulsos son para escribir los resultados en un


búfer de salida de 3x8 bits. Los siguientes tres pulsos de reloj leen los TABLA II
miEXPERIMENTALMENTEMETROMEDIDOALU FUNCCIONALBNICMETROARGINES(LF)
resultados de 8 bits.
Aunque la profundidad de la memoria intermedia en el chip limita la yobajo yoalto Márgenes completos Márgenes por debajo

cantidad de operandos que se pueden probar en cada ciclo, este enfoque en tipo de prueba (mamá) (mamá) (+/- %) corriente críticaa
(+/- %)
el chip de alta velocidad permite una verificación inequívoca de cada
Propagación de reloj 398 502 11.6 3.9
ejecución de operandos entre otros dos operandos cualesquiera. Propagación de instrucciones 405 491 9.6 3.0
Ejecución de operaciones 413 470 6.5 2.0
aEl margen superior es la corriente crítica de toda la red de polarización.
C. Resultados de la prueba

Probamos con éxito la ALU de 8 bits ERSFQ integrada en el banco de


pruebas de alta frecuencia para el conjunto de instrucciones señal de disparo”. Aquí es donde difieren los patrones de alta y baja
enumerado en la Tabla I con varios argumentos a baja velocidad. Los velocidad. Las 8 trazas finales comprenden las salidas paralelas del
márgenes actuales de sesgo operativo estaban dentro de ± 6,5 % (deyo búfer de salida (realmente medidas y digitalizadas).
bajo=413 mA ayoalto=470mA). La Fig. 9 muestra el funcionamiento La línea discontinua en la Fig. 10 divide el experimento en modo de alta y
correcto de la ALU paraAGREGAR, Y,yXOR. La Fig. 9a muestra dos baja velocidad con los mismos operandos de entrada. La prueba de alta
resultados de la instrucción.A+B: aA=29, B=141 y enA=13,B=72. La Fig. velocidad se diferencia de la prueba de baja velocidad por la presencia del
9b muestra los resultados de las instrucciones.YyXORsobre argumentos pulso de "gatillo HF" (marcado como CLK_TR en la Fig. 10). Naturalmente,
A=63 yB=240. Estos son solo patrones de salida. con las mismas entradas para pruebas de baja y alta velocidad, ambas
Para ilustrar la funcionalidad del banco de pruebas, presentamos en mitades en la Fig. 10 muestran la misma salida (O0-O7). La única otra
la Fig. 10 patrones de prueba completos con los mismos operandos que diferencia entre las dos mitades de la imagen es el cambio de fase de 4
en la Fig. 9. La señal de reloj HF (Fig. 8) se ajustó a 2,8 GHz. Las 4 trazas relojes. En el reloj de baja velocidad, como discutimos anteriormente, el
principales son las señales de entrada de carga de operandos (d0-d2 y primer resultado debería aparecer en la quinta señal de reloj ALU. Mientras
el reloj en serie). La siguiente (quinta) traza es el reloj ALU, que ejecuta está en modo de alta velocidad, la primera salida ocurre en el primer pulso
la ejecución de los operandos y lee los resultados. La sexta traza, de reloj de baja velocidad (5-4=1). Esto se ve claramente en la Fig. 10.
designada como CLK_TR, es la "HF

IV. DISCUSIÓN
La Tabla II enumera los márgenes de polarización de baja frecuencia para el
reloj y toda la propagación de instrucciones a través de la ALU, así como los
márgenes para la funcionalidad correcta de la ALU para todas las instrucciones
aritméticas y lógicas. La última columna de la Tabla II muestra los márgenes para
la operación más eficiente energéticamente [40] de la ALU, es decir, en modo de
disipación de potencia estática cero.
Los márgenes de polarización medidos reducidos (tanto completos como más
eficientes energéticamente) en comparación con los simulados pueden entenderse
por posibles problemas de fabricación que afectan la entrega de corriente de
polarización a través de HKIL. Vale la pena señalar que si un inductor de
polarización HKIL en particular estuviera defectuoso y causara fallas en la entrega
de polarización a la celda ERSFQ, el circuito ERSFQ aún funcionaría con la corriente
de polarización requerida redistribuida desde las celdas adyacentes en condiciones
de sobrepolarización. Se observaron fuertes indicios experimentales de tal
comportamiento, con una variación de chip a chip deyoCde la red de sesgo del
ERSFQ, y el desplazamiento de los márgenes de sesgo por encima del ERSFQyoC
incluso para la propagación de reloj simple.
Lo mismo, creemos, se aplica a la explicación de por qué la ALU con el
banco de pruebas funcionó solo a 2,8 GHz, mientras que fue diseñada para
funcionar a una frecuencia de reloj de hasta 10 GHz.

VCONCLUSIÓN
Fig. 9. Funcionamiento correcto a baja velocidad de la ALU con márgenes de polarización
Hemos diseñado y probado una ALU paralela energéticamente
de ± 6,5 % para los operandos (29+141) y (13+72) (a) y para (63 AND 240) y (63 XOR 240)
(b ). El patrón es solo con las trazas de salida. La traza superior es una señal de reloj. El eficiente de tubería de onda basada en la lógica ERSFQ.
resto son las salidas O0-O7 y los monitores de instrucciones.
6

Fig. 10. El patrón completo con prueba de baja velocidad (mitad izquierda) y alta velocidad de 2,8 GHz (mitad derecha) para operandos (29 + 141), (13 + 72) (a) y (63 Y 240), ( 63
XOR 240) (b). Los 6 primeros trazos son las señales de entrada que cargan operandos y aplican el reloj. Las 8 trazas inferiores (O0-O7) son la salida.

El diseño compacto de transporte ondulado nos permite colocar toda la ALU de de forma cronológica a lo largo de todo el circuito de acarreo de ondas sin
8 bits con 14 instrucciones en un tamaño relativamente pequeño de 1,6 x 0,5 mm.2 necesidad de reloj. La onda de reloj solo se usa para restablecer la celda
área con un paso de rebanada de 200 m. Un diseño tan compacto es posible ERSFQ antes de la siguiente onda de datos.
mediante el uso de celdas funcionales ERSFQ con memoria interna en lugar de El circuito ALU consta de 6840 uniones Josephson y se
sintetizar el diseño utilizando puertas y pestillos elementales. Para la distribución fabricó utilizando un 10-kA/cm2Proceso de fabricación de MIT-
de señales de área eficiente, utilizamos una combinación de líneas de transmisión LL SFQ5ee con ocho capas de cableado Nb y HKIL. La ALU de 8
pasivas entre segmentos de ALU y JTL para enrutar señales dentro de segmentos bits se integró posteriormente en un microprocesador ERSFQ
individuales. Este enfoque modular también es conveniente para implementar el de 8 bits [41], que se coloca en un 5 x 5 mm2chip.
llamado esquema de "reciclaje actual" en la polarización de ALU. Nuestra ALU ERSFQ de 8 bits funcionó con éxito para todas las instrucciones
aritméticas y lógicas hasta una frecuencia de reloj de 2,8 GHz. Para facilitar las
Para preservar un alto rendimiento, utilizamos la temporización canalizada de ondas pruebas digitales sin ambigüedades, el circuito ALU se incrustó en un banco de
que permite que la siguiente operación comience inmediatamente cuando llegan dos pruebas de alta frecuencia con un generador de reloj SFQ en el chip. Este enfoque
operandos. Este esquema de temporización también nos permite reducir la latencia de nos permitió verificar cualquier combinación posible de operandos tanto a baja
ALU, ya que cada onda de datos se propaga de forma asincrónica. como a alta velocidad. medimos
7

márgenes de sesgo para todas las instrucciones y varias combinaciones de [18] JY Kim, S. Kim y J. Kang, "Construcción de una ALU RSFQ de 4 bits con celdas de medio
sumador"Trans. IEEE. aplicación supercond., vol. 15, núm. 2, págs. 308–311, junio
operandos en reloj de baja y alta frecuencia.
de 2005
[19] M. Dorojevets, P. Bunyk y D. Zinoviev, "Chip FLUX: diseño de un prototipo de
procesador RSFQ ultracanalizado de 16 bits y 20 GHz basado en tecnología
ARECONOCIMIENTO LTS de 1,75 μm", IEEE Trans. aplicación Supercond., vol. 11, núm. 1, págs.
326–332, marzo de 2001.
Los autores agradecen al equipo de fundición del MIT Lincoln [20] M. Tanaka et al., "Un prototipo de microprocesador de lógica cuántica de flujo único",
Lab por la fabricación de chips, a M. Denneau y SV Rylov por las en Proc. IEEE ISSCC Dig. tecnología Documentos, febrero de 2004, vol. 1, págs. 298–
529.
valiosas discusiones y a S. Holmes y M. Manheimer por su apoyo. [21] Y. Yamanashi et al., “Diseño e implementación de un microprocesador SFQ
Los puntos de vista y las conclusiones contenidas en este documento biterial canalizado, CORE1β,”Trans. IEEE. aplicación supercond., vol. 17, núm.
son de los autores y no deben interpretarse como que representan 2, págs. 474–477, junio de 2007.
[22] A. Fujimaki et al., "CORE del microprocesador cuántico de flujo único en serie
necesariamente las políticas oficiales o los avales, ya sean explícitos o
de bits"IECE Trans. Electrón., vol. E91-C, págs. 342–349, marzo de 2008.
implícitos, de la ODNI, la IARPA o el gobierno de los EE. UU. [23] M. Tanaka et al., "Diseño e implementación de un microprocesador cuántico de flujo
único serial de 8 bits canalizado con memorias caché"supercond. ciencia
Tecnología., vol. 20, núm. 11, págs. S305–S309, noviembre de 2007.
[24] Y. Nobumori et al., “Diseño e implementación de un microprocesador SFQ
RFERENCIAS completamente asíncrono: SCRAM2,”Trans. IEEE. aplicación supercond., vol. 17,
[1] KK Likharev y VK Semenov, "Familia de lógica/memoria RSFQ: una nueva tecnología de núm. 2, págs. 478–481, junio de 2007.
unión de Josephson para sistemas digitales de frecuencia de reloj de [25] Y. Ando, R. Sato, M. Tanaka, K. Takagi y N. Takagi, "Operación de 80 GHz de
subterahercios", IEEE Trans. aplicación Supercond., vol. 1, no. 1, págs. 3 a 28, marzo una unidad lógica aritmética RSFQ de 8 bits", en2015 15.ª Conferencia
de 1991. Internacional de Electrónica Superconductora (ISEC), Nagoya, 2015, págs.
[2] OA Mukhanov, VK Semenov y KK Likharev, "Ultimate performance of 1-3.
the RSFQ logic circuits"Trans. IEEE. Magn., vol. MAG-23, no. 2, [26] G. Tang, K. Takata, M. Tanaka, A. Fujimaki, K. Takagi y N. Takagi, "Unidad lógica
págs. 759-762, marzo de 1987. aritmética de división de bits de 4 bits para microprocesadores RSFQ de 32
[3] D. Kirichenko, S. Sarwana, A. Kirichenko, "Posización de disipación de energía estática bits"Trans. IEEE. aplicación supercond., vol. 26, núm. 1, enero de 2016, art.
cero de los circuitos RSFQ"Trans. IEEE. aplicación Supercon., vol. 21, págs. 776-779, 1300106.
junio de 2011. [27] G. Tang, P. Qu, X. Ye y D. Fan, "Diseño lógico de una unidad lógica aritmética de
[4] OA Mukhanov, “Tecnología cuántica de flujo único energéticamente eficiente” Trans. división de bits de 16 bits para microprocesadores RSFQ de 32/64 bits"Trans. IEEE.
IEEE. aplicación supercond.,vol. 21, págs. 760-769, junio de 2011. aplicación supercond., vol. 28, núm. 4, junio de 2018, art. 1300305.
[5] MH Volkmann, S. Sahu. C. Fourie, OA Mukhanov, "Implementación de circuitos [28] T. Filippov et al., "Unidad lógica aritmética RSFQ canalizada por ondas asíncrona de 8
digitales cuánticos de flujo único eficientes en energía con operación sub-aJ/ bits",Trans. IEEE. aplicación supercond., vol. 21, núm. 3, págs. 847–851, junio de
bit"supercond. ciencia Tecnología. vol. 26 de enero de 2013, art. Nº 015002. 2011.
[29] T. Filippov et al., “Operación de 20 GHz de una unidad aritmético-lógica RSFQ
[6] M. Tanaka, M. Ito, A. Kitayama, T. Kouketsu, A. Fujimaki, “18 GHz, canalizada por ondas asíncronas,”física procedimiento, vol. 36, págs. 59 a 65, 2012.
Funcionamiento de 4,0 aJ/bit de registros de desplazamiento rápidos de flujo único [30] M. Dorojevets, C. Ayala, N. Yoshikawa y A. Fujimaki, “Unidad aritmética-lógica RSFQ
cuántico de energía ultrabaja.jap. Aplicación J. físicavol.51,2012, art. Nº 053102. superconductora de árbol disperso asíncrono de 8 bits con un amplio conjunto de
[7] Q. Herr, A. Herr, O. Oberg, A. Ioannidis, "Lógica de superconductores de operaciones”Trans. IEEE. aplicación supercond., vol. 23, núm. 3, junio de 2013, art.
potencia ultrabaja"Aplicación J. Físico,vol. 109, 2011. Arte. Nº 103903. DNI 1700104.
[8] N. Takeuchi, D. Ozawa, Y. Yamanashi, N. Yoshikawa, "Un parametron de flujo [31] SK Tolpygo, V. Bolkhovsky, TJ Weir, A. Wynn, DE Oates, LM Johnson y MA
cuántico adiabático como dispositivo lógico de potencia ultrabaja" Gouker,“Procesos de fabricación avanzados para circuitos integrados
supercond. ciencia Tecnologíavol. 26, 2013, art. Nº 035010. superconductores a muy gran escala”,Trans. IEEE. aplicación
[9] N. Takeuchi, Y. Yamanashi, N. Yoshikawa, "Biblioteca de células de parametron de flujo supercond., vol. 26 de junio de 2016, art. no. 1100110.
cuántico adiabático que adopta un diseño minimalista"Aplicación J. fisio., vol. 117, [32] L. Cotten, “Sistemas canalizados de tasa máxima”, en Proc. Cómputo Conjunto
núm. 17, 2015, art. no. 173912. Muelle AFIPS. Conf., 1969.
[10] DS Holmes, AL Ripple, MA Manheimer, "Computación superconductora de [33] M. Dorojevets, C. Ayala y A. Kasperek, Data-Flow Microarchitecture for Wide
eficiencia energética: presupuestos y requisitos de energía"Trans. IEEE. Datapath RSFQ Processors: Design Study,Trans. IEEE. aplicación supercond.,
aplicación supercond.,vol. 23 de junio de 2013, art. no. 1701610. vol. 21, número 3, junio de 2011, págs. 787–791, 12022856
[11] S. Nishijima, S. Eckroad, A. Marian, K. Choiet al.,“La superconductividad y el [34] PSCAN2. Disponible enhttp://www.pscan2sim.org/index.html
medio ambiente: una hoja de ruta”,supercond. ciencia Tecnologíavol. 26, [35] SV Polonsky, VK Semenov, AF Kirichenko, "Flujo simple, flip-flop cuántico
2013, art. no. 113001. B y sus posibles aplicaciones",Trans. IEEE. aplicación supercond., vol. 4,
[12] DS Holmes, AM Kadin, MW Johnson, "Computación superconductora en págs. 9-16, marzo de 1994.
sistemas híbridos a gran escala"Computadora, vol. 48, págs. 34-42, [36] K. Fujiwara, H. Hoshina, J. Koshiyama y N. Yoshikawa, "Diseño y prueba de
diciembre de 2015. componentes de decodificadores de paquetes RSFQ para memorias de registro de
[13] R. McDermott, MG Vavilov, BLT Plourde, FK Wilhelm, desplazamiento"Física C, vol. 378–371, págs. 1475–1480, 2002.
PJ Liebermann, OA Mukhanov, TA Ohki, "Interfaz clásica cuántica [37] ZJ Deng, N. Yoshikawa, SR Whiteley y T. Van Duzer, "Sistema de prueba de alta
basada en lógica digital cuántica de flujo único"Ciencia Cuántica. velocidad RSFQ autocronometrado basado en datos"Trans. IEEE. aplicación
Tecnología, vol.3, núm. 2, ene. 2018, art. no. 024004. supercond., vol. 7, págs. 3830–3833, diciembre de 1997.
[14] AF Kirichenko, IV Vernik, JA Vivalda, RT Hunt y [38] AF Kirichenko, OA Mukhanov y AI Ryzhikh, "Tecnología avanzada de
DT Yohannes,“Sumadores paralelos ERSFQ de 8 bits como punto de referencia del prueba en chip para circuitos RSFQ",Trans. IEEE. en Supercond
proceso”, Trans. IEEE. aplicación supercond., vol. 25 de junio de 2015, art. no. 1300505. aplicado., vol. 7, No. 2, págs. 3438-3441, junio de 1997.
[15] AF Kirichenko, IV Vernik, OA Mukhanov y TA Ohki, “Descodificador ERSFQ [39] DY Zinoviev y YA Polyakov, "Octopux: una configuración automatizada avanzada para
4 a 16 para RAM energéticamente eficiente”Trans. IEEE. aplicación probar circuitos superconductores",Trans. IEEE. aplicación supercond., vol. 7, núm.
supercond., vol. 25 de junio de 2015, art. no. 1301304. 2, págs. 3240-3243, junio de 1997.
[16] MA Manheimer, “Programa de complejidad de computación criogénica: Introducción [40] C. Shawawreh, D. Amparo, J. Ren, M. Miller, MY Kamkar, A. Sahu,
a la fase 1”,Trans. IEEE. aplicación supercond., vol.25, jun. 2015, art. no. 1301704. A. Inamdar, AF Kirichenko, OA Mukhanov y IV Vernik, "Efectos de la polarización de
CC adaptativa en los márgenes operativos en los circuitos ERSFQ". Trans. IEEE.
[17] K. Takahashi, S. Nagasawa, H. Hasegawa, K. Miyahara, H. Takai y aplicación supercond.,vol. 27 de junio de 2017, art. no. 1301606.
Y. Enomoto, “Diseño de una ALU superconductora con una puerta XOR de 3 [41] A. Kirichenko et al., “ERSFQ 8-bit CPU design”, conferencia ASC 2016, Denver, CO, EE.
entradas,”Trans. IEEE. aplicación supercond., vol. 13, núm. 2, págs. 551–554, junio UU., 4 al 9 de septiembre de 2016, informe 4EOr2B-02.
de 2003

También podría gustarte