Está en la página 1de 13

El fin de la ley de Moore:

Un nuevo comienzo para la tecnología de la información


Lejos de señalar un fin al progreso, el fin gradual de la ley de Moore abrirá una nueva era en
tecnología de la información a medida que el foco de la investigación y el desarrollo pase de la
miniaturización de tecnologías establecidas hace tiempo a la introducción coordinada de nuevos
dispositivos, nuevas tecnologías de integración y Nuevas arquitecturas para la informática.

Los artículos de Gordon Moore de 1965 y 1975 todavía brillan brillantemente. Si bien el valor de la
miniaturización continua de los componentes electrónicos ya se entendía bien en la década de 1950,
el documento de Moore de 1965 defendía la importancia de los circuitos integrados en un momento
en que muchos todavía sentían que el trabajo de los fabricantes de semiconductores era entregar
diodos y transistores discretos para que los diseñadores pudieran construir sus propios circuitos. El
documento de 1965 también describió cómo la complejidad de la integración se puede intercambiar
por el rendimiento de fabricación para minimizar el costo por componente y, sobre esa base, predijo
mejoras exponenciales continuas en costo y complejidad con mejoras previsibles en los procesos de
fabricación. El documento de Moore de 1975 presentó otra visión importante: los avances en la
complejidad de la integración provienen de tres factores distintos: el aumento en el tamaño de la
matriz de silicio, la reducción en el tamaño de la característica y la "inteligencia de dispositivos y
circuitos". Estas perspectivas de 1965 y 1975 han guiado ampliamente la inversión en desarrollo de
tecnología de semiconductores desde entonces. Además de eso, la famosa predicción de Moore de
1975 de que la complejidad del circuito se duplicaría cada dos años demostró ser notablemente alta
y sorprendentemente duradera. Pero todas las tendencias exponenciales deben llegar a su fin.

Figura 1. Disipación de energía de


conmutación mínima en dispositivos lógicos utilizados en sistemas informáticos en función del
tiempo. Los diamantes negros replican los datos de Rolf Landauer, y la línea discontinua es la
extrapolación de Landauer en 1988 de la tendencia histórica hacia kT (evaluada a T = 300 K), indicada
por la línea de puntos. Triángulos y X son valores publicados de IBM e Intel, respectivamente,
compilados por Chi-Shuen Lee y Jieying Luo en la Universidad de Stanford durante su investigación
de tesis doctoral con uno de los autores (Wong). Los cuadrados abiertos son valores de la Hoja de
ruta de tecnología internacional para semiconductores (ITRS) de 2013. Los datos están disponibles
en https://purl.stanford.edu/gc095kp2609. Se puede acceder a los datos actuales y actualizados en
https: // nano.stanford.edu/cmos-technology-scaling-trend.

La Figura 1 muestra una tendencia exponencial muy importante en la tecnología de la información


que ya muestra una marcada desaceleración del progreso. En 1988, Rolf Landauer publicó algunos
datos notables sobre la disipación de energía en la informática que se habían recopilado durante
muchos años por su colega de IBM, Robert Keyes. Desde la década de 1940 hasta la década de 1980,
un lapso que incluye la sustitución de los tubos de vacío por transistores bipolares, la invención del
circuito integrado y las primeras etapas de la sustitución de transistores bipolares por transistores
de efecto de campo (FET), la energía típica disipada. en un evento de conmutación digital cayó
exponencialmente en más de 10 órdenes de magnitud. Reiteramos los datos en la Figura 1 junto
con la extrapolación de Landauer de la tendencia hacia energías de conmutación en el orden de la
energía de fluctuación térmica, kT, evaluada a T = 300 K. Landauer era muy consciente de que la
energía de conmutación no se acercaría a kT alrededor de 2015, no con la tecnología de circuitos y
dispositivos de semiconductores complementarios de óxido de metal (CMOS) establecidos. Su
extrapolación fue una forma de resaltar la posibilidad de, y tal vez la necesidad de, una nueva forma
de computar. Algunos han confundido el kT por evento de conmutación como un límite inferior
fundamental en el consumo de energía de la computación digital. Landauer sabía que no es así. Su
publicación de 1988 revisó una investigación fundamental que demuestra la posibilidad de una
forma de cálculo que conserve la energía. Al igual que en los circuitos de hoy, los dispositivos en los
circuitos de ahorro de energía almacenarían suficiente energía, muchas veces kT, para distinguir de
manera confiable el estado digital del inevitable ruido térmico. Por buenas razones de ingeniería,
los circuitos de hoy disipan esa energía almacenada cada vez que se cambia un dispositivo. En
contraste, los circuitos de conservación de energía disiparían solo una pequeña fracción de la
energía almacenada en cada evento de conmutación. En tales circuitos, no hay un límite inferior
fundamental en la eficiencia energética de la computación digital. Aunque no surgieron sistemas de
computación de conservación de energía comercialmente viables en los años 90 o posteriores, la
computación cuántica digital, aún en su infancia, ejemplifica el enfoque de conservación de energía.
Para mostrar lo que sucedió en el sector comercial después de 1988, agregamos datos a la Figura 1
que muestra las energías de conmutación para tecnologías CMET FET de ancho de canal mínimo
basadas en publicaciones técnicas de IBM e Intel. Durante un tiempo, la energía de conmutación
continuó disminuyendo rápidamente, ya que IBM lideró la industria para reducir rápidamente el
voltaje operativo. Aproximadamente siguiendo las elegantes reglas de escalamiento establecidas
por Robert Dennard y sus colegas, 6 cada generación sucesiva de dispositivos más pequeños, de
menor voltaje y menor potencia también fue más rápida. La tecnología CMOS, cada vez más
potente, extendió el largo recorrido de los aumentos exponenciales en la frecuencia del reloj del
microprocesador7, una medida clave del rendimiento informático, que comenzó con el Intel 4004
en 1972. Y los transistores cada vez más pequeños y más baratos permitieron una rápida
elaboración de la arquitectura de la computadora. Por ejemplo, la introducción en la década de
1990 de enfoques sofisticados para el paralelismo a nivel de instrucción (arquitecturas superscalar)
multiplicó aún más el rendimiento a nivel del sistema al aumentar la velocidad del reloj. A fines de
la década de 1990, CMOS había desplazado al transistor bipolar que más consume energía de sus
últimas aplicaciones restantes en computación de alto rendimiento. A pesar de estos triunfos, la
tasa histórica de reducción de la energía de conmutación no se pudo mantener durante la década
de 1990, ya que el FET se acercó a algunas limitaciones fundamentales para su desarrollo posterior.

Restricciones físicas en la miniaturización continua

Tenga en cuenta que esta desaceleración de una tendencia exponencial altamente deseable en la
tecnología de la información (la ruptura en la pendiente tan evidente en la Figura 1) no tiene nada
que ver con el enfoque de cambiar la energía hacia la energía de fluctuación térmica. Incluso en
estos dispositivos de ancho de canal mínimo de IBM e Intel, la energía almacenada que distingue el
estado digital es órdenes de magnitud mayores que kT. En los circuitos lógicos prácticos, con
dispositivos de canal más ancho y cableado asociado, la energía almacenada es aproximadamente
100 veces mayor que las energías de conmutación mínimas que se muestran en la Figura 1. Por lo
tanto, en los dispositivos comerciales más pequeños de la actualidad, las alteraciones térmicas del
estado digital son extremadamente improbables y, por lo tanto, irrelevantes. a dispositivo y diseño
de circuitos. Entonces, ¿qué cambió en la década de 1990? La miniaturización de los dispositivos
continuó al ritmo pero en líneas que se desviaron cada vez más de las reglas de escalamiento de
Dennard. En particular, el grosor del aislador de la compuerta y el voltaje de operación ya no podrían
reducirse simplemente junto con otras dimensiones del dispositivo. Una reducción adicional en el
grosor del aislador habría resultado en incrementos inaceptables (y exponenciales) en la corriente
de fuga de la compuerta a través de un túnel cuántico directo. Una reducción adicional en la
oscilación de la tensión de funcionamiento habría resultado en una corriente de canal
inaceptablemente baja en el estado "encendido" (disminuciones inaceptables en la velocidad de
conmutación) o en un aumento de la corriente de fuga en el estado "apagado" (aumentos
inaceptables en la potencia pasiva). La física que limita una mayor reducción de voltaje es bien
conocida y relativamente sencilla.8 Basta con decir que con voltajes de operación ahora del orden
de 1 V, el FET está cerca de su límite de escala de voltaje para la operación a temperatura ambiente
y superior. Las futuras reducciones de voltaje serán limitadas. Los análisis detallados y extensos de
estos y otros problemas de escalamiento se pueden encontrar en la literatura, pero un modelo de
escala simple proporciona información sobre su impacto en la industria. El modelo asume que la
innovación rápida y continua en materiales y estructuras de dispositivos mantendrá las tendencias
de la ley de Moore en cuanto a densidad de integración y velocidad de conmutación de dispositivos.
Además, asume que el voltaje de operación es fijo desde la generación de tecnología hasta la
generación de tecnología. Bajo estas suposiciones simplificadoras, la densidad de potencia del área
crece exponencialmente de generación en generación, a menos que la frecuencia del reloj sea fija y
los núcleos del procesador se introduzcan en el troquel a una velocidad significativamente menor a
la que sería posible según las reglas básicas litográficas. Este modelo simple da así una explicación
sorprendentemente buena de algunos desarrollos amplios en microelectrónica en la última década.
Las frecuencias de reloj se estabilizaron entre 2003 y 2005 y han estado estancadas desde entonces.
El rendimiento de los sistemas actuales se ve cada vez más limitado por el poder. Los dispositivos y
circuitos podrían cronometrarse a frecuencias más altas, pero solo a niveles inaceptables de
generación de energía y calor que comprometerían atributos críticos como la duración de la batería
en productos de consumo y el costo de enfriar y alimentar servidores en grandes centros de datos.
Y la introducción de múltiples núcleos ha sido más lenta que la velocidad que podría soportar los
avances en litografía y densidad de integración. Quizás esto refleja el fracaso de los desarrolladores
de software para encontrar formas de explotar completamente el paralelismo a nivel de núcleo para
muchas aplicaciones importantes de la computación, pero el modelo sugiere que la física de la
conmutación de transistores CMOS y la generación de calor resultante ha sido adicional, si no
dominante factor limitante. Las perspectivas para el futuro son más de lo mismo, como lo sugieren
los datos prospectivos en la Figura 1 de la Hoja de ruta de tecnología internacional para
semiconductores de 2013. Las reducciones modestas en la energía de conmutación son el resultado
proyectado de una reducción agresiva continua del tamaño del dispositivo y reducciones muy
modestas en el voltaje de operación. Estos avances respaldarían un crecimiento anual glacialmente
lento del 4 por ciento en la frecuencia de reloj hasta 2028. La ruptura en la pendiente en la Figura 1
marca el comienzo de una transición aún en curso hacia una era de escalado de transistores de
voltaje constante. Esta transición está teniendo un gran efecto en la industria de la microelectrónica,
ya que cada vez menos fabricantes se esfuerzan por mantener la cadencia de desarrollo de la ley de
Moore. Muchos observadores, incluido el propio Gordon Moore, han señalado los costos de capital
asociados con la fabricación, que están aumentando mucho más rápido que los ingresos de la
industria, como el factor limitante final. A este factor, debemos agregar el impacto de una
disminución en el retorno de la inversión para desarrollar cada nueva generación de dispositivos
más pequeños y circuitos más densos. Durante las tres décadas anteriores a 2005, la frecuencia de
reloj, la densidad de integración y el costo por dispositivo mejoraron de manera exponencial con
cada generación de tecnología, mientras que la potencia activa y pasiva estuvieron dentro de límites
económicamente aceptables. Desde 2005, la densidad de integración y el costo por dispositivo han
seguido mejorando, y los fabricantes han enfatizado el número creciente de procesadores (núcleos)
y la cantidad de memoria que pueden colocar en un solo dado. Sin embargo, con las frecuencias de
reloj estancadas, las ganancias de rendimiento resultantes se han silenciado. Además, ya se han
implementado las elaboraciones más sencillas de la arquitectura de computadora estándar de von
Neumann, y las perspectivas de un rendimiento significativo frente a nuevos aumentos en el
paralelismo parecen limitadas incluso a nivel multinúcleo. No es de extrañar entonces que el ciclo
de reemplazo para equipos de computación de todo tipo se haya alargado. Un número cada vez
mayor de fabricantes de semiconductores está obteniendo beneficios al invertir en el desarrollo de
atributos de productos, como arquitecturas para mejorar el acceso a la memoria, que tienen poco
que ver con un tamaño de característica más pequeño.
Figura 2. Tres medidas clave de la densidad de integración en función del tiempo. Los puntos azules
muestran la densidad de la memoria de acceso aleatorio estático (SRAM). Los triángulos verdes
muestran el paso M1, el espacio mínimo entre cables en la primera capa de cableado. Los cuadrados
rojos muestran CGP o el paso de la puerta contactada, el espacio mínimo entre los transistores. El
progreso sigue siendo rápido, pero hay evidencia de desaceleración en los últimos años. Datos
compilados de la literatura publicada por Chi- Shuen Lee en la Universidad de Stanford durante su
investigación de tesis doctoral con uno de los autores (Wong). Los datos están disponibles en
https://purl.stanford.edu/gc095kp2609. Se puede acceder a los datos actuales y actualizados en
https: // nano.stanford.edu/cmos-technology-scaling-trend.

La Figura 2 muestra el progreso en tres indicadores clave de la densidad de integración alcanzable


para circuitos lógicos digitales complejos desde 1994. El progreso aún es rápido, pero en conjunto,
estos indicadores muestran una desaceleración significativa en la última década. La cadencia de
desarrollo de la ley de Moore, la duplicación regular de la densidad de integración, parece estar
desacelerándose. Si bien los usuarios finales siguen viendo mejoras en el rendimiento y la eficiencia
energética a medida que un mayor número de dispositivos de memoria se acercan más a los núcleos
del procesador, estas ganancias no pueden mantenerse durante mucho tiempo con los dispositivos
de memoria y las arquitecturas actuales. La memoria de acceso aleatorio estático (SRAM), la
memoria rápida que ahora ocupa más de la mitad del área de superficie de un chip microprocesador,
utiliza seis FET para almacenar un bit de información. La memoria de acceso aleatorio dinámico
(DRAM), la memoria más lenta pero más densa y, por lo tanto, menos costosa que generalmente
reside en los chips de memoria periféricos al procesador, utiliza un FET y un condensador para
almacenar un bit. La memoria flash, la memoria muy densa pero bastante lenta que almacena datos
cuando la alimentación está apagada, utiliza un FET con una estructura de compuerta especialmente
diseñada para almacenar un bit (o más recientemente, varios bits). Por lo tanto, cada uno de estos
dispositivos dominantes en la jerarquía de memoria de hoy está sujeto a restricciones de escala
similares a las de los FET utilizados en la lógica, además de restricciones adicionales exclusivas de
cada dispositivo. A pesar de estos enormes problemas, somos muy optimistas sobre las perspectivas
de nuevos avances espectaculares en la tecnología informática. Después de décadas de progreso
centrado en la miniaturización del transistor CMOS, vemos un potencial creciente para los avances
basados en el descubrimiento e implementación de dispositivos verdaderamente nuevos, procesos
de integración y arquitecturas para la informática. Por dispositivos verdaderamente nuevos, nos
referimos a los dispositivos que operan según principios físicos que son fundamentalmente
diferentes del principio operativo del FET y, por lo tanto, no están sujetos a sus límites
fundamentales, en particular al límite de escala de voltaje. Por tecnologías de integración
verdaderamente nuevas, nos referimos a la integración monolítica en tres dimensiones de manera
detallada que sumerge la memoria dentro de unidades computacionales. Y con arquitecturas
verdaderamente nuevas, nos referimos a arquitecturas de circuitos y de nivel superior que son
mucho más eficientes energéticamente que la arquitectura de von Neumann, en particular para los
algoritmos y aplicaciones importantes de las próximas décadas. Ahora abordamos brevemente
algunos de los conceptos de investigación emergentes que alimentan nuestro optimismo.

Nuevos dispositivos para la lógica

Mientras escribimos, se conocen varios principios físicos distintos mediante los cuales un
interruptor controlado por voltaje (es decir, un dispositivo similar a un transistor) podría evitar el
límite de escala de voltaje del FET. convencional. Por ejemplo, algunos de estos principios operativos
invocan un mecanismo físico que rompe el enlace directo entre la tensión operativa aplicada
externamente y el potencial interno que bloquea el flujo de corriente. Por supuesto, el simple hecho
de cambiar la física del dispositivo para incorporar uno de estos principios operativos no garantiza
un interruptor digital de bajo voltaje que ahorre más energía. Para cada concepto de dispositivo
propuesto, las características de conmutación y otros atributos importantes del dispositivo
dependerán críticamente de las propiedades alcanzables de los materiales y los detalles de la
estructura del dispositivo. Todos los conceptos de dispositivos de bajo voltaje propuestos
actualmente se encuentran todavía en la etapa inicial de investigación. Los prototipos de laboratorio
aún no presentan características que justificarían el desarrollo de productos comerciales enfocados.
Sin embargo, muchos de estos conceptos de dispositivos están evolucionando rápidamente a
medida que los investigadores descubren y entienden los problemas e inventan soluciones. Por lo
tanto, parece probable que se inventen dispositivos adicionales de bajo voltaje. Si surge un
dispositivo de alto voltaje y alto rendimiento en los próximos años, podría aflojar en gran medida
las restricciones de generación de energía y calor que actualmente limitan la computación.

Nuevos dispositivos para la memoria

Varias fuerzas impulsan la exploración de nuevos dispositivos para la memoria. Ya hemos


mencionado la dificultad cada vez mayor en la miniaturización adicional de los dispositivos de
memoria establecidos, es decir, SRAM, DRAM y flash. Los nuevos dispositivos de memoria podrían
escalarse más fácilmente a tamaños más pequeños. Una segunda fuerza impulsora es la carga de
trabajo computacional cambiante. La jerarquía de memoria empleada en la actualidad se ha
optimizado para aplicaciones con localidad de datos, pero una fracción creciente de las cargas de
trabajo comunes involucra datos poco estructurados y requiere un acceso frecuente a la memoria
a través de un gran espacio de direcciones. Este movimiento de datos es costoso tanto en latencia
como en consumo de energía, especialmente cuando los datos deben provenir de una memoria
fuera del chip a través de un bus de datos con un ancho de banda limitado. El acceso a la memoria
fuera del chip puede representar hasta el 90 por ciento de la energía y el tiempo de ejecución
proporcional en los sistemas informáticos actuales que ejecutan algoritmos de uso intensivo de
datos. Finalmente, y quizás lo más importante, algunos dispositivos de memoria emergentes
pueden permitir una integración más rentable de grandes cantidades de memoria con la lógica. De
las tecnologías de memoria dominantes de hoy, solo SRAM se puede integrar fácilmente con la
lógica CMOS de alto rendimiento. Integrar DRAM y flash en el mismo chip con núcleos de procesador
es difícil y, a menudo, no es rentable. Por lo tanto, se están explorando muchas nuevas opciones de
dispositivos de memoria, incluyendo RAM de par de transferencia de giro (STT-MRAM), RAM
ferroeléctrica (FERAM), RAM de puente conductor (CBRAM), RAM resistiva (RRAM) y memoria de
cambio de fase (PCM). Todas estas memorias comparten algunos atributos altamente deseables:
son no volátiles, cada celda de la matriz de memoria puede leerse aleatoriamente sin destruir la
información almacenada y escrita sin borrar primero el bit almacenado, cubren una amplia gama de
características de lectura / escritura que Abarcan toda la jerarquía de la memoria y se fabrican
utilizando temperaturas inferiores a las utilizadas para fabricar las interconexiones (los cables que
conectan los transistores).
Figura 3. Programación del área de celda de energía versus memoria a partir de los datos publicados
para las principales tecnologías de memoria no volátil emergentes: memoria de acceso aleatorio
magnético de torque de transferencia de espín (STT-MRAM), memoria de cambio de fase (PCM),
memoria de acceso aleatorio de puente conductor (CBRAM) y resistiva Memoria de acceso aleatorio
(RRAM). Tanto STT-MRAM como PCM requieren una densidad de corriente crítica para cambiar el
estado de la memoria, por lo que la energía de programación es proporcional (líneas discontinuas
de color púrpura y verde) al área de la celda de memoria. La conducción en CBRAM y RRAM es
filamentosa, por lo que la energía de programación es independiente del área de la celda de
memoria. Datos de https://nano.stanford.edu/stanford-memory-trends.

Gran parte del interés en la lógica nanomagnética reside en la promesa de


combinar las funciones de la lógica y la memoria en un solo dispositivo.
Los tres primeros atributos abren vastas oportunidades para repensar el diseño de la jerarquía de
memoria para optimizar la disipación de energía y el rendimiento para varias cargas de trabajo de
aplicaciones. El último atributo permite la incorporación de dispositivos de memoria por encima de
los bloques de la lógica CMOS y, por lo tanto, permite una integración perfecta de la memoria y la
lógica. Al compartir atributos comunes deseables, cada una de estas tecnologías emergentes difiere
y complementa a las demás en función de atributos clave: velocidad de lectura / escritura, potencia
de lectura / escritura y consumo de energía, propiedades de retención y resistencia, y densidad del
dispositivo (área de la memoria célula). Por ejemplo, la Figura 3 muestra datos publicados para la
energía de escritura representada en el área de la celda de memoria. Las compensaciones varían
mucho entre los distintos tipos de memoria. La física de la conmutación magnética hace que la STT-
MRAM sea singularmente rápida y, por lo tanto, adecuada para colocarse cerca de los núcleos del
procesador. Sin embargo, una de sus limitaciones actuales es la alta energía de escritura y el
consumo de energía resultante. La energía de escritura para STT-MRAM (y también para PCM) es
proporcional al área de la celda de memoria porque se requiere una cierta densidad de corriente
para cambiar la resistencia de la celda. Por el contrario, la energía de escritura de RRAM y CBRAM
no muestra dependencia en el área de la celda de memoria debido a la naturaleza filamentosa y al
área de sección transversal muy pequeña de la trayectoria de conducción. La miniaturización
continuada debería reducir el consumo de energía de STTMRAM y PCM a niveles aceptables. Los
continuos avances en materiales y en la física de dispositivos podrían reducir aún más el consumo
de energía de estas memorias.

Nuevos dispositivos que combinan las funciones de memoria y lógica.

El magnetismo ha sido durante mucho tiempo la base para dispositivos de almacenamiento de


información como la unidad de disco duro y STT-MRAM. A medida que un imán se hace más
pequeño, se requiere menos energía para cambiar su polarización. Además, los físicos y científicos
de materiales han descubierto en los últimos años nuevos mecanismos de conmutación que ahorran
energía. Por lo tanto, los investigadores están comenzando a explorar y explotar la nueva física del
nanomagnetismo en dispositivos para lógica digital. Los conceptos iniciales de los dispositivos para
la lógica magnética sufrieron el inconveniente de que no había una forma simple y directa para que
el estado magnético de un dispositivo cambiara el estado magnético de otro dispositivo. (Un
diseñador de circuitos señalaría que los dispositivos no concatenan). Por lo tanto, All-Spin Logic, un
dispositivo nanomagnético y una familia de circuitos que resuelve este problema, generó un gran
interés cuando se propuso. Otra dirección de investigación emocionante es el magnetismo
controlado por voltaje. En comparación con un mecanismo de conmutación controlado por
corriente, como el empleado en STTMRAM, los dispositivos magnéticos de conmutación de voltaje
deberían ser más rápidos y más eficientes energéticamente. Gran parte del interés en la lógica
nanomagnética reside en la promesa de combinar las funciones de la lógica y la memoria en un solo
dispositivo. Dichos dispositivos podrían eliminar la necesidad de guardar el estado de un cálculo en
la memoria antes de apagar la alimentación. Esta capacidad sería de valor inmediato en los sistemas
de potencia dependientes de fuentes de energía intermitentes y, a largo plazo, podría cambiar
profundamente la arquitectura de la computadora.

Nuevos procesos de integración

La realización de la lógica y la memoria de múltiples capas monolíticamente integradas sería una


revolución, y esa revolución ya podría estar gestándose. La memoria flash de múltiples capas con
48 capas ya está en producción y representa una de las tecnologías de dispositivos más tempranas
para abrazar verdaderamente la integración monolítica 3D como una ruta para el avance de la
tecnología. La mezcla de lógica y memoria en pilas monolíticas 3D es mucho más fácil si las altas
temperaturas a menudo requeridas para la síntesis de capas sucesivas de materiales electrónicos se
pueden evitar en el proceso de integración de dispositivos a baja temperatura. Además, las capas
del dispositivo deben ser muy finas para que los orificios para las conexiones eléctricas entre capas
puedan tener una relación de aspecto baja. Por lo tanto, es deseable sintetizar material de alta
calidad para una capa de dispositivo a alta temperatura, diluir la capa y luego transferirla a la pila.
Para el silicio, este concepto de transferencia de capa tiene una larga historia con un historial
probado como proceso de fabricación. Los materiales electrónicos emergentes, como los nanotubos
de carbono y los cristales atómicos 2D, son prometedores como futuros materiales de canal FET
porque sus estructuras de cristal natural son atómicamente delgadas debido a la configuración
especial de enlace de los átomos constituyentes, y su transporte portador no se ve afectado por las
imperfecciones del Superficies. Estos materiales, que se sintetizan y luego se transfieren a un
sustrato objetivo para la integración 3D, están avanzando rápidamente hacia el cumplimiento de
futuros objetivos de rendimiento. Muchas de las nuevas memorias descritas anteriormente ya
utilizan materiales depositados a baja temperatura y, por lo tanto, son compatibles con las
tecnologías de integración 3D monolíticas. Mientras que cada capa adicional incurre en alguna
pérdida de rendimiento, un chip 2D convencional con un área equivalente incurriría en una pérdida
de rendimiento similar sin el beneficio de interconexiones 3D mucho más cortas y sin la capacidad
de optimizar los procesos de fabricación para cada capa de dispositivo. Por lo tanto, dentro de pocos
años, un sistema informático podría tener archivos de registro y SRAM como caché rápido de primer
nivel. La memoria caché de segundo nivel podría utilizar STT-MRAM de alta resistencia y acceso
rápido o una variante. Una memoria más lenta, no volátil y de muy alta densidad más alejada en la
jerarquía de la memoria podría utilizar PCM, RRAM o CBRAM, integrados monolíticamente con los
núcleos del procesador. RRAM y CBRAM ya han demostrado la capacidad de leer / escribir a
aproximadamente 1 V a una velocidad de 10 ns, con más de mil millones de ciclos de resistencia y
buena eficiencia energética.

Podemos visualizar fácilmente los futuros sistemas de eficiencia energética


que constan de una gran cantidad de aceleradores que ejecutan operaciones
o algoritmos específicos, sus interacciones orquestadas para realizar tareas
más grandes y que se activan y desactivan según sea necesario.
Las arquitecturas de dispositivos ya se han demostrado para una RRAM 3D que utiliza un
enfoque rentable que no requiere un paso de litografía para cada capa adicional. Con un
tamaño de característica de patrón futuro de 5 nm de medio tono y 128 capas de estructura
3D, 64 Tbits de memoria no volátil relativamente rápida podrían residir en un solo chip
microprocesador.

Nuevas arquitecturas para la computación


La arquitectura de computadora estándar "von Neumann" de hoy se desarrolló
originalmente para permitir un modelo de programación secuencial simple. (El lenguaje, y
por lo tanto el pensamiento lógico consciente, es inherentemente lineal y secuencial. Los
seres humanos no son buenos para realizar tareas múltiples). Centrarse en el conjunto de
instrucciones como una abstracción independiente del hardware ha permitido a los
diseñadores de hardware y software trabajar independientemente, promoviendo la
compatibilidad con versiones anteriores de Código, y entregó muchos otros beneficios. Sin
embargo, estos beneficios tuvieron un costo en la eficiencia computacional. Esto es
evidente por las mejoras de uno a tres órdenes de magnitud en el rendimiento
computacional y la eficiencia energética que se obtienen de forma rutinaria en algoritmos
específicos implementados en circuitos integrados específicos de aplicaciones (ASIC),
procesadores de señales digitales y arreglos de puertas programables en campo (FPGA). A
un nivel fundamental, esto se debe a que los modelos de diseño y programación asociados
para ASIC y FPGA dan como resultado un mejor mapeo de las operaciones de algoritmos a
un conjunto de recursos físicos utilizados para realizar esas operaciones. Un teléfono
inteligente típico ahora contiene una docena o más de circuitos especializados o
"aceleradores" para liberar a las unidades centrales de procesamiento de tareas repetitivas
que consumen tiempo y energía, como el procesamiento de video. Los diseñadores de
sistemas más grandes, como los servidores de datos, también están incorporando tales
“aceleradores” especializados. La amplia adopción de GPU y su generalización como GPU
de propósito general (GPGPU) también ha señalado los méritos de adaptar la arquitectura
informática para aplicaciones específicas, algoritmos y flujo de datos. En sistemas cada vez
más limitados por el poder, el suyo es un buen uso de los transistores cada vez más baratos
entregados por el paradigma de desarrollo de la ley de Moore. Podemos visualizar
fácilmente los futuros sistemas de eficiencia energética que constan de una gran cantidad
de aceleradores que ejecutan operaciones o algoritmos específicos, sus interacciones
orquestadas para realizar tareas más grandes y que se activan y desactivan según sea
necesario. La arquitectura del sistema podría moverse en esta dirección, pero existe el
riesgo de complicar y estorbar el modelo de programación. Quizás más importante, la
cantidad de diferentes algoritmos útiles es grande, y parece que hay pocas características
comunes de recursos de hardware óptimos, incluso entre los algoritmos vistos desde una
perspectiva de software que están estrechamente relacionados. Debido a que los
transistores nunca serán completamente libres (¡una predicción audaz!), Los arquitectos de
sistemas deben esforzarse por identificar las operaciones y los algoritmos más importantes
y ampliamente aplicables para la aceleración. Un área madura para la innovación es la
arquitectura de acceso a la memoria. Las cargas de trabajo de computación están
cambiando. Aunque el rendimiento de un solo hilo sigue siendo importante, muchas
aplicaciones están cada vez más vinculadas a la memoria. La jerarquía de memoria se ha
optimizado para aplicaciones con localidad de datos, sin embargo, muchas de las
aplicaciones de hoy en día incluyen conjuntos de datos grandes y poco estructurados, que
requieren un acceso frecuente a la memoria a través de un gran espacio de direcciones. El
movimiento de datos aumenta la latencia y el consumo de energía, especialmente cuando
los datos se deben llevar al procesador a través de un bus con ancho de banda limitado. Por
lo tanto, la integración de cantidades cada vez mayores de memoria en el chip con los
núcleos del procesador seguirá siendo una prioridad, y es probable que el progreso se
sostenga y se acelere con la aparición de dispositivos de memoria como STT-MRAM, PCM y
RRAM. A costa de un cierto aumento de la complejidad arquitectónica, conceptos como la
lógica en la memoria (mover algunos cálculos a la memoria caché) y la memoria en la lógica
(mover algo de la memoria caché dentro de la CPU) reducen aún más la latencia y la
disipación de energía al reducir el movimiento de datos. En la literatura por muchos años,
estos conceptos son ahora el foco de serios esfuerzos de desarrollo. El progreso será
sostenido y acelerado por el desarrollo de tecnologías de dispositivos que permitan la
integración monolítica de múltiples capas de lógica y memoria conectadas por escala
nanométrica, conexiones de capa ultra-densa, o incluso poniendo lógica y memoria en la
misma capa. Estos desarrollos en el acceso a la memoria pueden considerarse como
elaboraciones relativamente sencillas de la arquitectura convencional de von Neumann. La
reciente aparición de algoritmos de aprendizaje profundo para aplicaciones comerciales
importantes podría anunciar cambios más radicales en la arquitectura de la computadora.
En los últimos años, un tipo de algoritmo de red neuronal, inspirado en ideas sobre la
arquitectura y la función del cerebro, los algoritmos de aprendizaje profundo han superado
el rendimiento de todos los demás algoritmos conocidos para la clasificación de imágenes,
el reconocimiento de voz y otras tareas importantes de reconocimiento de patrones. Sin
embargo, entrenar estos algoritmos en computadoras convencionales requiere mucha
energía y tiempo. Por lo tanto, los investigadores están explorando el potencial de GPGPUs
y FPGAs para acelerar estas tareas y mejorar la eficiencia energética. El éxito comercial de
los algoritmos de aprendizaje profundo también está motivando la exploración más amplia
de las arquitecturas neuromórficas u otras arquitecturas de inspiración biológica para la
computación. Para mejorar el rendimiento y la eficiencia energética, algunos grupos de
investigación están diseñando y probando hardware dedicado para realizar varios modelos
de redes neuronales. El chip True-North de IBM ilustra algunas de las ventajas y desventajas
del diseño. TrueNorth utiliza la tecnología digital CMOS para implementar un modelo
particular conocido como una red neuronal de punta. La elección de una implementación
totalmente digital les da a los diseñadores una libertad considerable para equilibrar los
objetivos de rendimiento mejorado y eficiencia energética frente a la necesidad de
programación en la configuración del hardware para las variantes de los algoritmos en
constante evolución. Sin embargo, gran parte del área del circuito en el chip resultante está
dedicada a la memoria SRAM, que almacena los pesos sinápticos (la fuerza de las
conexiones entre los nodos computacionales), y gran parte de la energía se destina al
acceso a esta memoria. En general, el número de ponderaciones sinápticas que
normalmente deben almacenarse en las redes neuronales de hoy en día oscila entre
decenas de millones y un billón. La capacidad de implementar redes más grandes se
traduciría en un mejor rendimiento algorítmico en problemas más grandes, pero empujaría
los límites de hardware de uso general o dedicado disponible. La tendencia continua de la
ley de Moore en la densidad de integración aliviará gradualmente esta restricción, pero la
comunidad de investigación está explorando enfoques más audaces. Una simple memoria
analógica no volátil de dos terminales integrada en el chip con los nodos de la red neuronal
aumentaría la densidad de integración alcanzable en al menos un factor de 20 sobre lo que
es posible con la SRAM. Esto reduciría enormemente el área y la potencia requeridas para
implementar una red de una complejidad dada, o equivalentemente, permitiría un gran
aumento en la complejidad y las capacidades de las redes que pueden implementarse. Por
lo tanto, la comunidad de investigación está explorando el uso de dispositivos y materiales
de memoria emergentes para almacenar la fuerza de conexión como un valor analógico en
un solo dispositivo de memoria ubicado cerca de cada nodo computacional de la red. Las
tecnologías de memoria como PCM, RRAM y CBRAM parecen ser muy adecuadas para esta
estrecha integración de memoria con lógica. Algunos dispositivos nanomagnéticos aún
altamente exploratorios también son prometedores para la implementación eficiente de
las arquitecturas de circuitos de redes neuronales. RRAM también podría facilitar el
desarrollo de sistemas neuromórficos, arquitecturas de redes neuronales que optimizan
continuamente los pesos sinápticos (aprenden) mientras resuelven problemas. (Este
enfoque es distinto del enfoque de "entrenar y luego resolver" de la comunidad enfocada
en la ejecución de algoritmos de aprendizaje profundo). Esta investigación en curso ilustra
las amplias posibilidades y recompensas potenciales para el desarrollo conjunto y la
optimización conjunta de nuevos dispositivos y nuevas arquitecturas para la computación.

Investigación de apoyo en nuevos dispositivos y arquitecturas

La Orden Ejecutiva que establece la Iniciativa de Computación Estratégica Nacional (NSCI)


enumera cinco objetivos estratégicos, el primero es acelerar la entrega de un sistema de
computación a gran escala capaz (https: //www.whitehouse.gov / the-press-office /
2015/07 / 29 / iniciativa ejecutiva-creación-nacional-estratégica-computación-iniciativa).
Este objetivo se puede lograr basándose en la evolución continua de la tecnología de
transistores CMOS y las tecnologías más nuevas y de rápida comercialización, como la
fotónica de silicio y la integración 3D. Sin embargo, otro objetivo estratégico de NSCI es
establecer, durante los próximos 15 años, un camino viable para el futuro de los sistemas
informáticos de alto rendimiento, incluso después de que se alcancen los límites de la
tecnología de semiconductores actual (la "era de la ley posterior a Moore"). En otras
palabras, ahora se necesita una investigación a largo plazo sobre nuevos dispositivos y
arquitecturas si queremos llevar la computación más allá de lo exótico. Así, la National
Science Foundation (NSF), una agencia líder de NSCI, y la Semiconductor Research
Corporation, patrocinada por empresas de la industria de la microelectrónica, anunciaron
recientemente un nuevo programa de investigación, Energy Efficient Computing: desde
Devices to Architectures (E2CDA; https: /
/www.nsf.gov/funding/pgm_summ.jsp?pims_id=505212). La mayoría de los premios de
investigación iniciales fueron para equipos altamente multidisciplinarios, cada uno de los
cuales se enfrenta al exigente trabajo de explorar simultáneamente una nueva arquitectura
para la computación y desarrollar una nueva plataforma de hardware para implementar esa
arquitectura. Por ejemplo, un proyecto explorará redes de osciladores ópticos acoplados
como plataforma de hardware para emular ciertas propiedades dinámicas de redes
neuronales biológicas. Se cree que estas propiedades son relevantes para la capacidad aún
poco conocida del cerebro para aprender continuamente mientras se resuelven problemas.
Las nuevas y emocionantes áreas de aplicación, desde los autos que conducen por sí mismos
hasta la Internet de las cosas y la informática de la salud, exigirán cálculos con una eficiencia
de energía de órdenes de magnitud superior al estado de la técnica. A pesar de que el
avance de la tecnología CMOS, medido por la velocidad del reloj, se ha detenido y el
progreso en la densidad del dispositivo plano parece estar desacelerándose, las nuevas
aplicaciones continuarán impulsando la innovación en la informática
(https://www.src.org/newsroom/rebooting-the- it-revolution.pdf). ¿Qué reemplazará a la
ley de Moore como metrónomo del progreso tecnológico? ¿Dónde deberían colocarse las
nuevas inversiones en tecnología? Sobre la base de las tendencias actuales en investigación
y desarrollo, vemos oportunidades para avances dramáticos basados en el desarrollo
conjunto y la introducción coordinada de nuevos dispositivos, nuevos procesos de
integración 3D y nuevas arquitecturas para la informática. Estas oportunidades son en gran
parte complementarias y algunas son ampliamente multiplicativas. Por ejemplo, si uno o
más dispositivos emergentes de bajo voltaje reducen la potencia total del sistema, incluida
la potencia de acceso a la memoria, en un factor de 20, y las innovaciones arquitectónicas
en el acceso a la memoria reducen la potencia total del sistema en un factor de 5, la
implementación de ambos podría reduzca la potencia activa en un factor de 100. El futuro
previsible será menos sobre la reducción del FET y más sobre la introducción secuencial de
tecnologías de dispositivos cada vez más diversas integradas en arquitecturas de
computadoras cada vez más heterogéneas optimizadas para el rendimiento y la eficiencia
energética. A más largo plazo, queda por explorar un vasto panorama de oportunidades de
investigación, y el futuro de la tecnología de la información aún parece ilimitado. Como solo
un ejemplo, considere nuevamente la línea de puntos horizontal en la Figura 1 que indica
kT a temperatura ambiente, y considere el crecimiento explosivo actual de la investigación
en computación cuántica. La computación cuántica requiere circuitos coherentes cuánticos,
en otras palabras, circuitos que están tan aislados del resto del mundo como sea posible y,
por lo tanto, lo más cerca posible de la conservación de energía. La computación cuántica
está aún lejos de cualquier impacto comercial importante, y los sistemas tempranos
requerirán mucha energía para ejecutar la refrigeración y la infraestructura de corrección
de errores necesaria que protege los estados cuánticos frágiles. Aún así, la investigación
fundamental actual proporciona una visión de las posibilidades más distantes. Estos
incluyen "dispositivos" computacionales a escala atómica dispuestos en circuitos que
pueden mantener una coherencia cuántica que es "suficientemente buena" incluso a
temperatura ambiente y superior. Algún día los ingenieros podrían pensar con diversión los
días en que el cálculo por debajo del "límite kT" era solo una posibilidad teórica. No sabemos
si ese sueño en particular se hará realidad, pero estamos seguros de que el final de la era
de la ley de Moore marcará un nuevo comienzo para la tecnología de la información.

También podría gustarte