Está en la página 1de 6

Machine Translated by Google

Actas

El  zoológico  de  redes  neuronales  †

Stefan  Leijnen  1,2,*  y  Fjodor  van  Veen  1

1  Instituto  Asimov,  3526  KS  Utrecht,  Países  Bajos;  fjodor@asimovinstitute.org  2  Grupo  de  
Investigación  de  Inteligencia  Artificial,  Universidad  de  Ciencias  Aplicadas  de  Utrecht,  
3584  CS  Utrecht,  Países  Bajos  *  
Correspondencia:  stefan@asimovinstitute.org  †  
Conferencia  de  Estudios  de  Información  Teórica  (TIS),  Berkeley,  CA,  EE.  UU.,  2–6  de  junio  2019.

Publicado:  12  mayo  2020

Resumen:  Se  presenta  una  descripción  general  de  las  arquitecturas  de  redes  neuronales.  Algunas  de  estas  
arquitecturas  se  han  creado  en  los  últimos  años,  mientras  que  otras  tienen  su  origen  en  muchas  décadas  atrás.  
Además  de  proporcionar  una  herramienta  práctica  para  comparar  modelos  de  aprendizaje  profundo,  Neural  Network  
Zoo  también  descubre  una  taxonomía  de  arquitecturas  de  red,  su  cronología  y  rastrea  linajes  e  inspiraciones  para  
estos  sistemas  de  procesamiento  de  información  neuronal.

Palabras  clave:  inteligencia  artificial;  conexionismo;  procesamiento  de  información  neuronal;  Redes  neuronales;  
aprendizaje  profundo;  arquitecturas  de  redes  neuronales

1.  Introducción

La  última  década  ha  sido  testigo  de  un  aumento  espectacular  del  interés  en  la  inteligencia  artificial,  impulsado  
por  la  disponibilidad  de  grandes  volúmenes  de  datos  para  el  aprendizaje  automático,  la  disminución  de  los  costos  de  
almacenamiento  de  datos  y  unidades  de  procesamiento  de  gráficos,  y  una  infraestructura  técnica  y  comercial  que  
permite  la  mercantilización  de  aplicaciones  inteligentes. .  El  aprendizaje  profundo,  una  rama  particular  de  la  inteligencia  
artificial  que  involucra  el  aprendizaje  automático  utilizando  modelos  de  redes  neuronales  de  múltiples  capas,  
generalmente  se  considera  una  tecnología  clave  para  el  reciente  éxito  de  la  inteligencia  artificial.  Para  obtener  
información  sobre  las  interdependencias  entre  estos  modelos  de  redes  neuronales  y  para  apoyar  el  descubrimiento  de  
nuevos  tipos,  decidimos  crear  una  taxonomía  de  redes  neuronales,  descubriendo  algunas  de  las  inspiraciones  y  linajes  
subyacentes  de  las  arquitecturas  de  red.  Este  esfuerzo  ha  dado  como  resultado  el  zoológico  de  redes  neuronales,  que  
se  muestra  en  la  Figura  1.  Para  cada  uno  de  los  modelos  representados,  escribimos  una  breve  descripción  que  incluye  
una  referencia  a  la  publicación  original.

2.  Arquitecturas  de  redes  neuronales

2.1.  Redes  neuronales  de  avance

Las  redes  neuronales  feedforward,  incluidos  los  perceptrones  [1]  y  las  redes  de  función  de  base  radial  [2],  
transforman  los  patrones  de  entrada  a  salida.  Son  la  red  neuronal  arquetípica,  que  tiene  capas  que  consisten  en  nodos  
de  entrada,  ocultos  o  de  salida.  Los  nodos  están  conectados  entre  capas  adyacentes,  que  pueden  estar  completamente  
conectadas  (cada  neurona  de  una  capa  a  cada  neurona  en  otra  capa).  La  red  mínima  tiene  dos  celdas  de  entrada  y  
una  celda  de  salida  que  se  pueden  usar  para  modelar  puertas  lógicas,  por  ejemplo.
La  retropropagación  es  un  algoritmo  de  aprendizaje  común  en  el  que  se  muestra  la  entrada  de  pares  de  la  red  y  la  
salida  esperada,  y  la  fuerza  de  las  conexiones  entre  los  nodos  se  actualiza  en  función  del  éxito  del  modelo  en  la  
predicción.  Teóricamente,  dadas  infinitas  neuronas  en  una  sola  capa  oculta  no  lineal,  se  puede  aprender  cualquier  
relación  entre  los  patrones  de  entrada  y  salida.  Sin  embargo,  tener  múltiples  capas  ocultas  (creando  así  una  red  
profunda)  puede,  en  la  práctica,  conducir  a  un  proceso  de  aprendizaje  más  eficiente.

Actas  2020,  47,  9;  doi:10.3390/procedimientos2020047009 www.mdpi.com/journal/proceedings
Machine Translated by Google

Actas  2020,  47,  9 2  de  6

Figura  1.  Una  descripción  general  de  las  arquitecturas  de  redes  neuronales  [3].

2.2.  Redes  neuronales  recurrentes

Las  redes  recurrentes  son  redes  feedforward  con  conexiones  dentro  de  las  capas.  Por  lo  tanto,  no  son  apátridas  y  el  
momento  y  el  orden  en  que  se  estructura  la  entrada  son  importantes.  Esto  permite  que  las  redes  recurrentes  encuentren  
una  estructura  en  el  tiempo  [4].  También  se  pueden  usar  con  modalidades  de  datos  que  son  independientes  del  tiempo,  
como  imágenes,  representándolas  como  una  secuencia  (por  ejemplo,  de  píxeles).  El  entrenamiento  de  estas  redes  puede  
generar  gradientes  que  se  desvanecen  (o  explotan),  donde,  según  las  funciones  de  activación  utilizadas,  la  información  se  
pierde  (o  se  amplifica)  con  el  tiempo,  de  manera  similar  a  cómo  las  redes  feedforward  muy  profundas  pueden  perder  
información  en  profundidad.

2.3.  Memoria  a  corto  plazo  largo

Los  LSTM  [5]  proporcionan  una  resolución  para  los  problemas  de  gradientes  de  explosión  y  desaparición  mediante  la  
introducción  de  puertas  y  celdas  de  memoria  explícitamente  definidas.  Cada  nodo  tiene  una  celda  de  memoria  y  tres  puertas:
Machine Translated by Google

Actas  2020,  47,  9 3  de  6

Entrada,  salida  y  olvido.  La  función  de  estas  puertas  es  proteger  la  pérdida  de  información  deteniendo  o  permitiendo  que  fluya.  
La  puerta  de  entrada  determina  la  cantidad  de  información  de  la  capa  anterior  que  se  almacena  en  la  celda.  La  puerta  de  salida  
determina  lo  que  la  siguiente  capa  llega  a  saber  sobre  el  estado  de  esta  celda.  La  puerta  de  olvido  evita  que  se  ignore  la  nueva  
información.  Las  unidades  recurrentes  cerradas  [6]  son  LSTM  con  un  conjunto  diferente  de  puertas,  lo  que  las  hace  más  
rápidas  pero  menos  expresivas.

2.4.  Codificadores  automáticos

Los  codificadores  automáticos  [7]  comprimen  (codifican)  y  regeneran  (decodifican)  la  información  transformándola  a  
través  de  una  capa  oculta  más  pequeña  con  capas  circundantes  simétricas.  La  similitud  entre  la  entrada  y  la  salida  se  puede  
utilizar  como  medida  del  éxito  de  la  compresión.  Los  codificadores  automáticos  variacionales  [8]  comparten  una  arquitectura  
similar,  pero  en  cambio,  aprenden  una  distribución  de  probabilidad  aproximada  de  los  patrones  de  entrada  basados  en  la  
inferencia  bayesiana  y  el  modelado  de  relaciones  causales.  Los  codificadores  automáticos  de  eliminación  de  ruido  [9]  son  otro  
tipo  más  de  codificador  automático,  donde  los  datos  de  entrada  se  procesan  a  través  de  un  filtro  de  ruido  aleatorio  (por  ejemplo,  
haciendo  que  una  imagen  sea  granulada).  La  salida  todavía  se  compara  con  la  imagen  de  entrada  original,  por  lo  que  la  red  
aprende  a  ignorar  algunas  de  las  características  detalladas  que  no  son  causalmente  relevantes.  Finalmente,  los  codificadores  
automáticos  dispersos  [10]  hacen  mucho  de  lo  contrario,  ya  que  proyectan  información  a  una  capa  oculta  más  grande,  en  lugar  
de  más  pequeña.  Esto  permite  que  la  red  se  centre  en  características  más  pequeñas  al  comprimir  y  reconstruir  los  datos  de  
entrada.  Para  evitar  que  la  información  se  copie  perfectamente  entre  capas,  se  utiliza  un  filtro  para  el  error  que  se  propaga  
hacia  atrás.

2.5.  Redes  de  Hopfield  y  máquinas  de  Boltzmann

En  las  redes  de  Hopfield  [11],  cada  neurona  está  conectada  a  todas  las  demás  neuronas,  y  todas  las  neuronas  son  nodos  
de  entrada  y  salida.  Las  máquinas  de  Boltzmann  (restringidas)  [12,13]  son  similares  en  la  medida  en  que  solo  algunas  neuronas  
son  neuronas  de  entrada,  mientras  que  otras  están  ocultas.  Las  máquinas  de  Boltzmann  restringidas  no  tienen  una  conectividad  
total  entre  las  neuronas,  lo  que  las  hace  típicamente  más  eficientes  para  el  aprendizaje,  particularmente  cuando  se  apilan  una  
encima  de  la  otra  en  la  llamada  red  de  creencias  profundas  [14].  Las  máquinas  Hopfield  Networks  y  Boltzmann  se  entrenan  
sujetando  el  valor  de  las  neuronas  de  entrada  al  patrón  deseado,  después  de  lo  cual  se  aprenden  los  pesos.  Una  vez  entrenada,  
la  red  convergerá  a  uno  de  los  patrones  aprendidos  y  permanecerá  estable  en  uno  de  estos  estados  de  atracción,  en  parte  
debido  a  que  la  energía  total  en  la  red  se  reduce  gradualmente  durante  el  entrenamiento,  similar  al  modelo  Ising.  Estos  tipos  
de  red  también  se  denominan  memorias  asociativas  porque  convergen  al  estado  más  similar  en  comparación  con  su  entrada.  
Las  cadenas  de  Markov  [15],  aunque  no  son  arquitecturas  de  redes  neuronales  en  sí  mismas,  también  se  incluyen  en  esta  
descripción  general,  ya  que  pueden  considerarse  predecesoras.

2.6.  Redes  Convolucionales

Las  redes  convolucionales  [16]  son  arquitecturas  de  aprendizaje  profundo  que  normalmente  contienen  capas  
convolucionales  y  de  agrupación,  que  se  utilizan  para  el  escaneo  aproximado  de  patrones  que  a  menudo  están  espacialmente  
correlacionados.  Como  tales,  son  útiles  para  el  procesamiento  de  imágenes,  pero  también  se  pueden  aplicar  a  otras  modalidades  de  datos.
Las  capas  deconvolucionales  [17]  producen  los  resultados  inversos  y,  por  lo  tanto,  pueden  utilizarse  para  la  generación  de  
imágenes.  Las  redes  gráficas  inversas  convolucionales  profundas  [18]  son  otro  tipo  más  que  se  puede  utilizar  para  generar  
(parcialmente)  imágenes,  siendo  similares  a  los  codificadores  automáticos  variacionales  pero  equipados  con  nodos  
convolucionales  para  las  capas  de  codificación  y  decodificación.

2.7.  Redes  adversarias  generativas

Las  redes  antagónicas  generativas  [19]  o  GAN  en  realidad  consisten  en  dos  redes,  una  encargada  de  generar  datos  (el  
generador),  la  otra  de  predecir  si  los  datos  se  han  generado  o  no  (el  discriminador).  El  éxito  predictivo  del  discriminador  se  
utiliza  como  gradiente  de  error  para  el  generador.  Esta  configuración  tiene  como  objetivo  que  el  discriminador  mejore  su  
capacidad  para  distinguir  los  datos  reales  de  los  datos  generados,  mientras  que  el  generador  aprende  a  volverse  menos  
predecible.  Esta  interacción  dinámica  puede  verse  como  una  especie  de  prueba  de  Turing  o  un  correlato  neuronal  del  algoritmo  
Minimax.  El  aprendizaje
Machine Translated by Google

Actas  2020,  47,  9 4  de  6

El  proceso  es  relativamente  difícil  de  equilibrar  ya  que  no  convergerá  cuando  el  generador  o  el  discriminador  tengan  demasiado  
éxito  en  su  tarea  respectiva.

2.8.  Máquinas  de  estado  líquido  y  máquinas  de  estado  de  eco

Las  máquinas  de  estado  líquido  [20]  no  están  organizadas  en  capas  ordenadas,  sino  que  las  conexiones  se  dibujan  
aleatoriamente  entre  neuronas  con  funciones  de  umbral  que  permiten  la  acumulación  de  actividad  a  lo  largo  del  tiempo,  creando  
patrones  de  actividad  en  picos.  En  consecuencia,  en  lugar  de  utilizar  la  retropropagación,  las  neuronas  de  entrada  se  activan  y  
las  señales  de  actividad  se  propagan  hacia  delante  a  través  de  las  neuronas  ocultas.  La  propia  propagación  resultante  de  las  
señales  se  utiliza  para  el  aprendizaje  por  una  red  de  observadores  separada  que  produce  la  salida.  Las  máquinas  de  estado  de  
eco  [21]  reemplazan  estas  neuronas  puntiagudas  con  las  neuronas  de  activación  sigmoidea  regulares.  Extreme  Learning  
Machines  [22]  son  similares  pero  no  tienen  conexiones  recurrentes,  lo  que  les  permite  entrenarse  rápidamente  utilizando  un  
algoritmo  de  aprendizaje  basado  en  el  ajuste  de  mínimos  cuadrados.

2.9.  Redes  residuales  profundas

Otro  ejemplo  de  una  arquitectura  de  red  que  carece  de  capas  estructuradas  son  las  redes  residuales  profundas  [23],  redes  
feedforward  donde  las  conexiones  pueden  pasar  cualquier  número  de  capas  ocultas.  Esto  las  hace  similares  a  las  redes  
neuronales  recurrentes  pero  sin  la  estructura  de  preservación  del  tiempo.

2.10.  Máquinas  neuronales  de  Turing  y  computadoras  neuronales  diferenciables

Las  máquinas  neuronales  de  Turing  [24]  pueden  entenderse  como  una  abstracción  de  las  LSTM  y  un  intento  de  hacer  que  
las  redes  neuronales  sean  más  explicables.  En  lugar  de  codificar  una  celda  de  memoria  en  una  neurona,  la  memoria  se  separa  
como  una  memoria  de  contenido  direccionable  donde  la  red  neuronal  puede  escribir  y  leer,  lo  que  los  completa.  Las  computadoras  
neuronales  diferenciables  [25]  son  una  abstracción  adicional,  con  memorias  escalables.  También  cuentan  con  tres  mecanismos  
de  atención  que  permiten  a  la  red  consultar  la  similitud  de  la  entrada  con  las  entradas  de  la  memoria,  la  relación  temporal  entre  
dos  entradas  de  la  memoria  y  si  una  entrada  de  la  memoria  se  actualizó  recientemente.

2.11.  Redes  de  Alerta

Las  redes  de  atención  [26]  representan  una  clase  de  redes  más  que  una  arquitectura  particular.  Emplean  un  mecanismo  
de  atención  para  evitar  que  la  información  desaparezca  almacenando  por  separado  estados  de  red  anteriores  y  cambiando  la  
atención  entre  los  estados.  Este  contexto  se  puede  visualizar,  proporcionando  información  interesante  sobre  las  correlaciones  
entre  las  características  de  entrada  y  las  predicciones.

2.12.  Redes  Kohonen

Las  redes  de  Kohonen  [27],  o  mapas  autoorganizados,  utilizan  el  aprendizaje  competitivo  para  clasificar  los  datos  de  
entrada  sin  conocer  el  resultado  esperado,  utilizando  una  función  objetiva  estética  para  una  clasificación  exitosa.  Después  de  
presentar  un  patrón  de  entrada,  la  red  evalúa  cuál  de  sus  nodos  coincide  más  con  esta  entrada  y  luego  los  ajusta  junto  con  sus  
nodos  vecinos  para  mejorar  aún  más  la  coincidencia.

2.13.  Redes  de  cápsulas

Las  redes  de  cápsulas  [28]  proporcionan  una  alternativa  biológicamente  plausible  a  las  capas  de  agrupación.  Las  neuronas  
están  conectadas  con  un  vector  de  peso  en  lugar  de  un  valor  escalar.  Esto  permite  que  las  neuronas  transfieran  simultáneamente  
múltiples  tipos  de  información,  por  ejemplo,  no  solo  qué  característica  se  detecta  sino  también  dónde  se  detecta  en  una  imagen  
y  cuál  es  su  color  y  orientación.  Los  algoritmos  de  aprendizaje  también  están  biológicamente  inspirados  en  el  aprendizaje  de  
Hebbian  que  otorga  valor  a  las  predicciones  precisas  de  salida  en  la  siguiente  capa.
Machine Translated by Google

Actas  2020,  47,  9 5  de  6

3  Conclusiones

Consideradas  cronológicamente,  las  arquitecturas  de  red  presentadas  en  este  documento  generalmente  crecen  en  
complejidad,  tanto  en  términos  de  cantidad  de  capas  como  de  tipos  de  neuronas  involucradas.  Especulamos  que  esta  tendencia  
es  causada  por  el  campo  de  los  sistemas  de  procesamiento  de  información  neuronal  cada  vez  más  aceptado  por  la  comunidad  
de  ingenieros,  lo  que  lleva  a  un  énfasis  continuo  en  la  aplicabilidad  práctica  sobre  la  inspiración  biológica  y  la  plausibilidad.  El  
tiempo  dirá  si  esta  tendencia  ha  llegado  para  quedarse.
Esta  descripción  general  de  las  redes  neuronales  tiene  como  objetivo  proporcionar  una  lista  de  los  métodos  más  populares  
utilizados  en  el  aprendizaje  profundo,  pero  está  lejos  de  ser  completa.  Además,  surgirán  nuevos  modelos.  Mientras  lo  hacen,  
daremos  la  bienvenida  a  estas  extrañas  bestias  al  zoológico  de  redes  neuronales.

Referencias

1.  Rosenblatt,  F.  El  perceptrón:  un  modelo  probabilístico  para  el  almacenamiento  y  la  organización  de  la  información  en  el  cerebro.
psicol.  Rdo.  1958,  65,  386.
2.  Escoba,  DS;  Lowe,  D.  Funciones  de  base  radial,  interpolación  funcional  multivariable  y  redes  adaptativas;  CSR­MEMO­4148;  Royal  Signals  
and  Radar  Establishment  Malvern:  Farnborough,  Reino  Unido,  1988.
3.  El  zoológico  de  redes  neuronales.  Disponible  en  línea:  http://www.asimovinstitute.org/neural­network­zoo  (consultado
el  10  de  abril  de  2020).
4.  Elman,  JL  Encontrar  estructura  en  el  tiempo.  cogn.  Ciencia.  1990,  14,  179–211.
5.  Hochreiter,  S.;  Schmidhuber,  J.  Memoria  larga  a  corto  plazo.  Computación  neuronal.  1997,  9,  1735–1780.
6.  Chung,  J.;  Gulcehre,  C.;  Cho,  K.;  Bengio,  Y.  Evaluación  empírica  de  redes  neuronales  recurrentes  cerradas  en
modelado  de  secuencias.  arXiv  2014,  arXiv:1412.3555.
7.  Bourlard,  H.;  Kamp,  Y.  Autoasociación  por  perceptrones  multicapa  y  descomposición  de  valores  singulares.
Biol.  cibernético  1988,  59,  291–294.
8.  Kingma,  DP;  Welling,  M.  Bayes  variacional  de  codificación  automática.  arXiv  2013,  arXiv:1312.6114.
9.  Vicente,  P.;  Larochelle,  H.;  Bengio,  Y.;  Manzagol,  PA  Extracción  y  composición  de  características  robustas  con  codificadores  automáticos  de  
eliminación  de  ruido.  En  Actas  de  la  25.ª  Conferencia  Internacional  de  Aprendizaje  Automático,  Helsinki,  Finlandia,  5  a  9  de  julio  de  2008.

10.  Ranzato,  MA;  Poultney,  C.;  Chopra,  S.;  Cun,  YL  Aprendizaje  eficiente  de  representaciones  dispersas  con  un  modelo  basado  en  energía.  En  
Proceedings  of  the  NIPS,  Vancouver,  BC,  Canadá,  3  a  6  de  diciembre  de  2007.
11.  Hopfield,  JJ  Redes  neuronales  y  sistemas  físicos  con  habilidades  computacionales  colectivas  emergentes.
proceso  nacional  Academia  Ciencia.  EE.  UU.  1982,  79,  2554–2558.

12.  Hinton,  GE;  Sejnowski,  TJ  Aprendizaje  y  reaprendizaje  en  máquinas  de  Boltzmann.  Distribución  paralela  Proceso.
Explorar  microestructura  cogn.  1986.1,  282­317.
13.  Smolensky,  P.  Procesamiento  de  información  en  sistemas  dinámicos:  fundamentos  de  la  teoría  de  la  armonía;  Nº  CU­CS­321­
86;  Universidad  de  Colorado  en  el  Departamento  de  Informática  de  Boulder:  Boulder,  CO,  EE.  UU.,  1986.
14.  Bengio,  Y.;  Lamblin,  P.;  Popovici,  D.;  Larochelle,  H.  Entrenamiento  codicioso  por  capas  de  redes  profundas.
Adv.  Información  neuronal  Proceso.  Sistema  2007,  19,  153.

15.  Hayes,  B.  Primeros  eslabones  de  la  cadena  de  Markov.  Am.Sci.  2013,  101,  252.
16.  Le  Cun,  Y.;  Bottou,  L.;  Bengio,  Y.;  Haffner,  P.  Aprendizaje  basado  en  gradientes  aplicado  al  reconocimiento  de  documentos.
proceso  IEEE  1998,  86,  2278–2324.

17.  Zeiler,  MD;  Krishnan,  D.;  Taylor,  GW;  Fergus,  R.  Redes  desconvolucionales.  En  Actas  de  la  Conferencia  de  la  IEEE  Computer  Society  de  
2010  sobre  visión  por  computadora  y  reconocimiento  de  patrones,  San  Francisco,  CA,  EE.  UU.,  13  al  15  de  junio  de  2010.

18.  Kulkarni,  TD;  Whitney,  WF;  Kohli,  P.;  Tenenbaum,  J.  Red  de  gráficos  inversos  convolucionales  profundos.
En  Proceedings  of  the  Advances  in  Neural  Information  Processing  Systems,  Montreal,  QC,  Canadá,  7–12  de  diciembre  de  2015.

19.  Goodfellow,  I.;  Pouget­Abadie,  J.;  Mirza,  M.;  Xu,  B.;  Warde­Farley,  D.;  Ozair,  S.;  Courville,  A.;  Bengio,  Y.
Redes  generativas  adversarias.  En  Proceedings  of  the  Advances  in  Neural  Information  Processing  Systems,  Montreal,  QC,  Canadá,  7–12  
de  diciembre  de  2014.

20.  Maas,  W.;  Natschlager,  T.;  Markram,  H.  Computación  en  tiempo  real  sin  estados  estables:  un  nuevo  marco  para  la  computación  neuronal  
basada  en  perturbaciones.  Computación  neuronal.  2002,  14,  2531–2560.
21.  Jaeger,  H.;  Haas.  H.  Aprovechamiento  de  la  no  linealidad:  predicción  de  sistemas  caóticos  y  ahorro  de  energía  en  redes  inalámbricas
comunicación.  Ciencia  2004,  304,  78–80.
Machine Translated by Google

Actas  2020,  47,  9 6  de  6

22.  Huang,  Reino  Unido;  Zhu,  QY;  Siew,  CK  Máquina  de  aprendizaje  extremo:  Teoría  y  aplicaciones.  neurocomputación
2006,  70,  489–501.
23.  Él,  K.;  Zhang,  X.;  Ren,  S.;  Sun,  J.  Aprendizaje  residual  profundo  para  el  reconocimiento  de  imágenes.  arXiv  2015,  arXiv:1512.03385.
24.  Tumbas,  A.;  Wayne,  G.;  Danihelke,  I.  Máquinas  neuralturizantes.  arXiv  2014,  arXiv:1410.5401.
25.  Tumbas,  A.;  Wayne,  G.;  Reynolds,  M.;  Harley,  T.;  Danihelka,  I.;  Grabska­Barwinska,  A.;  Colmenarejo,  SG;  Grefenstette,  E.;  Ramalho,  
T.;  Agapiou,  J.  Computación  híbrida  utilizando  una  red  neuronal  con  memoria  externa  dinámica.  Naturaleza  2016,  538,  471–476.

26.  Jaderberg,  M.;  Simonian,  K.;  Zisserman,  A.  Red  de  Transformadores  Espaciales.  En  Proceedings  of  the  Advances  in  Neural  
Information  Processing  Systems,  Montreal,  QC,  Canadá,  7–12  de  diciembre  de  2015;  páginas  2017–2025.
27.  Kohonen,  T.  Formación  autoorganizada  de  mapas  de  características  topológicamente  correctos.  Biol.  cibernético  1982,  43,  59–69.
28.  Sabor,  S.;  escarcha,  N.;  Hinton,  GE  Enrutamiento  dinámico  entre  cápsulas.  En  Proceedings  of  the  Advances  in  Neural  Information  
Processing  Systems,  Long  Beach,  CA,  EE.  UU.,  4  a  9  de  diciembre  de  2017;  páginas  3856–3866.

©  2020  por  los  autores.  Licenciatario  MDPI,  Basilea,  Suiza.  Este  artículo  es  un  artículo  de  acceso  abierto  
distribuido  bajo  los  términos  y  condiciones  de  Creative  Commons  Attribution

(CC  BY)  licencia  (http://creativecommons.org/licenses/by/4.0/).

También podría gustarte