Está en la página 1de 87

Introducción al Aprendizaje Profundo

Redes Neuronales Convolucionales

Helber Andrés Carvajal1


Luis Reinel Castrillón1
1 Facultad
de Ingeniería
Universidad de Antioquia

Statistical Learning and Data Mining Course


2018 - II

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 1 / 45
Tabla de Contenido
1 Motivación
2 Redes Neuronales Artificiales (ANN)
Conceptos básicos
Funciones de activación
Algoritmo de Backpropagation
Ejemplo 1 - Flores Iris
3 Redes Neuronales Convolucionales (CNN)
Motivación
Arquitectura de una CNN
Ejemplo 2 - Base de datos Fashion MNIST
4 Aprendizaje no Supervisado
Autoencoder
Redes GAN
5 Anotaciones Finales
6 Referencias Bibliográficas . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 2 / 45
Tabla de Contenido
1 Motivación
2 Redes Neuronales Artificiales (ANN)
Conceptos básicos
Funciones de activación
Algoritmo de Backpropagation
Ejemplo 1 - Flores Iris
3 Redes Neuronales Convolucionales (CNN)
Motivación
Arquitectura de una CNN
Ejemplo 2 - Base de datos Fashion MNIST
4 Aprendizaje no Supervisado
Autoencoder
Redes GAN
5 Anotaciones Finales
6 Referencias Bibliográficas . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 3 / 45
Motivación I

Algunas aplicaciones que utilizan aprendizaje profundo


Sistemas de reconocimiento de imágenes
Sistemas de reconocimiento de voz
Procesamiento de lenguaje natural
Bioinformática
Detección de fraudes financieros
Sugerencias de contenidos en la web

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 4 / 45
Motivación II

Comparación entre Aprendizaje Profundo y Aprendizaje de Máquina

Imagen tomada de Link

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 5 / 45
Motivación III

Evolución histórica:

Imagen tomada de Link


. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 6 / 45
Tabla de Contenido
1 Motivación
2 Redes Neuronales Artificiales (ANN)
Conceptos básicos
Funciones de activación
Algoritmo de Backpropagation
Ejemplo 1 - Flores Iris
3 Redes Neuronales Convolucionales (CNN)
Motivación
Arquitectura de una CNN
Ejemplo 2 - Base de datos Fashion MNIST
4 Aprendizaje no Supervisado
Autoencoder
Redes GAN
5 Anotaciones Finales
6 Referencias Bibliográficas . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 7 / 45
Redes Neuronales Artificiales

El valor de activación para una sola neurona sería:



n
a(x) = xi wi + b
i=1
. . . . . . . . . . . . . . . . . . . .
(Imagen tomada de Python Deep Learning, Valentino Zocca 2017)
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 8 / 45
Redes Neuronales Artificiales

Red Neuronal con dos capas ocultas y dos neuronas de salida.


(Imagen tomada de Python Deep Learning, Valentino Zocca 2017)
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 9 / 45
RNA - Funciones de activación - I

Las funciones de activación definen la salida de cada neurona, f(a), las


más utilizadas son:
f(a) = a, función identidad
{
1 si a ≥ 0
f(a) = , función umbral
0 si a < 0

1
f(a) = , función logística o sigmoide, (0, 1).
1 + e−a

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 10 / 45
RNA - Funciones de activación - II

2 1 − e−a
f(a) = − 1 = , función sigmoide bipolar (−1, 1).
1 + e−a 1 + e−a

ea − e−a 1 − e−2a
f(a) = −a
= , función tangente hiperbólica.
a
e +e 1 + e−2a
{
a si a ≥ 0
f(a) = , función ReLU (Rectfied Linear Unit)
0 si a < 0
Las funciones de activación trabajan mejor en diferentes problemas. En la
actualidad las mas utilizadas son la sigmoide, la tangente hiperbólica y la
ReLU

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 11 / 45
RNA - Funciones de activación - III

Generalmente se utiliza la misma función de activación en una capa


de la RNA.

Las redes multicapa tienen una gran capacidad de encontrar una


función que se aproxime a la salida deseada.

Teorema de Aproximación Universal


Las Redes Neuronales Artificiales (RNAs) se pueden considerar una familia
de “aproximación universal” (Hornik et al, 1989; Cybenko, 1989), lo cual
implica que una red neuronal puede aproximar cualquier función continua
hasta cualquier nivel de exactitud.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 12 / 45
Algoritmo de Backpropagation - I

Consideraciones iniciales (Gradiente decendente):


Se considera y(i) la salida de la RNA y t(i) el valor esperado (target).
1 ∑ (i)
El error cuadrático medio es E = (t − y(i) )2
2
i
Se busca reducir E. En este caso E es función de los pesos wk de la
RNA.
∑ δy(i) ∑ (i)
∇E = − (t(i) − y(i) ) =− (t(i) − y(i) )xk
δwk
i i
Los pesos se deben actualizar para reducir∑
el error (en dirección
(i)
opuesta al vector gradiente) wk = wk − λ (t(i) − y(i) )xk (λ es la
i
tasa de aprendizaje)

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 13 / 45
Algoritmo de Backpropagation - II

El gradiente es un vector que


apunta en la dirección en que
crece una función
Se debe ir en dirección opuesta
al vector gradiente
Se buscan los valores de wk que
minimicen la función de error
E(wk )

Superficie de error cuadrático


(Imagen tomada de Fundamentals of Deep Learning - Designing Next-Generation Machine Intelligence Algorithms,
Nikhil Buduma)

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 14 / 45
Ejemplo 1 - Flores Iris
Creada por Ronald Fisher y Edgar Anderson (tomo las medidas) en
1936.
Base de datos con 150 muestras, Tres clases, 4 parámetros por clase.
Parámetros: longitud y ancho del pétalo y longitud y ancho del sépalo.
Clases: Iris Setosa, Iris Versicolor e Iris Virginica.

Categorías, de la base de datos


Imagen tomada de Link . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 15 / 45
Tabla de Contenido
1 Motivación
2 Redes Neuronales Artificiales (ANN)
Conceptos básicos
Funciones de activación
Algoritmo de Backpropagation
Ejemplo 1 - Flores Iris
3 Redes Neuronales Convolucionales (CNN)
Motivación
Arquitectura de una CNN
Ejemplo 2 - Base de datos Fashion MNIST
4 Aprendizaje no Supervisado
Autoencoder
Redes GAN
5 Anotaciones Finales
6 Referencias Bibliográficas . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 16 / 45
CNN - Motivación

Figura: Problema de clasificación

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 17 / 45
CNN - Motivación

Imágenes de diferente tamaño


Condiciones de iluminación
diferentes
Pueden estar deformadas
Objetos ocultos en el fondo
Y muchos más problemas
Figura: Problema de clasificación

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 18 / 45
Redes Neuronales Convolucionales - I

Una red neuronal convolucional esta conformada por diferentes capas


como:
Filtros o kernels, con los que se realiza la convolución.

Poling, permite reducir la dimension de una imagen.

Capas completamente conectadas (fully connected layers (FC))

Funcion Softmax, para clasificar un objeto con probabilidad entre 0 y


1

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 19 / 45
Arquitectura de una CNN

Figura: Diagrama de una CNN

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 20 / 45
Capa de Convolusión de una CNN (I)

Figura: Convolución


n ∑
n
Hi,j,d = conv(I, Kd ) = Ii+m,j+l · Kd,l,m
l=1 m=1

Imagen tomada de Link . . . . . . . . . . . . . . . . . . . .


. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 21 / 45
Capa de convolusión de una CNN (II)

Una imagen de dimensión (h × w × d)


Un filtro (kernel) de dimensión (fh × fw × d)
Una salida de dimensión (h − fh + 1) × (w − fw + 1) × 1

Figura: Convolución

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 22 / 45
Capa de convolusión de una CNN (III)
La convolución de una imagen con diferentes filtros permite realizar
operaciónes como detección de bordes y/o contornos, reducción de ruido,
suavizado de imágenes, entre otras.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 23 / 45
Capa Pooling de una CNN

Figura: Max Pooling Figura: Max Pooling

Las funciones más utilizadas en la capa pooling son Max Pooling y


Average Pooling.
Imagen tomada de Link

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 24 / 45
Regularización de una CNN

“Learning less to learn better”

Imagen tomada de Srivastava, Nitish, et al. ”Dropout: a simple way to prevent neural networks from overfitting”,
JMLR 2014

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 25 / 45
Arquitectura VGG16 de una CNN

Figura: Arquitectura VGG16


https://www.cs.toronto.edu/~frossard/post/vgg16/

Imagen tomada de Link


. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 26 / 45
Comparación de arquitecturas de CNN

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 27 / 45
Ejemplo 2 - Base de datos Fashion MNIST
Contiene 70000 imágenes de 28x28 pixeles
10 categorías

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 28 / 45
Tabla de Contenido
1 Motivación
2 Redes Neuronales Artificiales (ANN)
Conceptos básicos
Funciones de activación
Algoritmo de Backpropagation
Ejemplo 1 - Flores Iris
3 Redes Neuronales Convolucionales (CNN)
Motivación
Arquitectura de una CNN
Ejemplo 2 - Base de datos Fashion MNIST
4 Aprendizaje no Supervisado
Autoencoder
Redes GAN
5 Anotaciones Finales
6 Referencias Bibliográficas . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 29 / 45
Aprendizaje no Supervisado
Autoencoder

Los Autoencoders son redes simétricas usadas para aprendizaje no


supervisado.

Entrada

Figura: Explicación gráfica del funcionamiento de los Autoencoders.1

1 Curiosily.com . . . . . . . . . . . . . . . . . . . .
Imagen tomada de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 30 / 45
Aprendizaje no Supervisado
Autoencoder

Los Autoencoders son redes simétricas usadas para aprendizaje no


supervisado.

Entrada Salida

Figura: Explicación gráfica del funcionamiento de los Autoencoders.1

1 Curiosily.com . . . . . . . . . . . . . . . . . . . .
Imagen tomada de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 30 / 45
Aprendizaje no Supervisado
Autoencoder

Los Autoencoders son redes simétricas usadas para aprendizaje no


supervisado.

Entrada Salida

Figura: Explicación gráfica del funcionamiento de los Autoencoders.1

1 Curiosily.com . . . . . . . . . . . . . . . . . . . .
Imagen tomada de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 30 / 45
Aprendizaje no Supervisado
Autoencoder

Los Autoencoders son redes simétricas usadas para aprendizaje no


supervisado.

Código

Entrada Salida

Codificador Decodificador

Figura: Explicación gráfica del funcionamiento de los Autoencoders.1

1 Curiosily.com . . . . . . . . . . . . . . . . . . . .
Imagen tomada de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 30 / 45
Aprendizaje no Supervisado
Autoencoder

Los Autoencoders son redes simétricas usadas para aprendizaje no


supervisado.

Código
Sistema
computacionalmente
complejo

Entrada Salida

Codificador Decodificador

Figura: Explicación gráfica del funcionamiento de los Autoencoders.1

1 Curiosily.com . . . . . . . . . . . . . . . . . . . .
Imagen tomada de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 30 / 45
Aprendizaje no Supervisado
Autoencoder

Los Autoencoders son redes simétricas usadas para aprendizaje no


supervisado.

Entrada Salida

Figura: Explicación gráfica del funcionamiento de los Autoencoders.1

1 Curiosily.com . . . . . . . . . . . . . . . . . . . .
Imagen tomada de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 30 / 45
Aprendizaje no Supervisado
Autoencoder

La meta de estas redes es actuar como un filtro compresor codificando en c la entrada X


a través de la capa ϕ. Posteriormente, se decodifica el código c en la salida X′ a través
de la capa φ.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 31 / 45
Aprendizaje no Supervisado
Autoencoder

La meta de estas redes es actuar como un filtro compresor codificando en c la entrada X


a través de la capa ϕ. Posteriormente, se decodifica el código c en la salida X′ a través
de la capa φ.
ϕ : X → c, φ : c → X′

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 31 / 45
Aprendizaje no Supervisado
Autoencoder

La meta de estas redes es actuar como un filtro compresor codificando en c la entrada X


a través de la capa ϕ. Posteriormente, se decodifica el código c en la salida X′ a través
de la capa φ.
ϕ : X → c, φ : c → X′
La función de coste es la reconstrucción del error, la cual forzará la red para encontrar la
representación compacta más eficiente de los datos de entrenamiento con mínima
pérdida de información. Cuando las entradas son numéricas se utiliza como función de
pérdida el error cuadrático medio:

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 31 / 45
Aprendizaje no Supervisado
Autoencoder

La meta de estas redes es actuar como un filtro compresor codificando en c la entrada X


a través de la capa ϕ. Posteriormente, se decodifica el código c en la salida X′ a través
de la capa φ.
ϕ : X → c, φ : c → X′
La función de coste es la reconstrucción del error, la cual forzará la red para encontrar la
representación compacta más eficiente de los datos de entrenamiento con mínima
pérdida de información. Cuando las entradas son numéricas se utiliza como función de
pérdida el error cuadrático medio:

LMSE = ||X − X′ ||2

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 31 / 45
Aprendizaje no Supervisado
Autoencoder

La meta de estas redes es actuar como un filtro compresor codificando en c la entrada X


a través de la capa ϕ. Posteriormente, se decodifica el código c en la salida X′ a través
de la capa φ.
ϕ : X → c, φ : c → X′
La función de coste es la reconstrucción del error, la cual forzará la red para encontrar la
representación compacta más eficiente de los datos de entrenamiento con mínima
pérdida de información. Cuando las entradas son numéricas se utiliza como función de
pérdida el error cuadrático medio:

LMSE = ||X − X′ ||2

Si los datos de entrada no son numéricos pero son representados como un vector de bits
o una distribución multinomial, se utiliza reconstrucción de entropía cruzada:

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 31 / 45
Aprendizaje no Supervisado
Autoencoder

La meta de estas redes es actuar como un filtro compresor codificando en c la entrada X


a través de la capa ϕ. Posteriormente, se decodifica el código c en la salida X′ a través
de la capa φ.
ϕ : X → c, φ : c → X′
La función de coste es la reconstrucción del error, la cual forzará la red para encontrar la
representación compacta más eficiente de los datos de entrenamiento con mínima
pérdida de información. Cuando las entradas son numéricas se utiliza como función de
pérdida el error cuadrático medio:

LMSE = ||X − X′ ||2

Si los datos de entrada no son numéricos pero son representados como un vector de bits
o una distribución multinomial, se utiliza reconstrucción de entropía cruzada:


d
LH = − xk log(x′k ) + (1 − xk )log(1 − x′k )
k=1

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 31 / 45
Aprendizaje no Supervisado
Autoencoder

La meta de estas redes es actuar como un filtro compresor codificando en c la entrada X


a través de la capa ϕ. Posteriormente, se decodifica el código c en la salida X′ a través
de la capa φ.
ϕ : X → c, φ : c → X′
La función de coste es la reconstrucción del error, la cual forzará la red para encontrar la
representación compacta más eficiente de los datos de entrenamiento con mínima
pérdida de información. Cuando las entradas son numéricas se utiliza como función de
pérdida el error cuadrático medio:

LMSE = ||X − X′ ||2

Si los datos de entrada no son numéricos pero son representados como un vector de bits
o una distribución multinomial, se utiliza reconstrucción de entropía cruzada:


d
LH = − xk log(x′k ) + (1 − xk )log(1 − x′k )
k=1

Donde d es la dimensionalidad de los vectores de entrada.


. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 31 / 45
Aprendizaje no Supervisado
Autoencoder

Figura: Autoencoders para la reducción de la dimensionalidad.2

2 i-systems.github . . . . . . . . . . . . . . . . . . . .
Imágenes tomadas de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 32 / 45
Aprendizaje no Supervisado
Autoencoder

Figura: Autoencoders para la reducción de la dimensionalidad.2

2 i-systems.github . . . . . . . . . . . . . . . . . . . .
Imágenes tomadas de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 32 / 45
Aprendizaje no Supervisado
Autoencoder

La capa central de la red es la representación comprimida de los datos. Arreglo


n-dimensional a m-dimensional con m < n.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 33 / 45
Aprendizaje no Supervisado
Autoencoder

La capa central de la red es la representación comprimida de los datos. Arreglo


n-dimensional a m-dimensional con m < n.
Es un proceso similar a Análisis de Componentes Principales (PCA). PCA divide
la matriz de entrada en ejes ortogonales, se puede obtener una aproximación de la
matriz original mediante la proyección de los puntos de entrada sobre dichos ejes.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 33 / 45
Aprendizaje no Supervisado
Autoencoder

La capa central de la red es la representación comprimida de los datos. Arreglo


n-dimensional a m-dimensional con m < n.
Es un proceso similar a Análisis de Componentes Principales (PCA). PCA divide
la matriz de entrada en ejes ortogonales, se puede obtener una aproximación de la
matriz original mediante la proyección de los puntos de entrada sobre dichos ejes.
La limitación de PCA es que permite solamente transformaciones lineales de los
datos, lo cual no siempre es suficiente.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 33 / 45
Aprendizaje no Supervisado
Autoencoder

La capa central de la red es la representación comprimida de los datos. Arreglo


n-dimensional a m-dimensional con m < n.
Es un proceso similar a Análisis de Componentes Principales (PCA). PCA divide
la matriz de entrada en ejes ortogonales, se puede obtener una aproximación de la
matriz original mediante la proyección de los puntos de entrada sobre dichos ejes.
La limitación de PCA es que permite solamente transformaciones lineales de los
datos, lo cual no siempre es suficiente.
Los Autoencoders tienen la ventaja de ser capaz de representar incluso
representaciones no lineales usando funciones de activación no lineales.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 33 / 45
Aprendizaje no Supervisado
Autoencoder

Un ejemplo ilustrativo del uso de los Autoencoders está dado por Mitchel, T.M en su
libro Machine Learning de 1997. Allí se toma ocho categorías de objetos codificados en
binario con etiquetas mutuamente excluyentes. La red comprimirá los datos de entrada a
solamente tres nodos ocultos.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 34 / 45
Aprendizaje no Supervisado
Autoencoder

Un ejemplo ilustrativo del uso de los Autoencoders está dado por Mitchel, T.M en su
libro Machine Learning de 1997. Allí se toma ocho categorías de objetos codificados en
binario con etiquetas mutuamente excluyentes. La red comprimirá los datos de entrada a
solamente tres nodos ocultos.

Entradas Salidas Entradas Valores Salidas


Ocultos
10000000 0.89 0.04 0.08 10000000
01000000 0.15 0.99 0.99 01000000
00100000 0.01 0.97 0.27 00100000
00010000 0.99 0.97 0.71 00010000
00001000 0.03 0.05 0.02 00001000
00000100 0.01 0.11 0.88 00000100
00000010 0.80 0.01 0.98 00000010
00000001 0.06 0.94 0.01 00000001

Figura: Autoencoder de Mitchell. Imagen tomada de (Zocca et al., 2017)

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 34 / 45
Aprendizaje no Supervisado
Autoencoder

En algunas ocasiones una sola capa oculta no es suficiente para representar la


complejidad y la variabilidad de los datos. En estos casos se debe usar una arquitectura
profunda que pueda aprender relaciones complicadas.

3 Towards Data Science. . . . . . . . . . . . . . . . . . . . .


Imagen tomada de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 35 / 45
Aprendizaje no Supervisado
Autoencoder

En algunas ocasiones una sola capa oculta no es suficiente para representar la


complejidad y la variabilidad de los datos. En estos casos se debe usar una arquitectura
profunda que pueda aprender relaciones complicadas.

3
Figura: Arquitectura profunda de un Autoencoder.

3 Towards Data Science. . . . . . . . . . . . . . . . . . . . .


Imagen tomada de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 35 / 45
Aprendizaje no Supervisado
Autoencoder

Preguntas comunes cuando se va a construir un red neuronal profunda: ¿Cómo escoger


el número de capas ocultas?, ¿número de neuronas por capa?, ¿funciones de
activación?, ¿funciones de pérdida?.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 36 / 45
Aprendizaje no Supervisado
Autoencoder

Preguntas comunes cuando se va a construir un red neuronal profunda: ¿Cómo escoger


el número de capas ocultas?, ¿número de neuronas por capa?, ¿funciones de
activación?, ¿funciones de pérdida?.

Para el caso de los autoencoders el problema es más simple. Si bien hay muchas
variantes de autoencoders, hay algunos lineamientos generales:

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 36 / 45
Aprendizaje no Supervisado
Autoencoder

Preguntas comunes cuando se va a construir un red neuronal profunda: ¿Cómo escoger


el número de capas ocultas?, ¿número de neuronas por capa?, ¿funciones de
activación?, ¿funciones de pérdida?.

Para el caso de los autoencoders el problema es más simple. Si bien hay muchas
variantes de autoencoders, hay algunos lineamientos generales:

La capa de salida tiene exactamente el mismo tamaño de la capa de entrada.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 36 / 45
Aprendizaje no Supervisado
Autoencoder

Preguntas comunes cuando se va a construir un red neuronal profunda: ¿Cómo escoger


el número de capas ocultas?, ¿número de neuronas por capa?, ¿funciones de
activación?, ¿funciones de pérdida?.

Para el caso de los autoencoders el problema es más simple. Si bien hay muchas
variantes de autoencoders, hay algunos lineamientos generales:

La capa de salida tiene exactamente el mismo tamaño de la capa de entrada.


En la mayoría de los casos la red es simétrica.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 36 / 45
Aprendizaje no Supervisado
Autoencoder

Preguntas comunes cuando se va a construir un red neuronal profunda: ¿Cómo escoger


el número de capas ocultas?, ¿número de neuronas por capa?, ¿funciones de
activación?, ¿funciones de pérdida?.

Para el caso de los autoencoders el problema es más simple. Si bien hay muchas
variantes de autoencoders, hay algunos lineamientos generales:

La capa de salida tiene exactamente el mismo tamaño de la capa de entrada.


En la mayoría de los casos la red es simétrica.
En la fase de codificación, las capas ocultas son generalmente menores que la
entrada y decrecen cuanto la red es más profunda. Lo contrario ocurre para la fase
de decodificación.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 36 / 45
Aprendizaje no Supervisado
Autoencoder

Preguntas comunes cuando se va a construir un red neuronal profunda: ¿Cómo escoger


el número de capas ocultas?, ¿número de neuronas por capa?, ¿funciones de
activación?, ¿funciones de pérdida?.

Para el caso de los autoencoders el problema es más simple. Si bien hay muchas
variantes de autoencoders, hay algunos lineamientos generales:

La capa de salida tiene exactamente el mismo tamaño de la capa de entrada.


En la mayoría de los casos la red es simétrica.
En la fase de codificación, las capas ocultas son generalmente menores que la
entrada y decrecen cuanto la red es más profunda. Lo contrario ocurre para la fase
de decodificación.
La capa de la mitad (código) debe mantenerse tan pequeña como sea posible.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 36 / 45
Aprendizaje no Supervisado
Autoencoder

Preguntas comunes cuando se va a construir un red neuronal profunda: ¿Cómo escoger


el número de capas ocultas?, ¿número de neuronas por capa?, ¿funciones de
activación?, ¿funciones de pérdida?.

Para el caso de los autoencoders el problema es más simple. Si bien hay muchas
variantes de autoencoders, hay algunos lineamientos generales:

La capa de salida tiene exactamente el mismo tamaño de la capa de entrada.


En la mayoría de los casos la red es simétrica.
En la fase de codificación, las capas ocultas son generalmente menores que la
entrada y decrecen cuanto la red es más profunda. Lo contrario ocurre para la fase
de decodificación.
La capa de la mitad (código) debe mantenerse tan pequeña como sea posible.
Para entradas binarias se utiliza la sigmoide como función de activación y entropía
cruzada como función de pérdida.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 36 / 45
Aprendizaje no Supervisado
Autoencoder

Para valores reales se utiliza ReLU o softmax como función de activación y MSE
como función de pérdida.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 37 / 45
Aprendizaje no Supervisado
Autoencoder

Para valores reales se utiliza ReLU o softmax como función de activación y MSE
como función de pérdida.
Para redes profundas usar la misma función de activación en todas las capas.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 37 / 45
Aprendizaje no Supervisado
Autoencoder

Para valores reales se utiliza ReLU o softmax como función de activación y MSE
como función de pérdida.
Para redes profundas usar la misma función de activación en todas las capas.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 37 / 45
Aprendizaje no Supervisado
Autoencoder

Para valores reales se utiliza ReLU o softmax como función de activación y MSE
como función de pérdida.
Para redes profundas usar la misma función de activación en todas las capas.

Figura: Funciones de activación más comunes. Imagen tomada (Zocca et al.,


2017).

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 37 / 45
Aprendizaje no Supervisado
Autoencoder

Ahora un ejemplo de aplicación de los Autoencoders:

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 38 / 45
Aprendizaje no Supervisado
Autoencoder

Ahora un ejemplo de aplicación de los Autoencoders:

Figura: Un ejemplo de aplicación. Imagen tomada de (Zocca et al., 2017).


. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 38 / 45
Aprendizaje no Supervisado
Redes GAN

Discriminador Generador

Figura: Explicación gráfica de Redes GAN.4

4 Friederich-Alexander Universitat . . . . . . . . . . . . . . . . . . . .
Imagen tomada de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 39 / 45
Aprendizaje no Supervisado
Redes GAN

Figura: Explicación gráfica de Redes GAN.4

4 Friederich-Alexander Universitat . . . . . . . . . . . . . . . . . . . .
Imagen tomada de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 39 / 45
Aprendizaje no Supervisado
Redes GAN

Figura: Explicación gráfica de Redes GAN.4

4 Friederich-Alexander Universitat . . . . . . . . . . . . . . . . . . . .
Imagen tomada de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 39 / 45
Aprendizaje no Supervisado
Redes GAN

Figura: Explicación gráfica de Redes GAN.4

4 Friederich-Alexander Universitat . . . . . . . . . . . . . . . . . . . .
Imagen tomada de . . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 39 / 45
Aprendizaje no Supervisado
Redes GAN

Arquitectura introducida en el 2014 por Ian Goodfellow (Goodfellow et al., 2014).

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 40 / 45
Aprendizaje no Supervisado
Redes GAN

Arquitectura introducida en el 2014 por Ian Goodfellow (Goodfellow et al., 2014).


Se considera el estado del arte de las redes generativas. Yann LeCunn indica que
las GAN corresponde a un avance disruptivo en el Deep Learning.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 40 / 45
Aprendizaje no Supervisado
Redes GAN

Arquitectura introducida en el 2014 por Ian Goodfellow (Goodfellow et al., 2014).


Se considera el estado del arte de las redes generativas. Yann LeCunn indica que
las GAN corresponde a un avance disruptivo en el Deep Learning.
Las redes GAN se compone de dos modelos llamados Generador y discriminador
que compiten entre si. Con la competencia los dos sistemas tienden a mejorar .

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 40 / 45
Aprendizaje no Supervisado
Redes GAN

Arquitectura introducida en el 2014 por Ian Goodfellow (Goodfellow et al., 2014).


Se considera el estado del arte de las redes generativas. Yann LeCunn indica que
las GAN corresponde a un avance disruptivo en el Deep Learning.
Las redes GAN se compone de dos modelos llamados Generador y discriminador
que compiten entre si. Con la competencia los dos sistemas tienden a mejorar .
Generación de datos sintéticos.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 40 / 45
Aprendizaje no Supervisado
Redes GAN

Arquitectura introducida en el 2014 por Ian Goodfellow (Goodfellow et al., 2014).


Se considera el estado del arte de las redes generativas. Yann LeCunn indica que
las GAN corresponde a un avance disruptivo en el Deep Learning.
Las redes GAN se compone de dos modelos llamados Generador y discriminador
que compiten entre si. Con la competencia los dos sistemas tienden a mejorar .
Generación de datos sintéticos.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 40 / 45
Aprendizaje no Supervisado
Redes GAN

Arquitectura introducida en el 2014 por Ian Goodfellow (Goodfellow et al., 2014).


Se considera el estado del arte de las redes generativas. Yann LeCunn indica que
las GAN corresponde a un avance disruptivo en el Deep Learning.
Las redes GAN se compone de dos modelos llamados Generador y discriminador
que compiten entre si. Con la competencia los dos sistemas tienden a mejorar .
Generación de datos sintéticos.

La función de pérdida:

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 40 / 45
Aprendizaje no Supervisado
Redes GAN

Arquitectura introducida en el 2014 por Ian Goodfellow (Goodfellow et al., 2014).


Se considera el estado del arte de las redes generativas. Yann LeCunn indica que
las GAN corresponde a un avance disruptivo en el Deep Learning.
Las redes GAN se compone de dos modelos llamados Generador y discriminador
que compiten entre si. Con la competencia los dos sistemas tienden a mejorar .
Generación de datos sintéticos.

La función de pérdida:

Donde D(x) es la función del discriminador que entrega valores entre 0 y 1


(probabilidad).

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 40 / 45
Aprendizaje no Supervisado
Redes GAN

Arquitectura introducida en el 2014 por Ian Goodfellow (Goodfellow et al., 2014).


Se considera el estado del arte de las redes generativas. Yann LeCunn indica que
las GAN corresponde a un avance disruptivo en el Deep Learning.
Las redes GAN se compone de dos modelos llamados Generador y discriminador
que compiten entre si. Con la competencia los dos sistemas tienden a mejorar .
Generación de datos sintéticos.

La función de pérdida:

Donde D(x) es la función del discriminador que entrega valores entre 0 y 1


(probabilidad).
G(z) es la función del generador, z es un vector de ruído. G(z) genera una matriz de
salida de las mismas dimensiones de x.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 40 / 45
Aprendizaje no Supervisado
Redes GAN

Arquitectura introducida en el 2014 por Ian Goodfellow (Goodfellow et al., 2014).


Se considera el estado del arte de las redes generativas. Yann LeCunn indica que
las GAN corresponde a un avance disruptivo en el Deep Learning.
Las redes GAN se compone de dos modelos llamados Generador y discriminador
que compiten entre si. Con la competencia los dos sistemas tienden a mejorar .
Generación de datos sintéticos.

La función de pérdida:

Donde D(x) es la función del discriminador que entrega valores entre 0 y 1


(probabilidad).
G(z) es la función del generador, z es un vector de ruído. G(z) genera una matriz de
salida de las mismas dimensiones de x.
En la ecuación se presentan dos ciclos que se deben interpretar independientemente.
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 40 / 45
Aprendizaje no Supervisado
Redes GAN

Ciclo 1 maximización de los parámetros D(x): E[log(D(x)] y E[log(1 − D(G(z))].


Ciclo 2 minimización de los parámetros G(z): E[log(1 − D(G(z))].

-1

-2

-3

-4

-5

-6
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Figura: Gráfica de la función log(x)


. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 41 / 45
Tabla de Contenido
1 Motivación
2 Redes Neuronales Artificiales (ANN)
Conceptos básicos
Funciones de activación
Algoritmo de Backpropagation
Ejemplo 1 - Flores Iris
3 Redes Neuronales Convolucionales (CNN)
Motivación
Arquitectura de una CNN
Ejemplo 2 - Base de datos Fashion MNIST
4 Aprendizaje no Supervisado
Autoencoder
Redes GAN
5 Anotaciones Finales
6 Referencias Bibliográficas . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 42 / 45
Anotaciones finales

Deep Learning debe usarse cuando se tiene un volumen alto de información.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 43 / 45
Anotaciones finales

Deep Learning debe usarse cuando se tiene un volumen alto de información.


Gran parte de las aplicaciones está orientado al tema de las imágenes: clasificación,
detección de objetos, aprendizaje semántico.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 43 / 45
Anotaciones finales

Deep Learning debe usarse cuando se tiene un volumen alto de información.


Gran parte de las aplicaciones está orientado al tema de las imágenes: clasificación,
detección de objetos, aprendizaje semántico.
El uso de GPU resulta fundamental para los procesos de aprendizaje.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 43 / 45
Anotaciones finales

Deep Learning debe usarse cuando se tiene un volumen alto de información.


Gran parte de las aplicaciones está orientado al tema de las imágenes: clasificación,
detección de objetos, aprendizaje semántico.
El uso de GPU resulta fundamental para los procesos de aprendizaje.
En lugar de diseñar nuestras propias redes se puede utilizar transferencia de
aprendizaje para adaptar redes prediseñadas: AlexNet, CaffeNet, DenseNet,
Inception, VGG, YOLO, etc.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 43 / 45
Anotaciones finales

Deep Learning debe usarse cuando se tiene un volumen alto de información.


Gran parte de las aplicaciones está orientado al tema de las imágenes: clasificación,
detección de objetos, aprendizaje semántico.
El uso de GPU resulta fundamental para los procesos de aprendizaje.
En lugar de diseñar nuestras propias redes se puede utilizar transferencia de
aprendizaje para adaptar redes prediseñadas: AlexNet, CaffeNet, DenseNet,
Inception, VGG, YOLO, etc.
El uso de redes recurrentes profundas ha estado creciendo con aplicaciones en el
campo del NLP.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 43 / 45
Tabla de Contenido
1 Motivación
2 Redes Neuronales Artificiales (ANN)
Conceptos básicos
Funciones de activación
Algoritmo de Backpropagation
Ejemplo 1 - Flores Iris
3 Redes Neuronales Convolucionales (CNN)
Motivación
Arquitectura de una CNN
Ejemplo 2 - Base de datos Fashion MNIST
4 Aprendizaje no Supervisado
Autoencoder
Redes GAN
5 Anotaciones Finales
6 Referencias Bibliográficas . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 44 / 45
Bibliografía

Goodfellow, I., Bengio, Y., and Courville, A. (2016).


Deep Learning.
Adaptive computation and machine learning. MIT Press.

Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S.,
Courville, A., and Bengio, Y. (2014).
Generative adversarial nets.
In Advances in neural information processing systems, pages 2672–2680.

Zocca, V., Spacagna, G., Slater, D., and Roelants, P. (2017).


Python Deep Learning.
Packt Publishing.

. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
Carvajal, Helber, Castrillon, Reinel (School of Engineer)
Introducción al Aprendizaje Profundo 2018 - II 45 / 45