Está en la página 1de 47

MODELOS SUPERVISADOS

REDES NEURONALES MLP

JAIME MIRANDA
(jmiranda@dii.uchile.cl)
Departamento de Ingeniera Industrial
Universidad de Chile

DISCRIMINANTES BSICOS

CONCEPTOS BSICOS
Medida de distancia
Prototipo o centro de clase ms cercana
Entre ms cerca mayor pertenencia de a la clase
Hipersuperficies
Clasificacin de acuerdo a si los objetos estn a uno u otro lado de una
hipersuperficie o conjunto de hiperplanos

X2

X1

NOCIN BSICA DE CLASIFICACIN

Regla de Bayes
p ( X L / C K ) * p (C K )
p (C K / X L ) =
p( X L )
Donde:

Ck denota la clase k del atributo elegido como base.


XL son los atributos a los cuales se condicionara en probabilidad.

TCNICAS EMPLEADAS

MTODOS SUPERVISADOS
Redes neuronales
rboles de decisin
SVM

MTODOS NO SUPERVISADOS
Fuzzy C-means (Cluster)
Mapas Kohonen

NUEVAS TCNICAS
MCS (Multiclassifier Systems )
Clamping (Heurstica seleccin de atributos)

DIAGRAMA DE APRENDIZAJE SUPERVISADO

Respuesta deseada

MAESTRO

INFORMACIN

RELACIONES

MEDIO
AMBIENTE

Vector que describe


el Medio Ambiente

Respuesta calculada

CONOCIMIENTO
DEL NEGOCIO

SISTEMA DE
APRENDIZAJE

Error

DIAGRAMA DE APRENDIZAJE NO SUPERVISADO

INFORMACIN

MEDIO
RELACIONES

AMBIENTE

CONOCIMIENTO
DEL NEGOCIO

Respuesta calculada

Vector que describe


el Medio Ambiente

SISTEMA DE
APRENDIZAJE
Error

Salida del
Sistema

Sistema no supervisado

ALGUNOS CASOS EXITOSOS DMGROUP

Scoring de riesgo crediticio para mutuos hipotecarios


Tcnica de minera usada : Red neuronal multicapa

Modelo predictivo de fugas de cuentacorrentistas


Tcnica de minera usada: SVM

Modelo predictivo de fugas de cuentacorrentistas


Tcnica de minera usada: Red neuronal multicapa especializada

Modelo predictivo de ofertas focalizadas


Tcnica de minera usada: Red neuronal multicapa rbol de decisin

Modelo deteccin de fraudes en transacciones electrnicas de fondos


Tcnica de minera usada: MCS
SVM
rboles de decisin
Mapas de Kohonen

CASO DE ESTUDIO

PROBLEMA: ALTO NUMERO DE FRAUDES EN TARJETAS DE CRDITO


Construir un modelo de prediccin de fraudes en tarjetas de crdito
La empresa posee un Datawarehouse con la informacin transaccional y de
caracterizacin (perfil) de los clientes
La base consta de 2.000 clientes descritos por 15 variables
Se desea encontrar un patrn caracterstico que describa el comportamiento de
fraude

ALGUNAS DEFINICIONES

APRENDIZAJE
El aprendizaje es una habilidad de la que disponen gran parte de los sistemas
naturales para adaptarse al entorno en el que vive.
Adquisicin de conocimiento de un proceso por medio del anlisis, ejercicio o
experiencia.
Un proceso por el cual los parmetros libres del sistema se adaptan a travs de
un proceso continuo de estimulacin a partir del entorno en el que el sistema
est inmerso.

TEORA ESTADSTICA

ENFOQUE BAYESIANO

p ( X L / C K ) * p (C K )
p (C K / X L ) =
p( X L )
DONDE:

P(C ) = 1
i

P( X k ) = 1

Ck denota la clase k del atributo elegido como base.


XL son los atributos a los cuales se condicionara en probabilidad.

TEORA ESTADSTICA (2)

REGLA DE DECISIN DE BAYES

Xk pertenece a la clase Cj si y solo si:

g ( xk ) > g ( xk )
P (C j / xk ) > P (Ci / xk )

CLASIFICACIN LINEAL

f: X

X= (x1, x2,, xn )

EJEMPLO: Clasificacin binaria

f( X) 0

Clase 1

f( X) 0

Clase 2

CLASIFICACIN LINEAL (2)

f (X ) = w x

+b

Clase 1

Saldo

Clase 2

w x

+b = 0

w
b

Transacciones

MODELO PERCEPTRN

ALGUNAS NOCIONES
Propuesto en 1956 por Frank Rosenblatt.
Fue objeto de gran inters a comienzos de los 60s.
Primer algoritmo iterativo para clasificacin lineal.
Este algoritmo garantiza encontrar un hiperplano separador de clases, para
datos linealmente separables.
Unidad bsica de la arquitectura de las redes neuronales.
Se basa en una representacin neuronal biolgica.

MODELO PERCEPTRN (2)

MODELO
Una neurona con pesos sinpticos y nivel umbral ajustable.
Neurona biolgica.

PROPSITO
Clasificar estmulos externos de un objeto respecto a una clase.

APRENDIZAJE
Determinar el vector de pesos ptimo (w) que clasifique bien a cada objeto.

ELEMENTOS BSICOS

UNIDADES DE ENTRADA
Elementos que estimulan la red.
Atributos o variables de entrada.

CONEXIONES
Por las que se propaga la seal que conforma el patrn.
Pesos wi indican que tan fuerte es el atributo.

COMBINADOR LINEAL
Capta las seales y las combina en una sola.

FUNCIN DE ACTIVACIN
Activa o no la seal.

ARQUITECTURA PERCEPTRON

MODELO GENERAL

MODELO PERCEPTRON

DEFINICIONES
Vector de pesos
W = w 0 , w 1 ,..... w n ,

Conjunto de ejemplos
E =

(x

)(

Salidas del modelo

t u = +1

, t 1 , x 2 , t 2 ,......... x p , t

t u = 1

),

ALGORITMO PERCEPTRON

1.

Inicializar W=(w1,...wn) = 0.

2.

Seleccionar un ejemplo Xu=(xu,tu) en orden cclico o al azar.

3.

Si W clasifica correctamente a Xu, es decir:


W X
W X

4.

>0
<0

t u = +1
No tomar ninguna accin

y
t u = 1

Si clasifica mal:

W " = W + t u xu
5.

Volver a 2.

MARGEN EN FORMA GRFICA


u = t u * ( w x u +b )

Clase 1

Saldo

Clase 2

Antigedad

PRINCIPALES TEOREMAS PERCEPTRON

CONVERGENCIA
El algoritmo perceptron converge siempre en tiempo finito, para un conjunto
separable y finito de ejemplos

PESOS CCLICOS ACOTADOS


El conjunto de pesos que algoritmo recorre para cualquier problema, sea ste
separable o no, es acotado

PRINCIPALES TEOREMAS PERCEPTRON (2)

EN TIEMPO FINITO EL ALGORITMO PRODUCIR:


Un vector de pesos que satisfaga todos los ejemplos
Conjunto linealmente separable
Volver a visitar un vector de pesos
Conjunto no linealmente separable

Test de separabilidad lineal


No se conoce cota de tiempo
PROBLEMAS:

Costoso: almacenar pesos pasados

APLICACIN : COMBINADORES LINEALES:

CANCELADORES DE RUIDO (ADALINE)


Fueron introducidos por Widrow
Limpieza de una seal acstica que posee ruido
Uso de una estimacin de una serie temporal

Seal sucia

Seal limpia

ESQUEMA GENERAL CANCELADOR DE RUIDO

Salida del
Sistema
S+n0

Seal limpia

Salida del
filtro

Fuente de ruido

n1

Filtro
Adaptivo

Error

Cancelador de Ruido

BSQUEDA DE PESOS PTIMOS

SEPARABILIDAD EN FUNCIONES LINEALES

X1
1
0
1
0

FUNCIO N BO O LEANAS
X2
AND
1
1
1
0
0
0
0
0

X2

X1

Los valores amarillos valen uno (TRUE)


Los valores azules valen cero (FALSO)

SEPARABILIDAD EN FUNCIONES LINEALES (2)

X1
1
0
1
0

FUNCIO N BO O LEANAS
X2
OR
1
1
1
1
0
1
0
0

X2

X1

Los valores amarillos valen uno (TRUE)


Los valores azules valen cero (FALSO)

UN PEQUEO PROBLEMA

X1
1
0
1
0

FUNCION BOOLEANAS
X2
XOR
1
0
1
1
0
1
0
0

X2

?
X1

REDES NEURONALES MLP

Aplicaciones en la industria
Retencin o fuga de clientes
Deteccin de fraudes
Scoring

Fortalezas
Fuerte en lo referente a la modelacin no lineal
Trabaja tanto con variables categricas como continuas
Alta aplicabilidad (variadas reas de estudio)

Debilidades
Difcil interpretacin de las relaciones entre las variables (Heursticas)
Sobreajuste

REDES NEURONALES MLP (2)

La gran mayora de problemas no son linealmente separables


No es posible usar el modelo perceptron. Modelo limitado
No existe ningn hiperplano separador.

Se buscan funciones no lineales que definen las hipersuperficies

PRINCIPALES TEOREMAS

REPRESENTACIN DE FUNCIONES
Cualquier funcin booleana de un nmero finito de entradas puede
representarse en forma exacta por un patrn multicapas

HETCH-NIELSEN
Cualquier funcin continua dentro de un cubo n-dimensional puede
implementarse en forma exacta por una red con una capa oculta

HORNIK
La funcin puede ser representada con una red multicapa, siempre y
cuando tenga un nmero adecuado de unidades escondidas

KOLGOMOROV
Una capa oculta es suficiente para la aproximacin de cualquier funcin

ARQUITECTURA RED NEURONAL MLP

Atributos

Clases

x1

x2
...
xi

1
0

..
.

Capa de salida
Capa de entrada

Capa oculta

ROL DE LAS CAPAS OCULTAS

Construyen las distintas dimensiones de los polgonos (fronteras).


Si el polgono posee una forma muy complicada necesita ms capas
escondidas.
Muchas capa produce sobreajuste.
Pocas capas no puede ser modelado el problema.

Regla Aproximada~ Usar el promedio de


las neuronas de entrada y de salida

ROL DE LAS CAPAS OCULTAS: FORMA GRAFICA

ESQUEMA GENERAL: FUNCIONES DE ACTIVACIN

Salida del
Sistema

Funcin de
Activacin (Z)

Salida
MLP (Y)

MLP
Error (e)

FUNCIONES DE ACTIVACIN

FUNCIONES SIGMOIDES
Logstica (0,1)

Tangente hiperblica (-1,1)

---

FUNCIONES DE ACTIVACIN: FORMAS GRFICAS

Logstica

Tangente Hiperblica

MTODO DE APRENDIZAJE

RETROPORPAGACIN DEL ERROR


Se explora el grado de influencia de los pesos en el error
Estos se ajustan desde la capa de salida hacia la capa de entrada
Necesita que las funciones de activacin sean diferenciables

Error
Salida Calculada
Salida Deseada

MTODO DE APRENDIZAJE (2)

RETROPORPAGACIN EN DOS PASADAS


FORWARD: Con los pesos fijos se calcula la respuesta de las distintas unidades
(capa oculta y de salida) y se determina el error.
BACKWARD: La seal del error es propagada hacia atrs usando los pesos de
la red y ajustando los pesos.

FORWARD

BACKWARD

MTODO DE APRENDIZAJE (3)

TASA DE APRENDIZAJE ()
Es la encargada de la velocidad en que son modificados los pesos en cada una
de las iteraciones del algoritmo
Toma valores entre 0 y 1
Valor alto
Rpida minimizacin del error
Soluciones poco precisas e inestables

Valor bajo
Mayor precisin en la bsqueda de la minimizacin del error
Mayor cantidad de pocas pata ajustar el modelo
Sobreajuste por alto nmero de iteraciones del algoritmo

w( k ) = f `(e) x ( k )
Tasa de aprendizaje

MTODO DE APRENDIZAJE (4)

MOMENTUM
Trata de aumentar la tasa de aprendizaje sin producir inestabilidad
Trata de aumentar la velocidad de convergencia
Ayuda en los baches provocado por los mnimos locales
Amortigua las oscilaciones del error e durante el aprendizaje

Momentum

w(k ) = f `(e) x( k ) + w( k 1)

SOBREAJUSTE DE LA RED

Ocurre cuando la red se aprende los patrones de memoria


Produce una mala generalizacin del modelo a nuevos ejemplos
Se ajusta slo a los datos de entrenamiento

SOBREAJUSTE DE LA RED (2)

SOLUCIN: DETENCIN TEMPRANA


Busca encontrar el punto de equilibrio entre el nmero de pocas usado
para el entrenamiento y el sobreajuste de la red
Lo mide a travs de una comparacin entre el error en el conjunto de
entrenamiento y el conjunto de test

SOBREAJUSTE

FORTALEZAS

Tiene una alta aplicabilidad


Data Mining supervisado y no supervisado
Variadas reas de estudio
Industrial
Geologa
Biotecnologa y gentica

Aplicabilidad a soluciones complejas


Modelacin no lineal
Gran adaptabilidad a los inputs de la red

Trabaja tanto con variables categricas (transformadas) como continuas

DEBILIDADES

Los datos deben ser preprocesados


Uso de normalizaciones a intervalos definidos
EJ: Normalizacin intervalo [0,1]

Los resultados son valores continuos


Es difcil introducir variables categricas a pesar de ser transformadas

Poseen una enorme cantidad de parmetros


Hay enormes cantidades de combinaciones
Problema combinatorial respecto al nmero de combinaciones posibles entre los
valores de los parmetros de su arquitectura
Diferencias pequeas en la informacin de entrada pueden causar enormes
cambios en la salida

MODELOS SUPERVISADOS
REDES NEURONALES MLP

JAIME MIRANDA
(jmiranda@dii.uchile.cl)
Departamento de Ingeniera Industrial
Universidad de Chile

También podría gustarte