Datamining 2

MODELOS SUPERVISADOS
REDES NEURONALES MLP
JAIME MIRANDA
(jmiranda@dii.uchile.cl)
Departamento de Ingeniera Industrial
Universidad de Chile
DISCRIMINANTES BSICOS
CONCEPTOS BSICOS
Medida de distancia
Prototipo o centro de clase ms cercana
Entre ms cerca mayor pertenencia de a la clase
Hipersuperficies
Clasificacin de acuerdo a si los objetos estn a uno u otro lado de una
hipersuperficie o conjunto de hiperplanos
X2
X1
NOCIN BSICA DE CLASIFICACIN
Regla de Bayes
p ( X L / C K ) * p (C K )
p (C K / X L ) =
p( X L )
Donde:
Ck denota la clase k del atributo elegido como base.

XL son los atributos a los cuales se condicionara en probabilidad.
TCNICAS EMPLEADAS
MTODOS SUPERVISADOS
Redes neuronales
rboles de decisin
SVM
MTODOS NO SUPERVISADOS
Fuzzy C-means (Cluster)
Mapas Kohonen
NUEVAS TCNICAS
MCS (Multiclassifier Systems )
Clamping (Heurstica seleccin de atributos)
DIAGRAMA DE APRENDIZAJE SUPERVISADO
Respuesta deseada
MAESTRO
INFORMACIN
RELACIONES
MEDIO
AMBIENTE
Vector que describe

el Medio Ambiente
Respuesta calculada
CONOCIMIENTO
DEL NEGOCIO
SISTEMA DE
APRENDIZAJE
Error
DIAGRAMA DE APRENDIZAJE NO SUPERVISADO
INFORMACIN
MEDIO
RELACIONES
AMBIENTE
CONOCIMIENTO
DEL NEGOCIO
Respuesta calculada
Vector que describe

el Medio Ambiente
SISTEMA DE
APRENDIZAJE
Error
Salida del
Sistema
Sistema no supervisado
ALGUNOS CASOS EXITOSOS DMGROUP
Scoring de riesgo crediticio para mutuos hipotecarios

Tcnica de minera usada : Red neuronal multicapa
Modelo predictivo de fugas de cuentacorrentistas

Tcnica de minera usada: SVM
Modelo predictivo de fugas de cuentacorrentistas

Tcnica de minera usada: Red neuronal multicapa especializada
Modelo predictivo de ofertas focalizadas

Tcnica de minera usada: Red neuronal multicapa rbol de decisin
Modelo deteccin de fraudes en transacciones electrnicas de fondos

Tcnica de minera usada: MCS
SVM
rboles de decisin
Mapas de Kohonen
CASO DE ESTUDIO
PROBLEMA: ALTO NUMERO DE FRAUDES EN TARJETAS DE CRDITO

Construir un modelo de prediccin de fraudes en tarjetas de crdito
La empresa posee un Datawarehouse con la informacin transaccional y de
caracterizacin (perfil) de los clientes
La base consta de 2.000 clientes descritos por 15 variables
Se desea encontrar un patrn caracterstico que describa el comportamiento de
fraude
ALGUNAS DEFINICIONES
APRENDIZAJE
El aprendizaje es una habilidad de la que disponen gran parte de los sistemas
naturales para adaptarse al entorno en el que vive.
Adquisicin de conocimiento de un proceso por medio del anlisis, ejercicio o
experiencia.
Un proceso por el cual los parmetros libres del sistema se adaptan a travs de
un proceso continuo de estimulacin a partir del entorno en el que el sistema
est inmerso.
TEORA ESTADSTICA
ENFOQUE BAYESIANO
p ( X L / C K ) * p (C K )
p (C K / X L ) =
p( X L )
DONDE:
P(C ) = 1
i
P( X k ) = 1
Ck denota la clase k del atributo elegido como base.

XL son los atributos a los cuales se condicionara en probabilidad.
TEORA ESTADSTICA (2)
REGLA DE DECISIN DE BAYES
Xk pertenece a la clase Cj si y solo si:
g ( xk ) > g ( xk )
P (C j / xk ) > P (Ci / xk )
CLASIFICACIN LINEAL
f: X
X= (x1, x2,, xn )
EJEMPLO: Clasificacin binaria
f( X) 0
Clase 1
f( X) 0
Clase 2
CLASIFICACIN LINEAL (2)
f (X ) = w x
+b
Clase 1
Saldo
Clase 2
w x
+b = 0
w
b
Transacciones
MODELO PERCEPTRN
ALGUNAS NOCIONES
Propuesto en 1956 por Frank Rosenblatt.
Fue objeto de gran inters a comienzos de los 60s.
Primer algoritmo iterativo para clasificacin lineal.
Este algoritmo garantiza encontrar un hiperplano separador de clases, para
datos linealmente separables.
Unidad bsica de la arquitectura de las redes neuronales.
Se basa en una representacin neuronal biolgica.
MODELO PERCEPTRN (2)
MODELO
Una neurona con pesos sinpticos y nivel umbral ajustable.
Neurona biolgica.
PROPSITO
Clasificar estmulos externos de un objeto respecto a una clase.
APRENDIZAJE
Determinar el vector de pesos ptimo (w) que clasifique bien a cada objeto.
ELEMENTOS BSICOS
UNIDADES DE ENTRADA
Elementos que estimulan la red.
Atributos o variables de entrada.
CONEXIONES
Por las que se propaga la seal que conforma el patrn.
Pesos wi indican que tan fuerte es el atributo.
COMBINADOR LINEAL
Capta las seales y las combina en una sola.
FUNCIN DE ACTIVACIN
Activa o no la seal.
ARQUITECTURA PERCEPTRON
MODELO GENERAL
MODELO PERCEPTRON
DEFINICIONES
Vector de pesos
W = w 0 , w 1 ,..... w n ,
Conjunto de ejemplos
E =
(x
)(
Salidas del modelo
t u = +1
, t 1 , x 2 , t 2 ,......... x p , t
t u = 1
),
ALGORITMO PERCEPTRON
1.
Inicializar W=(w1,...wn) = 0.
2.
Seleccionar un ejemplo Xu=(xu,tu) en orden cclico o al azar.
3.
Si W clasifica correctamente a Xu, es decir:

W X
W X
4.
>0
<0
t u = +1
No tomar ninguna accin
y
t u = 1
Si clasifica mal:
W " = W + t u xu
5.
Volver a 2.
MARGEN EN FORMA GRFICA

u = t u * ( w x u +b )
Clase 1
Saldo
Clase 2
Antigedad
PRINCIPALES TEOREMAS PERCEPTRON
CONVERGENCIA
El algoritmo perceptron converge siempre en tiempo finito, para un conjunto
separable y finito de ejemplos
PESOS CCLICOS ACOTADOS

El conjunto de pesos que algoritmo recorre para cualquier problema, sea ste
separable o no, es acotado
PRINCIPALES TEOREMAS PERCEPTRON (2)
EN TIEMPO FINITO EL ALGORITMO PRODUCIR:

Un vector de pesos que satisfaga todos los ejemplos
Conjunto linealmente separable
Volver a visitar un vector de pesos
Conjunto no linealmente separable
Test de separabilidad lineal

No se conoce cota de tiempo
PROBLEMAS:
Costoso: almacenar pesos pasados
APLICACIN : COMBINADORES LINEALES:
CANCELADORES DE RUIDO (ADALINE)

Fueron introducidos por Widrow
Limpieza de una seal acstica que posee ruido
Uso de una estimacin de una serie temporal
Seal sucia
Seal limpia
ESQUEMA GENERAL CANCELADOR DE RUIDO
Salida del
Sistema
S+n0
Seal limpia
Salida del
filtro
Fuente de ruido
n1
Filtro
Adaptivo
Error
Cancelador de Ruido
BSQUEDA DE PESOS PTIMOS
SEPARABILIDAD EN FUNCIONES LINEALES
X1
1
0
1
0
FUNCIO N BO O LEANAS
X2
AND
1
1
1
0
0
0
0
0
X2
X1
Los valores amarillos valen uno (TRUE)

Los valores azules valen cero (FALSO)
SEPARABILIDAD EN FUNCIONES LINEALES (2)
X1
1
0
1
0
FUNCIO N BO O LEANAS
X2
OR
1
1
1
1
0
1
0
0
X2
X1
Los valores amarillos valen uno (TRUE)

Los valores azules valen cero (FALSO)
UN PEQUEO PROBLEMA
X1
1
0
1
0
FUNCION BOOLEANAS
X2
XOR
1
0
1
1
0
1
0
0
X2
?
X1
Aplicaciones en la industria
Retencin o fuga de clientes
Deteccin de fraudes
Scoring
Fortalezas
Fuerte en lo referente a la modelacin no lineal
Trabaja tanto con variables categricas como continuas
Alta aplicabilidad (variadas reas de estudio)
Debilidades
Difcil interpretacin de las relaciones entre las variables (Heursticas)
Sobreajuste
REDES NEURONALES MLP (2)
La gran mayora de problemas no son linealmente separables

No es posible usar el modelo perceptron. Modelo limitado
No existe ningn hiperplano separador.
Se buscan funciones no lineales que definen las hipersuperficies
PRINCIPALES TEOREMAS
REPRESENTACIN DE FUNCIONES
Cualquier funcin booleana de un nmero finito de entradas puede
representarse en forma exacta por un patrn multicapas
HETCH-NIELSEN
Cualquier funcin continua dentro de un cubo n-dimensional puede
implementarse en forma exacta por una red con una capa oculta
HORNIK
La funcin puede ser representada con una red multicapa, siempre y
cuando tenga un nmero adecuado de unidades escondidas
KOLGOMOROV
Una capa oculta es suficiente para la aproximacin de cualquier funcin
ARQUITECTURA RED NEURONAL MLP
Atributos
Clases
x1
x2
...
xi
1
0
..
.
Capa de salida
Capa de entrada
Capa oculta
ROL DE LAS CAPAS OCULTAS
Construyen las distintas dimensiones de los polgonos (fronteras).

Si el polgono posee una forma muy complicada necesita ms capas
escondidas.
Muchas capa produce sobreajuste.
Pocas capas no puede ser modelado el problema.
Regla Aproximada~ Usar el promedio de

las neuronas de entrada y de salida
ROL DE LAS CAPAS OCULTAS: FORMA GRAFICA
ESQUEMA GENERAL: FUNCIONES DE ACTIVACIN
Salida del
Sistema
Funcin de
Activacin (Z)
Salida
MLP (Y)
MLP
Error (e)
FUNCIONES DE ACTIVACIN
FUNCIONES SIGMOIDES
Logstica (0,1)
Tangente hiperblica (-1,1)
---
FUNCIONES DE ACTIVACIN: FORMAS GRFICAS
Logstica
Tangente Hiperblica
MTODO DE APRENDIZAJE
RETROPORPAGACIN DEL ERROR

Se explora el grado de influencia de los pesos en el error
Estos se ajustan desde la capa de salida hacia la capa de entrada
Necesita que las funciones de activacin sean diferenciables
Error
Salida Calculada
Salida Deseada
MTODO DE APRENDIZAJE (2)
RETROPORPAGACIN EN DOS PASADAS

FORWARD: Con los pesos fijos se calcula la respuesta de las distintas unidades
(capa oculta y de salida) y se determina el error.
BACKWARD: La seal del error es propagada hacia atrs usando los pesos de
la red y ajustando los pesos.
FORWARD
BACKWARD
TASA DE APRENDIZAJE ()
Es la encargada de la velocidad en que son modificados los pesos en cada una
de las iteraciones del algoritmo
Toma valores entre 0 y 1
Valor alto
Rpida minimizacin del error
Soluciones poco precisas e inestables
Valor bajo
Mayor precisin en la bsqueda de la minimizacin del error
Mayor cantidad de pocas pata ajustar el modelo
Sobreajuste por alto nmero de iteraciones del algoritmo
w( k ) = f `(e) x ( k )
Tasa de aprendizaje
MOMENTUM
Trata de aumentar la tasa de aprendizaje sin producir inestabilidad
Trata de aumentar la velocidad de convergencia
Ayuda en los baches provocado por los mnimos locales
Amortigua las oscilaciones del error e durante el aprendizaje
Momentum
w(k ) = f `(e) x( k ) + w( k 1)
SOBREAJUSTE DE LA RED
Ocurre cuando la red se aprende los patrones de memoria

Produce una mala generalizacin del modelo a nuevos ejemplos
Se ajusta slo a los datos de entrenamiento
SOBREAJUSTE DE LA RED (2)
SOLUCIN: DETENCIN TEMPRANA

Busca encontrar el punto de equilibrio entre el nmero de pocas usado
para el entrenamiento y el sobreajuste de la red
Lo mide a travs de una comparacin entre el error en el conjunto de
entrenamiento y el conjunto de test
SOBREAJUSTE
FORTALEZAS
Tiene una alta aplicabilidad

Data Mining supervisado y no supervisado
Variadas reas de estudio
Industrial
Geologa
Biotecnologa y gentica
Aplicabilidad a soluciones complejas

Modelacin no lineal
Gran adaptabilidad a los inputs de la red
Trabaja tanto con variables categricas (transformadas) como continuas
DEBILIDADES
Los datos deben ser preprocesados

Uso de normalizaciones a intervalos definidos
EJ: Normalizacin intervalo [0,1]
Los resultados son valores continuos

Es difcil introducir variables categricas a pesar de ser transformadas
Poseen una enorme cantidad de parmetros

Hay enormes cantidades de combinaciones
Problema combinatorial respecto al nmero de combinaciones posibles entre los
valores de los parmetros de su arquitectura
Diferencias pequeas en la informacin de entrada pueden causar enormes
cambios en la salida
MODELOS SUPERVISADOS
JAIME MIRANDA
(jmiranda@dii.uchile.cl)
Departamento de Ingeniera Industrial
Universidad de Chile

Datamining 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Datamining 2

Cargado por

Copyright:

Formatos disponibles

MODELOS SUPERVISADOS

REDES NEURONALES MLP

NOCIN BSICA DE CLASIFICACIN

Ck denota la clase k del atributo elegido como base.

DIAGRAMA DE APRENDIZAJE SUPERVISADO

Vector que describe

DIAGRAMA DE APRENDIZAJE NO SUPERVISADO

Vector que describe

ALGUNOS CASOS EXITOSOS DMGROUP

Scoring de riesgo crediticio para mutuos hipotecarios

Modelo predictivo de fugas de cuentacorrentistas

Modelo predictivo de fugas de cuentacorrentistas

Modelo predictivo de ofertas focalizadas

Modelo deteccin de fraudes en transacciones electrnicas de fondos

PROBLEMA: ALTO NUMERO DE FRAUDES EN TARJETAS DE CRDITO

Ck denota la clase k del atributo elegido como base.

TEORA ESTADSTICA (2)

REGLA DE DECISIN DE BAYES

Xk pertenece a la clase Cj si y solo si:

EJEMPLO: Clasificacin binaria

CLASIFICACIN LINEAL (2)

MODELO PERCEPTRN (2)

Salidas del modelo

Seleccionar un ejemplo Xu=(xu,tu) en orden cclico o al azar.

Si W clasifica correctamente a Xu, es decir:

MARGEN EN FORMA GRFICA

PRINCIPALES TEOREMAS PERCEPTRON

PESOS CCLICOS ACOTADOS

PRINCIPALES TEOREMAS PERCEPTRON (2)

EN TIEMPO FINITO EL ALGORITMO PRODUCIR:

Test de separabilidad lineal

Costoso: almacenar pesos pasados

APLICACIN : COMBINADORES LINEALES:

CANCELADORES DE RUIDO (ADALINE)

ESQUEMA GENERAL CANCELADOR DE RUIDO

BSQUEDA DE PESOS PTIMOS

SEPARABILIDAD EN FUNCIONES LINEALES

Los valores amarillos valen uno (TRUE)

SEPARABILIDAD EN FUNCIONES LINEALES (2)

Los valores amarillos valen uno (TRUE)

REDES NEURONALES MLP

REDES NEURONALES MLP (2)

La gran mayora de problemas no son linealmente separables

Se buscan funciones no lineales que definen las hipersuperficies

ARQUITECTURA RED NEURONAL MLP

ROL DE LAS CAPAS OCULTAS

Construyen las distintas dimensiones de los polgonos (fronteras).

Regla Aproximada~ Usar el promedio de

ROL DE LAS CAPAS OCULTAS: FORMA GRAFICA

ESQUEMA GENERAL: FUNCIONES DE ACTIVACIN

Tangente hiperblica (-1,1)

FUNCIONES DE ACTIVACIN: FORMAS GRFICAS

RETROPORPAGACIN DEL ERROR

MTODO DE APRENDIZAJE (2)

RETROPORPAGACIN EN DOS PASADAS

MTODO DE APRENDIZAJE (3)

MTODO DE APRENDIZAJE (4)

Ocurre cuando la red se aprende los patrones de memoria

SOBREAJUSTE DE LA RED (2)

SOLUCIN: DETENCIN TEMPRANA

Tiene una alta aplicabilidad

Aplicabilidad a soluciones complejas

Trabaja tanto con variables categricas (transformadas) como continuas