Está en la página 1de 23

Riesgo de Crédito

Taller

Cristián Bravo
2019
Sebastián Orozco

Temática

1. Introducción: Proceso KDD.


2. Introducción a Rapid Miner
3. Limpieza de Datos
4. Transformación de Atributos
5. Selección de Atributos
Clase de
6. Creación de Modelos Hoy
7. Implementación de Modelos
8. Estrategias de Punto de Corte

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 1
Riesgo de Crédito

Proceso KDD

Transformación Data Mining

Preprocesamiento

Selección
Patrones

Datos Interpretación y
transformados
Datos pre- Evaluación
procesados
Datos se-
Datos leccionados

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

CREACIÓN DE MODELOS

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 2
Riesgo de Crédito

Regresión Logística.

 Alphonse Quetelet (estudio de poblaciones, S. XIX):


– Método clásico: Regresiones lineales.
– Poblaciones no crecen indefinidamente.
– Problema: ¿Cómo ajustar a valores en rangos acotados?
– Solución: ¡Decirle a su pupilo que lo solucione!
 Pierre-Françoise Verhulst:
– Solución: Función Logística.

– Comportamiento correcto en poblaciones en Rusia, Bélgica, etc.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Construcción

• Problema con variable dependiente (p) binaria.


• X: Regresores explicativos (dependientes).
• Regresión lineal entrega valores entre [0 - ∞] .
• Solución: Utilizar función logística para modelar el
fenómeno, regresión lineal para modelar el “odd ratio”
(efecto en la probabilidad).

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 3
Riesgo de Crédito

Construcción (2)

• Ahora sí se tiene una variable que puede tomar cualquier


valor, por lo que se plantea el buscar para ella una
ecuación de regresión tradicional:

p
ln
 1 p se conoce como la función de enlace logit.

• Linealiza la relación entre probabilidad modelada y


componente sistemático.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Interpretación de Coeficientes

 De la ecuación:
– Aumento en X, con coeficiente positivo -> aumento en posibilidad
de evento.
– Aumento en X, con coeficiente negativo -> disminución en
posibilidad de evento.
 Coeficiente de sin variable (constante): “riesgo
intrínseco” a la población. Riesgo del modelo.
 Logit: “Odds ratio” para el elemento.

– Se utiliza para crear scores.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 4
Riesgo de Crédito

Entrenamiento de una Regresión Logística

 Los modelos deben ser entrenados siguiendo una


precaución importante:
– ¿Cómo balancear los errores o incorporar costos?
• Si los costos son dispares, esto se puede incorporar en la fase de
elección del punto de corte (implementación).
• Se desea construir un modelo que esté balanceado (no de más peso
a los errores de una clase que de la otra).
 Si poseo 70% de pagadores y 30% de no pagadores,
¿qué pasa?
– ¡Se está dando peso de “7 es a 3” a los pagadores!

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Balanceo de Muestras

 Debemos balancear la muestra para realizar esto.


– Balancear: Dar mismo “peso relativo” a los errores de una clase
por sobre otra.
– Pesos recomendados:
• Peso de 1 a los la clase con menos casos.
• Peso de “#malos/#buenos” para la clase con más casos.
 Rapid Miner entrega un proceso que realiza esto
automáticamente.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 5
Riesgo de Crédito

Balanceo de Muestras en Rapid Miner

 Opción a agregar: Cuánto suman los pesos en total.


En este caso, es el total de casos de la clase con
menos casos por el número de clases (2*548 = 1096).

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Generando una Regresión

 Rapid Miner posee varios tipos de regresiones


logísticas.

 Usaremos “Logistic Regression (Evolutionary)”.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 6
Riesgo de Crédito

Generando una Regresión (II)

 El operador es una implementación de la llamada


“Regresión Logística con Kernel” que utiliza Support
Vector Machines en el entrenamiento.
 Opciones:

Controlar
convergenci
a, usar
valor alto.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Resultados del Modelo

 Beta(Variable):
Coeficiente de la
variable.
 SE: Error estándar de
la variable.
 Wald: Estadístico de
Wald de la variable.
Valores pequeños (<3)
indican variable con
peligro de ser cero.
 Odds Ratios:
Proporción para
scores.
C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 7
Riesgo de Crédito

CREACIÓN DE MODELOS Y
VALIDACIÓN
C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Sobreajuste

 Se dice que un modelo M está sobre-ajustado, si


existe otro modelo m’ tal que:

– Bajo poder de predicción para muestras que no están


representadas por aquellas utilizadas para entrenar el modelo.
– Asociado a la perdida de generalidad del modelo desarrollado.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 8
Riesgo de Crédito

Evaluación y Validación de Modelos

 Es necesario validar los modelos en muestras


independientes para evitar el sobreajuste.
– Requiere dividir la muestra en una muestra de entrenamiento donde
se entrenará el modelo y luego probarlo en una nueva muestra.

 Se deben considerar varias puntos al evaluar el


desempeño de un determinado modelo:
– Tipos de errores y medidas de evaluación.
– Evaluación de costo de clasificación.

 Solución empírica: Crear a muestras independientes por


sobre el entrenamiento o coeficientes particulares.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Validación de Modelos

 Generalmente se tiene una sola base de datos, por lo que


se debe dividir en una base de datos de prueba y otra de
entrenamiento.
– Ambos conjuntos deben ser representativos con respecto a los datos
objetivos.
 Problemas:
– Si una clase no está representada en los datos de entrenamiento, el
modelo no tendrá un buen desempeño para la clase y no se medirá
bien el error asociado.
– Existe un trade-off entre la cantidad de datos considerados para el
conjunto de entrenamiento y de prueba.
• Es necesario un conjunto de entrenamiento mayor para estimar un buen
modelo.
• Es necesario un conjunto de prueba mayor para tener una buena
estimación del error.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 9
Riesgo de Crédito

Validación de Modelos (II)

 Se puede considerar un “Holdout estratificado”,


considerando la misma frecuencia de clases en cada
partición Entrenamiento / Prueba.
 Se puede considerar una selección con reemplazo de
la base de datos original, probando una cierta
cantidad de veces. El error estimado se puede
considerar como el promedio de errores para la
iteración.
 Se considera generalmente la regla 2/3 entrenamiento
y 1/3 prueba para la división estratificada de la base
de datos.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Proceso en Rapid Miner

 Rapid Miner entrega el procedimiento “simple


validation” que permite realizar esta tarea.

 Este proceso permite incorporar más procesos en su


interior.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 10
Riesgo de Crédito

Opciones Split Validation

 Split Ratio: % de casos a utilizar para la base de datos


de entrenamiento.
 Sampling Type: Como muestrear los casos.
– Stratified sampling iguala proporciones por clase.
– Shuffled sampling es aleatorio.
– Linear es sin mezclarlos (para series de tiempo).

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Operadores a Entregar a Split Validation

 Split Validation requiere dos operadores internos.


– Un proceso que entrene el modelo, es decir, un operador del tipo
regresión logística.
• Debe recibir ExampleSet y devolver Model.
• Además, debemos guardar el modelo creado para uso posterior.
– Un proceso que calcule los errores en la base de test.
• Debemos aplicar el modelo creado.
• Luego calculamos una medida de efectividad.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 11
Riesgo de Crédito

Split Validation

Aquí sale el
modelo y el
Aquí colocamos conjunto de
los modelos de test y debemos
entrenamiento. calcular
efectividad.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Proceso de Entrenamiento

 Dentro de este
proceso es necesario
incluir una regresión
logística.
 Además, necesitamos
algo para escribir el
modelo a un archivo.
– Los modelos se
almacenan en un archivo
.XML.
– Este archivo guarda los
parámetros, los
estadísticos, etc.
– Operador “Write Model”

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 12
Riesgo de Crédito

Proceso de Prueba

 Para la prueba,
necesitamos un
proceso que aplique
el modelo entrenado
en el proceso de
entrenamiento.
– El proceso debe aplicar
el modelo y devolver un
vector de desempeño
del mismo
(“PerformanceVector”).
C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Proceso de Testeo (II)

 Proceso “Apply Model” aplica el modelo de


entrenamiento y devuelve la base de datos con un
vector de “Resultados” (la salida del modelo).

 Recibe datos sin etiqueta (unl) y un modelo (mod), y


devuelve datos con etiqueta (lab) y el modelo (el
mismo que entró).
C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 13
Riesgo de Crédito

Proceso de Testeo (III)

 Se necesita ahora un proceso para generar medidas


de cuán bueno es el modelo.
 Para modelos con dos clases, se puede utilizar
“Binomial Classification Performance” que incluye
herramientas para medir como se comportan los
modelos cuando sólo hay dos clases.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Proceso de Testeo (IV)

 El criterio que se selecciona como principal es el


primero (en este caso).
 AUC mide el área bajo la curva ROC.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 14
Riesgo de Crédito

Proceso Final

 Ahora conectamos todo con las salidas


correspondientes.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Validación: Resultados

 AUC: Área bajo curva de performance. Valor entre 0 y 1,


mientras más alto mejor.
 Matriz de confusión: Errores cometidos al aproximar (%
acierto, error).
C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 15
Riesgo de Crédito

SELECCIÓN DE ATRIBUTOS

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Selección de Atributos: Método Forward

 Ahora podemos revisar como realizar selección de


atributos con un método Wrapper.
 Este operador también posee un operador interno que
evalúa el resultado.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 16
Riesgo de Crédito

Método Forward

 Maximal number of attributes: Cantidad máxima de


variables que quedarán.
 Stopping behavior: Cuando parar la selección. Se usa “sin
mejoras”, es decir, cuando incorporar atributos no es útil.
 Speculative rounds: Si “especular”, es decir, si tratar de
incorporar uno más por si mejorase.
– Problema de las búsquedas greedy.
 Parallelize learning process: Si correr en paralelo. Marcar
en computadores modernos de más de un núcleo.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Método Forward (II)

 Debemos decirle al método qué modelo usar.


 Es necesario que se obtenga una performance para
cada modelo.
– Ya creamos un proceso que calcula, debemos reconstruirlo:
– Split Validation (validación Holdout) 70% train.
• Train process: “Logistic Regression (Evolutionary)” con “dot” kernel.
• Test process: “Apply model” y luego “Performance (Binomial)”.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 17
Riesgo de Crédito

Resultados

 El proceso entrega los atributos que mejor


representan el fenómeno.

 Se elimina el ingreso, otras deudas y algunas de las


variables de educación.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Método Forward (III)

 Debemos pedirle que seleccione las variables


relevantes.
 Ahora se vuelve a correr el modelo con las variables
relevantes utilizando Select by Weights.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 18
Riesgo de Crédito

Resultados (III)

 Nuevas medidas de efectividad:

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

CONSTRUCCIÓN DE SCORES

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 19
Riesgo de Crédito

Escalamiento a Score

 Un score debe cumplir qué:


– El puntaje se encuentre en una escala más comprensible. (Ej: 1-
1000)
– Cada rango de atributo tendrá asociado un score positivo o
negativo. (Ej: Si edad entre 20 y 30, sumar 10)
– El score final debe ser la suma de los scores particulares.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Escalamiento a Score (II)

 El score más utilizado es el score logarítmico.

 La definición requiere recordar los siguientes


conceptos:
– Odds: Chance de ocurrencia de un evento. Ej: 50:1 implica que
uno de cada 50 usuarios será mal pagador.
– En la regresión logística, los odds corresponden a la suma de las
variables por su coeficiente beta, multiplicado por -1.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 20
Riesgo de Crédito

Escalamiento a Score (III)

 Definimos:
– Puntos para Duplicar las Odds (PDO): Cantidad de puntos
necesaria para duplicar las chances de ocurrencia del evento.
 Entonces, el score debe cumplir que:

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Escalamiento a Score (IV)

 Resolviendo el sistema anterior se tiene que:

 Ejemplo:
– Pdo = 20 puntos.
– En puntaje 600 quiero que se tengan chances de 50:1

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 21
Riesgo de Crédito

Escalamiento a Score (V)

 Resolviendo lo anterior:

 Así el score final resulta:

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Uso del Score

 Una de las ventajas del score es que permite dar una


respuesta al cliente acerca de las razones para el
rechazo.
 Necesitamos:
– Score por variable.
– Score base por variable.
 Supongamos que existen V variables, con kv
categorías cada una.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 22
Riesgo de Crédito

Uso del Score (II)

 El score corresponde a:

 El score neutro corresponde a eliminar todas las


variables.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Uso del score (III)

 Score Neutro:

 La idea es entonces calcular el valor del puntaje, por


variable, para los demás casos.
 Toda variable que tenga un valor de score por debajo
del score neutro, tiene asociado un riesgo alto.

C. Bravo-S. Orozco
Riesgo de Crédito
2019
División de Extensión Académica

Departamento de Ingeniería Industrial


Universidad de Chile
2019
Cristián Bravo-Sebastián Orozco 23

También podría gustarte