Construcción de Modelo1

Construccin de Modelos:
Existen varios tipos de modelos. Revisaremos aqu cmo construir algunos de

ellos y luego haremos una comparacin. Todas las construcciones aqu
revisadas son hechas con mtodos estadsticos. Esto significa que las
variables escogidas y la manera de mezclarlas se realiza con algoritmos bien
definidos, que utilizan la informacin de la muestra de construccin, y que
pueden ser implementados en el computador.
Modelos invariados:
Un modelo univariado es uno que usa una sola variable. Por ejemplo:
Si antigedad menor a 18 meses rechace. Si no, acepte.
Otro ejemplo de modelo univariado:
Si edad est entre 25 y 65 acepte. Si no rechace.
Para construir estos modelos se puede calcular el KS en la muestra de

construccin tomando para cada variable el mejor punto de corte. Finalmente el
modelo escogido es alguno con buen KS.
Imaginemos que en la base de construccin se calcularon los KS siguientes:
Esto significa que si se escoge Edad y sta tiene ese KS para el punto de corte
26,3 aos, entonces el modelo
Si edad <= 26,3 aos rechace. Si no acepte.
Debe ahora correrse este modelo sobre una muestra de testeo. Si el KS en la
muestra de testeo da 15,2, entonces 15,2 es el estimador de KS que tiene el
modelo.
Lo que sigue es muy importante:
Puede ser que jugando con el punto de corte se descubre que en la base de
testeo el punto de corte 23,7 aos da un KS mejor, por ejemplo un KS de 17,8.
Sin embargo, si se desea usar ese nuevo punto de corte entonces debe
testearse el modelo en otra muestra independiente para poder estimar el KS. Si
no, no vale el clculo como estimador de lo que ser la capacidad de
discriminacin con nuevos clientes o con otra base. Tercera advertencia: es la

misma advertencia que las dos anteriores ante el mismo error. Si no entiende
este error, entonces est preparado para cometer un error grave.
Modelos con puntaje lineal:
Un modelo con puntaje lineal requiere convertir todas las variables a
numricas, o usar slo aquellas que se traducen a nmeros. Por ejemplo,
habra que traducir la variable sexo con valores Masculino y Femenino a la
variable sexo_N con valores 0 y 1 respectivamente.
Un modelo de puntaje usa una suma de variables ponderadas. Este tipo de
mezclas se llama combinacin lineal. Por ejemplo, un modelo de puntaje es el
siguiente:
Puntaje = 1,2*Edad + 0,5*Antigedad 5,4*Cargas
Si Puntaje <= 30 rechace. Si no acepte.
Un modelo de puntaje asume implcitamente que existe una moneda de
intercambio que dice cunto de una variable es equivalente a cunto de otra,
cuando el resto de las variables estn fijas. Esto significa que si una variable
est complicada, esto puede ser compensado por otras. Esta suposicin es
muy discutida, pues hay factores como los de moralidad que si estn mal se
debe rechazar el cliente sin importar qu tan bien estn las otras variables. Sin
embargo, si la moralidad est bien, entonces otros factores tienen gran
importancia. Un criterio as, no puede ser puesto como suma ponderada de
factores.
Los mtodos de construccin de modelos de puntaje tratan de encontrar los
mejores coeficientes posibles de manera que la capacidad de discriminacin
del modelo sea mxima. Para esto, normalmente se calculan para cada
variable promedios de las variables para clientes malos y los promedios de las
variables de los clientes buenos. Adems se calculan las dos matrices de
covarianzas, la para clientes malos y las para clientes buenos. Usando los
promedios y las covarianzas puede encontrarse una nueva variable que resulta
ser suma ponderada de las originales. Esa nueva variable es un mecanismo de
puntaje que puede tener un buen KS. Si para todas las variables tanto la
distribucin de clientes buenos como malos son normales, y ambos con la
misma covarianza, entonces el mecanismo es ptimo. Existen otra gran
variedad de otros mtodos que son variaciones del anterior. No est claro cul
es el mejor, pero para datos normales (gaussianos), el descrito con la
covarianza es el ptimo.
Modelos con rboles:
La construccin de un rbol se hace por etapas. En cada etapa se selecciona
una de las variables ms discriminantes y de acuerdo a ella se segmenta lo
que queda de la muestra en dos.
Tomemos como ejemplo esta mini muestra (sacada de [2]) de construccin con
12 clientes (6 buenos y 6 malos), y cinco variables: Salario, Casa Propia, Auto
Propio, Edad y Estado Civil.
Esta muestra es extremadamente chica como para hacer nada serio, pero
permite ilustrar los conceptos bsicos. Adems, este ejemplo juguete permite
calcular a mano todo lo que sea necesario, y as asegurarse que uno ha
entendido el algoritmo de construccin de rboles.
Tomemos adems esta segunda muestra con 8 clientes (4 buenos y 4 malos), y
las mismas cinco variables. Esta ser nuestra muestra para testeo.
Los KS de cada variable junto a su desviacin estndar, segn la muestra de

construccin, son:
Claramente la desviacin es enorme. Esto se debe al tamao extremadamente

pequeo de la muestra. Aun as, la variable Salario es la ms discriminante.
Si escogemos Salario y segmentamos por esa variable, obtenemos el siguiente
rbol
Este es un rbol muy elemental. En el segmento izquierdo estn aquellos

clientes con salario <= 150. De la muestra de construccin quedan 6 clientes
(es decir 41,7% de los clientes que estn en la muestra), y estos se reparten en
uno bueno y 4 malos. En el segmento derecho estn aquellos clientes con
salario mayor a 150. Hay un total de 7, de los cuales 5 son buenos y 2 son
malos. Este modelo tiene un KS de 50%. Ambos segmentos pueden seguir
segmentndose. Sin embargo, dado el error lo dejamos hasta ac.
Ahora, es muy importante medir el KS del modelo y su desviacin en la
muestra de testeo. Eso son los valores que importan. Usando la muestra de
testeo, tenemos que cinco casos quedan en el segmento izquierdo y tres en el
derecho:
O sea el KS es slo de 25%. Esto quiere decir que si tomamos otra muestra
cualquiera de clientes, independiente de la muestra de construccin, el KS
andar alrededor de 25%, pudiendo variar desde 0 hasta 71% en la gran
mayora de los casos.
Modelos no lineales:
Existen varios tipos de modelos no lineales. Uno de los tipos no lineales es el
de rboles de decisin. Otros son las redes neuronales, los algoritmos
genticos y muchos otros.
Los modelos de redes neuronales asumen que todas las variables son
numricas. Si no lo son, o slo se trabaja con las numricas o bien se
convierten a numricas de acuerdo a un criterio especificado. El modelo
neuronal busca una combinacin de variables con sumas ponderadas y
funciones umbrales (si el valor es ms all de cierto umbral sale uno, si no sale
cero).
Los modelos genticos tambin requieren variables numricas. Los algoritmos
recombinan criterios creando nuevos a partir de criterios bsicos con mtodos
similares a la creacin de molculas recombinando partes de molculas y
haciendo mutaciones. En este caso, se mutan partes de frmulas y se crean
nuevas juntando frmulas. Aquellas frmulas con mejor capacidad de
discriminacin van sobreviviendo, y vuelven a mutarse y recombinarse.
Eventualmente se llegan a buenas frmulas que corresponden a criterios con
buena capacidad de discriminacin.
Anlisis comparativo de diferentes tipos de modelos y algoritmos
Naturalidad
Un aspecto muy importante de un modelo es que sea natural para la mente

humana. Que exprese en un lenguaje fcil de comprender las caractersticas
esenciales de los diferentes patrones de riesgo en la cartera. Muchas veces
este producto de un modelo es el esencial. Permite hacerse un claro
diagnstico del estado de la cartera, encontrar oportunidades y hacer ajustes a
las polticas. En general, para el anlisis de riesgo crediticio, los modelos tipo
rbol son ms naturales que otros. Esta mayor naturalidad se debe a que
encontrar un rbol discriminante es equivalente a encontrar segmentos con

diferentes niveles de riesgo, unos bien distintos de los otros. Por ejemplo, el
segmento de los menores a 25 aos y sin casa propia no es ms que un nodo
de un rbol. Esta manera de concebir el riesgo, describiendo segmentos con su
riesgo asociado, es una manera natural e intuitiva. Es una manera
ecolgicamente vlida, es decir, est expresada en un formato natural a la
mente.
Capacidad de discriminacin
Un estudio internacional, (ver [1]) llevado a cabo durante 4 aos por varios
centros estadsticos universitarios e industriales de varios pases de la
Comunidad Europea que compararon varias decenas de mtodos, concluy
que los mtodos de rboles de decisin son los de mejor capacidad de
discriminacin en crdito. De 23 algoritmos probados, de los cuales 5 eran de
rboles de decisin, el mejor result ser de rbol de decisin y tres algoritmos
de rboles estaban entre los seis primeros lugares. El estudio concluy que
parte de la razn del xito (de los rboles) en esta rea es sin lugar a dudas
que los mtodos de rboles de decisin pueden manejar ms naturalmente con
una gran cantidad de atributos binarios o categricos (siempre que el nmero
de alternativas sea pequeo). Ellos tambin incorporan trminos de interaccin
en su desarrollo. Y, quizs ms significativamente, ellos son un espejo del
proceso de decisin humana.
Estabilidad, simplicidad y comunicabilidad
Aparte de la capacidad de discriminacin de un modelo, y en particular de un

modelo tipo rbol, es muy importante considerar la estabilidad, simplicidad y
comunicabilidad.
Estabilidad significa que en muestras independientes sus indicadores de
discriminacin no varen mucho. Naturalmente, esto depende del tamao de la
muestra con que se construy el modelo. Pero tambin depende si se intent
sobre ajustar la informacin, llegando hasta segmentos con muy pocos
casos. Otra prueba importante de estabilidad es ver cuntos varan los
indicadores medidos en diferentes condiciones de stress (por ejemplo, sacando
clientes malos muy evidentes). Otra prueba adicional de estabilidad es
determinar cmo se comportan los indicadores a travs del tiempo.
Simplicidad significa que cada vez que hay dos modelos o rboles con similar
capacidad de discriminacin y estabilidad, es preferible el ms simple: con
menos variables, menos condiciones, y con segmentos que hagan sentido.
Comunicabilidad significa que el rbol puede resumirse en algunos criterios o

segmentos fciles de interpretar y relatar a terceros. Esto asegura que si hubo
algn error en el proceso de construccin, o se han producido cambios
macroeconmicos o cambios en el mercado objetivo, entonces ser fcil
detectar esos problemas. La comunicabilidad facilita el seguimiento y la
capacidad de hacer ajustes oportunos, mucho antes que errores o desajustes
sean muy evidentes.
Inclusin de variables indirectas
La construccin de un buen modelo, sea ste tipo rbol o no, depende de la

inclusin de variables significativas que no siempre est explcitamente en la
informacin original. Por ejemplo, variables como:
Nmero de veces con mora sobre 30 das en los ltimos 6 meses

Altura mxima de mora en los ltimos 3 meses
Saldo actual / saldo promedio en los ltimos 3 meses, etc.
Es importante incluir un gran conjunto de estas variables y echarlas a competir

con las otras. As el algoritmo de construccin las tendr en cuenta tanto
separadamente para toda la muestra de construccin como en cada uno de los
segmentos particulares que se vayan definiendo.
Determinacin de niveles de riesgo para diferentes segmentos y puntos
de corte segn rentabilidad.
Un rbol contiene varios segmentos finales. Cada segmento tiene una

combinacin de clientes buenos y clientes malos. El nivel de riesgo de cada
segmento se obtiene contando los clientes buenos y malos que caen en el
segmento, y calculando sus proporciones.
Retomemos el ejemplo 3. En el nodo izquierdo, que corresponde al segmento
edad menor a 25 aos hay 400 clientes buenos y 200 malos. Por lo tanto la
tasa de malos es 33,3% y la de buenos es 66,6%. En el nodo del medio
correspondiente al segmento de clientes con edad igual o mayor a 25 aos y
solteros, hay 800 buenos clientes y 200 malos. Por lo tanto la tasa de malos es
20%. En el otro nodo, el de la derecha, correspondiente a clientes con edad
igual o mayor a 25 aos y casados, hay 8300 clientes buenos y 100 malos. Es
decir, la tasa de malos es 1,2%.
El mismo rbol puede tener varios puntos de corte. Por ejemplo, podemos
Aceptar todos
Rechazar a los con edad menor a 25 aos
Rechazar a los con edad menor a 25 aos o a los solteros con edad 25
aos o ms
Rechazar a todos
Las otras combinaciones no son naturales de acuerdo al rbol. Para cada corte
tendremos un KS, y su correspondiente desviacin. El corte ptimo se decide
con la muestra de construccin.
Una vez escogido el corte, se evalan todos los clientes de la muestra de
testeo. Se cuentan cuntos clientes buenos y malos caen en la zona de
rechazo (menor al corte), y con esos datos se obtiene una estimacin del KS.
Ajustes
Inclusin de clientes negados
La informacin de clientes negados es muy importante para detectar

posibilidades de ampliar los criterios crediticios actuales. Es muy posible que se
hayan estado rechazando clientes que podran haber tenido un buen
comportamiento. Varios de esos clientes deben tener ciertos perfiles, es decir,
pertenecer a ciertos segmentos bien definidos. El problema es que hay que
detectar cules son esos segmentos. Una vez detectados, pueden relajarse
criterios crediticios para pasar a aceptar clientes en esos segmentos.
Informacin necesaria que debe tenerse para poder usarse la informacin de
negados
El mayor problema para implementar la estrategia de incluir negados en la
construccin del modelo es la escasez de informacin sobre los negados. Es
necesario haber dejado almacenada toda la informacin al momento de la
presentacin, tal como con los clientes aceptados. Esto incluye informacin de
moralidad proveniente de centrales de riesgo, informacin demogrfica y
financiera. Si no est esta informacin relativamente completa, una estrategia
es intentar conseguirla con terceros. Por ejemplo, con centrales de riesgo.
Por otra parte, es importante conseguir informacin de comportamiento de esos
clientes con operaciones crediticias similares que pudieran haber conseguido
en esos mismos momentos con terceros. Esta informacin puede conseguirse
trabajando con centrales de riesgo.
Compra de informacin de negados almacenada en centrales de riesgo

externas
Para que la adquisicin en centrales de riesgo sea efectiva debe tener los
siguientes requisitos:
Debe ser informacin de los clientes negados o de una muestra aleatoria

de negados suministrado por el constructor del modelo, no por la central
de riesgo.
La informacin de iniciacin debe ser al momento (a la misma fecha) en
que se neg el cliente. Este punto es delicado, pues no es
necesariamente fcil para la central de riesgo conseguirla. El trabajo es
no trivial, pues diferentes clientes son negados en diferentes fechas.
Para la central le es fcil conseguir la informacin de todos lo clientes a
la misma fecha.
La informacin de comportamiento de cada clientes es desde el
momento de negacin en adelante, y ojal haciendo seguimiento a una
operacin crediticia conseguida con terceros que sea similar a la
negada.
Ajustes segn definicin de buenos y malos

Qu pasa si se cambia la definicin de buenos versus malos, despus que el
modelo est terminado? Es necesario rehacer todo de nuevo?
Es normal hacer ajustes a la definicin de buenos y malos. Por ejemplo, para
iniciacin, de una definicin de bueno como aquel cliente que durante los dos
aos iniciales del crdito nuca pas de mora de 90 das, cambiar una definicin
de bueno como aquel cliente que durante los dos aos iniciales del crdito
nuca pas de mora de 120 das. Otro cambio, es definir como bueno aquel
cliente que durante el primer ao inicial del crdito nuca pas de mora de 90
das.
Todos estos cambios, significan reclasificar la cartera. Luego se pasa toda la
muestra de testeo por el modelo ya construido. Lo nico que cambia es la
proporcin de buenos y malos en cada segmento final del rbol. Con esa nueva
contabilidad de nuevos y malos se puede calcular directamente el nuevo
estimador de KS.

Construcción de Modelo1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Construcción de Modelo1

Cargado por

Copyright:

Formatos disponibles

Construccin de Modelos:

Existen varios tipos de modelos. Revisaremos aqu cmo construir algunos de

Si antigedad menor a 18 meses rechace. Si no, acepte.

Otro ejemplo de modelo univariado:

Si edad est entre 25 y 65 acepte. Si no rechace.

Para construir estos modelos se puede calcular el KS en la muestra de

discriminacin con nuevos clientes o con otra base. Tercera advertencia: es la

Los KS de cada variable junto a su desviacin estndar, segn la muestra de

Claramente la desviacin es enorme. Esto se debe al tamao extremadamente

Este es un rbol muy elemental. En el segmento izquierdo estn aquellos

Anlisis comparativo de diferentes tipos de modelos y algoritmos

Un aspecto muy importante de un modelo es que sea natural para la mente

encontrar un rbol discriminante es equivalente a encontrar segmentos con

Estabilidad, simplicidad y comunicabilidad

Aparte de la capacidad de discriminacin de un modelo, y en particular de un

Comunicabilidad significa que el rbol puede resumirse en algunos criterios o

Inclusin de variables indirectas

La construccin de un buen modelo, sea ste tipo rbol o no, depende de la

Nmero de veces con mora sobre 30 das en los ltimos 6 meses

Es importante incluir un gran conjunto de estas variables y echarlas a competir

Un rbol contiene varios segmentos finales. Cada segmento tiene una

La informacin de clientes negados es muy importante para detectar

Compra de informacin de negados almacenada en centrales de riesgo

Debe ser informacin de los clientes negados o de una muestra aleatoria

Ajustes segn definicin de buenos y malos

También podría gustarte