Está en la página 1de 9

Evaluación del Riesgo Crediticio, a través de Credit Scoring

mediante Regresión logística: Un caso de estudio

Estefanía Meza Saldaña (FCFM, BUAP), Dra. Hortensia Reyes Cervantes (FCFM, BUAP),
Dra. Blanca Rosa Pérez Salvador (UAM, Iztapalapa), Dr. Francisco Solano Tajonar Sanabria
(FCFM, BUAP).

Resumen— La Estadística tiene una importante crédito, y el deudor no puede pagar su deuda por
presencia dentro de las Ciencias Sociales, Economía diferentes factores, [6].
y Finanzas principalmente, aportando herramientas La modelación de la falla financiera, tanto en
para un mejor desarrollo de soluciones a problemas personas como en empresas, ha sido un problema
que se susciten dentro de estos ramos, con la ayuda
altamente estudiado en la literatura [1]. Se han
de los avances tecnológicos al aumentar la capacidad
de almacenaje de información y un mejor manejo de
desarrollado modelos matemáticos y estadísticos
bases de datos. que buscan predecir el desempeño que tendría una
En Finanzas, se encuentra el concepto de riesgo, el persona si se le otorgase un crédito mediante la
cual está relacionado con la posibilidad de que asignación de un puntaje estimado a partir de la
suceda un evento que se traduzca en pérdidas para información del cliente, llamando a esta
los participantes involucrados. Existen diferentes problemática como Credit Scoring, [7].
tipos de riesgo, entre ellos está, el riesgo de crédito, La utilización de modelos de Credit Scoring para
el cual se da cuando existe un contrato de crédito y la evaluación del riesgo de crédito, es decir, para
existe la posibilidad de que el deudor no pueda estimar probabilidades de incumplimiento y
pagar su deuda por diferentes factores.
ordenar a los deudores y solicitantes de
En las últimas décadas, se han desarrollado avances
dentro de la automatización de la decisión sobre la financiamiento en función de su riesgo de
aceptación o rechazo de una solicitud de crédito a incumplimiento se ha desarrollado dentro de las
través de modelos analíticos, matemáticos y últimas cuatro décadas [2], esto debido al
estadísticos que buscan predecir el desempeño que desarrollo de mejores recursos estadísticos y
tendría una persona si se le otorgase un crédito computacionales.
mediante la asignación de un puntaje estimado a Dentro de los métodos estadísticos más comunes
partir de la información disponible del cliente. A este para el desarrollo de Credit Scorings se
problema se le conoce como Credit Scoring. encuentran: Análisis Discriminante, Modelo de
Dentro de los métodos estadísticos que existen, se
Probabilidad Lineal, Modelo Logit, Modelos de
encuentran los Modelos Logit, método utilizado en
este trabajo para la estimación de la probabilidad de Programación Lineal, Redes Neuronales, Arboles
incumplimiento de un cliente para cierta entidad de decisión, entre otros.
financiera. La predicción del incumplimiento de un préstamo
tiene una utilidad muy práctica. De hecho, la
Palabras clave: Regresión logística, Credit identificación del riesgo de incumplimiento parece
Scoring, Riesgo de crédito, Modelos de Respuesta ser de suma importancia para los emisores de
Binaria. créditos financieros.
En este trabajo se desarrolla un modelo estadístico
I. INTRODUCCIÓN integrado para evaluar un préstamo otorgado por
una entidad financiera, mediante el análisis de la
En Finanzas, el riesgo está relacionado con la información que se tiene de cada uno de los
posibilidad de que suceda un evento que se clientes, a través de un Modelo de Regresión
traduzca en pérdidas para los participantes Logística, para obtener las características más
involucrados. Existen diferentes tipos de riesgo en significativas y poder establecer una regla de
los mercados financieros, entre ellos se aceptación, con la ayuda de una base de datos
encuentran, el riesgo de mercado, riesgo de alemana de 1994 (disponible en la red).
operación, riesgo de contraparte y riesgo de
crédito, este último es el que se maneja en este
trabajo, definiéndolo como caso particular del
riesgo de contraparte, cuando el contrato es uno de
II. PRELIMINARES Lo cual implica que la varianza de los
En esta sección se presenta parte de la teoría errores depende de las x’s y no es
principal para el desarrollo de un modelo de constante.
Regresión Logística para un Credit Scoring.  Normalidad: Por lo general es la
II.I Modelos para variables de Respuesta Binaria. distribución binomial, la que modela a
los errores.
Las variables dependientes binarias son muy  Predicciones sin sentido: Los valores
comunes dentro de las ciencias sociales, existen estimados de y en el modelo pueden ser
diversos modelos para el análisis de estas negativos o mayores a 1.
variables, a continuación se presentan: El Modelo II.I.II Modelos Probit y Logit.
de Probabilidad Lineal, el Modelo Probit y el Para evitar las limitaciones del Modelo de
Modelo Logístico. Probabilidad Lineal, se considera una clase de
II.I.I Modelo de Probabilidad Lineal modelos de la forma;
𝑃𝑃(𝑦𝑦 = 1|𝑥𝑥) = 𝐺𝐺 (𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥1 + ⋯ + 𝛽𝛽𝑘𝑘 𝑥𝑥𝑘𝑘 ).
De acuerdo a [5] la estructura del modelo aplicado En donde G es una función que toma valores
a una variable dependiente binaria es: estrictamente entre cero y uno para todos los
𝑦𝑦𝑖𝑖 = 𝑥𝑥𝑖𝑖𝑇𝑇 𝛽𝛽 + 𝜖𝜖𝑖𝑖 . números reales. Esto asegura que las
En donde 𝑥𝑥𝑖𝑖 es un vector de variables explicativas probabilidades de respuesta estimadas están
estrictamente entre cero y uno.
para la observación i-ésima, 𝛽𝛽 es un vector de
parámetros y 𝜖𝜖𝑖𝑖 es el término de error.
En el modelo Probit, G es la función de
distribución acumulada normal estándar,
Considerando a la Esperanza condicional de y, 𝑧𝑧
𝐸𝐸(𝑦𝑦|𝒙𝒙), se observa que para la observación i- 𝐺𝐺 (𝑧𝑧) = Φ(𝑧𝑧) = � 𝜑𝜑(𝑣𝑣)𝑑𝑑𝑑𝑑.
ésima: −∞
1� (−𝑧𝑧 2� )
𝐸𝐸 (𝑦𝑦𝑖𝑖 |𝑥𝑥𝑖𝑖 ) = [1×𝑃𝑃(𝑦𝑦𝑖𝑖 = 1|𝑥𝑥𝑖𝑖 )] Donde 𝜑𝜑(𝑧𝑧) = (2𝜋𝜋)− 2 𝑒𝑒 2 .
+ [0×𝑃𝑃(𝑦𝑦𝑖𝑖 = 0|𝑥𝑥𝑖𝑖 )]
= 𝑃𝑃(𝑦𝑦𝑖𝑖 = 1|𝑥𝑥𝑖𝑖 ). En el modelo Logit, G es la función logística:
Por lo tanto, el valor esperado de y dado x, es la exp(𝑧𝑧)
probabilidad de y = 1 dado x. 𝐺𝐺 (𝑧𝑧) = .
1 + exp(𝑧𝑧)
Por lo que reescribiendo el Modelo de
Probabilidad Lineal queda: II.I.III Modelo de Regresión Logística.
𝑃𝑃(𝑦𝑦𝑖𝑖 = 1|𝑥𝑥𝑖𝑖 ) = 𝑥𝑥𝑖𝑖𝑇𝑇 𝛽𝛽.
Generalmente los resultados binarios provienen
Interpretación: de una relación no-lineal entre la variable
“por cada unidad que incremente 𝑥𝑥𝑘𝑘 , el cambio respuesta y las variables independientes del
esperado en la probabilidad de que ocurra el modelo.
evento, es 𝛽𝛽𝑘𝑘 , manteniendo las variables restantes
constantes.” Dado que el modelo es lineal, un La Regresión Logística es un modelo
cambio unitario en 𝑥𝑥𝑘𝑘 siempre resultará en el probabilístico, y es una de las técnicas más
mismo cambio en la probabilidad. utilizadas en algunos modelos de Credit Scoring,
Existen diferentes desventajas en la aplicación de usando este modelo para calcular la probabilidad
este modelo, la principal es que: de que un sujeto sea merecedor de un crédito.
Las probabilidades estimadas pueden ser menores Se basa en la Función Logística, la cual expresa
a cero o mayores a uno. una relación entre dos o más variables de forma
Mientras que la interpretación de los parámetros que a cada elemento x del conjunto
no cambia al tener una variable de respuesta independiente, X, le corresponde un único
binaria, varias suposiciones del modelo son elemento 𝜋𝜋(𝑥𝑥) y está representada por:
quebrantadas, [5].
 Heterocedasticidad: La varianza 1 𝑒𝑒 𝑥𝑥 (1)
condicional de y dado x es: 𝜋𝜋(𝑥𝑥) = =
1 + 𝑒𝑒 −𝑥𝑥 1 + 𝑒𝑒 𝑥𝑥
𝑉𝑉𝑉𝑉𝑉𝑉(𝑦𝑦|𝑥𝑥) = 𝑃𝑃(𝑦𝑦 = 1|𝑥𝑥)[1
− 𝑃𝑃 (𝑦𝑦 = 1|𝑥𝑥)] Su gráfica es una curva S o Sigmoidea, tiene un
= 𝑥𝑥𝑥𝑥 (1 − 𝑥𝑥𝑥𝑥 ). único punto de inflexión en el que cambia la
concavidad y la rapidez del crecimiento ver la
Figura (2.1).
Y dado que las n observaciones son
independientes, la densidad conjunta o la
función de verosimilitud de (𝑌𝑌1 , 𝑌𝑌2 , … , 𝑌𝑌𝑛𝑛 ) es,
𝑙𝑙(𝛽𝛽0 , 𝛽𝛽1 ) = 𝑓𝑓1 (𝑦𝑦1 )×𝑓𝑓2 (𝑦𝑦2 )× ⋯×𝑓𝑓𝑛𝑛 (𝑦𝑦𝑛𝑛 )
𝑛𝑛

= � 𝜋𝜋(𝑥𝑥𝑖𝑖 )𝑦𝑦𝑖𝑖 (1 − 𝜋𝜋(𝑥𝑥𝑖𝑖 ))1−𝑦𝑦𝑖𝑖


𝑖𝑖=1
𝑛𝑛 𝑖𝑖 𝑦𝑦 1−𝑦𝑦𝑖𝑖
𝑒𝑒 (𝛽𝛽0+𝛽𝛽1 𝑥𝑥) 𝑒𝑒 (𝛽𝛽0+𝛽𝛽1 𝑥𝑥)
= �� � � �
1 + 𝑒𝑒 (𝛽𝛽0+𝛽𝛽1 𝑥𝑥) 1 + 𝑒𝑒 (𝛽𝛽0+𝛽𝛽1 𝑥𝑥)
𝑖𝑖=1
Este método busca las estimaciones de
Figura 2.1
𝛽𝛽0 y 𝛽𝛽1 que maximicen la función de
verosimilitud.
i. Transformación Logit
Aplicando logaritmo natural,
Esta transformación proviene de la
función logística, y tiene varias 𝐿𝐿(𝛽𝛽 ) = ln�𝑙𝑙 (𝛽𝛽0 , 𝛽𝛽1 )�
𝑛𝑛
ventajas por admitir variables
categóricas, además de tomar valores = ��𝑦𝑦𝑖𝑖 ln�𝜋𝜋(𝑥𝑥𝑖𝑖 )�
entre 0 y 1 para la variable dependiente. 𝑖𝑖=1
+ (1 − 𝑦𝑦𝑖𝑖 )ln(1 − 𝜋𝜋(𝑥𝑥𝑖𝑖 ))�
La forma específica del Modelo de Para encontrar el valor del vector 𝛽𝛽 que
Regresión Logística con una sola maximiza 𝐿𝐿(𝛽𝛽 ), se deriva 𝐿𝐿(𝛽𝛽 ) con
variable explicativa es: respecto a 𝛽𝛽0 y 𝛽𝛽1 , se igualan las derivadas
𝑒𝑒 (𝛽𝛽0+𝛽𝛽1 𝑥𝑥) a 0, y se obtienen las ecuaciones:
𝑛𝑛
𝜋𝜋(𝑥𝑥 ) =
1 + 𝑒𝑒 (𝛽𝛽0+𝛽𝛽1 𝑥𝑥) �[𝑦𝑦𝑖𝑖 − 𝜋𝜋(𝑥𝑥𝑖𝑖 )] = 0
La transformación se obtiene mediante
𝑖𝑖=1
un despeje de variables y queda:
y
𝑛𝑛
𝜋𝜋(𝑥𝑥 ) �[𝑦𝑦𝑖𝑖 − 𝜋𝜋(𝑥𝑥𝑖𝑖 )]𝑥𝑥𝑖𝑖 = 0
ln � �
1 − 𝜋𝜋(𝑥𝑥 ) 𝑖𝑖=1
(2)
= 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥. Estas expresiones no son lineales en los
parámetros 𝛽𝛽0 y 𝛽𝛽1 , por lo que se requieren
métodos especiales para su solución, en la
Por tanto, actualidad existen diferentes programas
𝜋𝜋(𝑥𝑥) estadísticos que realizan este cálculo, en
𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙[𝜋𝜋(𝑥𝑥)] = ln �1−𝜋𝜋(𝑥𝑥)� = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥.
este trabajo se utiliza SPSS en su versión
Teniendo así, propiedades de un número 22, [3].
modelo de Regresión Lineal.
El próximo paso es comprobar la
ii. Estimación del Modelo de Regresión significancia estadística de cada uno de los
Logística coeficientes de la regresión del modelo,
para esto existen dos métodos principales:
Tomando de referencia la Ecuación (1), el estadístico de Wald, y el estadístico G de
se debe desarrollar un método para razón de verosimilitud.
estimar 𝛽𝛽0 y 𝛽𝛽1 a partir de una muestra
de n observaciones, dado que en este El estadístico de Wald: Contrasta la
caso la variable respuesta es binaria, se hipótesis de que un coeficiente aislado es
usa el método de Máxima distinto de 0, siguiendo una distribución
Verosimilitud para la estimación de los Normal Estándar, [4].
parámetros. 𝐻𝐻0 : ∀𝑖𝑖, 𝛽𝛽𝑖𝑖 = 0 vs. 𝐻𝐻1 : ∃𝑖𝑖, 𝛽𝛽𝑖𝑖 ≠ 0
Usando el valor medio condicionado: 𝛽𝛽�𝚤𝚤
𝜋𝜋(𝑥𝑥𝑖𝑖 ) = 𝑃𝑃(𝑌𝑌𝑖𝑖 = 1|𝑥𝑥𝑖𝑖 ). 𝑊𝑊𝑊𝑊𝑊𝑊𝑊𝑊 = .
Donde 𝑌𝑌𝑖𝑖 es la respuesta asociada a la i- 𝜎𝜎�(𝛽𝛽𝑖𝑖 )
ésima observación, cuya función de La obtención de significancia indica que
densidad es, dicho coeficiente es diferente de cero y
𝑓𝑓𝑖𝑖 (𝑦𝑦𝑖𝑖 ) = 𝜋𝜋(𝑥𝑥𝑖𝑖 )𝑦𝑦𝑖𝑖 (1 − 𝜋𝜋(𝑥𝑥𝑖𝑖 ))1−𝑦𝑦𝑖𝑖 , merece la pena su conservación en el
𝑦𝑦𝑖𝑖 = 0,1. modelo.
El estadístico G de razón de • ���𝑘𝑘 es el promedio de las 𝜋𝜋𝑘𝑘
𝜋𝜋
verosimilitud: Con este método se va en el k-ésimo grupo.
contrastando cada modelo que surge de Si el modelo es correcto, la
eliminar cierta cantidad (h) de variables distribución del estadístico 𝐶𝐶̂ es
frente al modelo completo. El juego de aproximada a la distribución 𝜒𝜒 2 con
hipótesis es: g-2 grados de libertad.
𝐻𝐻0 : Las variables no influyen en el b) Estadísticos Influénciales
modelo, 𝛽𝛽𝑖𝑖 = 0 ∀𝑖𝑖 = 1, … , ℎ. Los residuales posibilitan
Vs. constatar si una observación es
𝐻𝐻1 : Las variables influyen en el influyente o no.
modelo, 𝛽𝛽𝑖𝑖 ≠ 0 ∀𝑖𝑖 = 1, … , ℎ. Residuales de devianza:
La ausencia de significación implica 𝑑𝑑𝑗𝑗
que el modelo sin la covariable no 𝑦𝑦𝑗𝑗
empeora respecto al modelo completo, = ± �2 �𝑦𝑦𝑗𝑗 ln � �
𝑚𝑚𝑗𝑗 𝜋𝜋�𝑗𝑗
por lo que dicha covariable debe ser
eliminada del modelo. + �𝑚𝑚𝑗𝑗
1/2
�𝑚𝑚𝑗𝑗 − 𝑦𝑦𝑗𝑗 �
iii. Evaluación del Modelo − 𝑦𝑦𝑗𝑗 �ln � ��� .
𝑚𝑚𝑗𝑗 �1 − 𝜋𝜋�𝑗𝑗 �
Para realizar la verificación del modelo,
Bajo la distribución 𝜒𝜒 2 con (J-
se utilizan diversos estadísticos:
p-1) grados de libertad.
a) Medidas de Confiabilidad del
Modelo Pseudo residuales: El
paquete estadístico SPSS
Devianza: Similar a la suma de
cuadrados del error de la ofrece valores del R-cuadrado
de Cox y Snell y del R-
Regresión Lineal:
cuadrado de Nagelkerke, los
𝑝𝑝�
𝐷𝐷 = −2 ∑𝑛𝑛𝑖𝑖=1 �𝑦𝑦𝑖𝑖 ln � � + cuales son análogos al R-
𝑦𝑦𝑖𝑖
cuadrado de una Regresión
1−𝑝𝑝� Lineal.
(1 − 𝑦𝑦𝑖𝑖 )ln � �� .
1−𝑦𝑦𝑖𝑖 o Cox y Snell:
2
Si D es mayor que cierto percentil �
𝐿𝐿𝑐𝑐 𝑁𝑁
de una variable aleatoria 𝜒𝜒 2 con 𝑅𝑅2 = 1 − � � .
(n-p) grados de libertad para un �0
𝐿𝐿
nivel de significancia dado, En donde:
entonces el modelo logístico es  𝐿𝐿�𝑐𝑐 es la función log-
confiable. verosimilitud del
Prueba de bondad de ajuste de modelo evaluado en
Hosmer- Lemeshov: En esta 𝛽𝛽� � �
0 , 𝛽𝛽1 , … , 𝛽𝛽𝑘𝑘 .
prueba se construyen tablas para  𝐿𝐿�0 es la función log-
comparar los resultados de verosimilitud del
estimación del modelo contra los modelo que solo
resultados reales de la muestra, incluye la constante.
haciendo la clasificación de éxitos
y fracasos para ambos casos. o Nagelkerke:
El estadístico se define como: Versión corregida del
𝑔𝑔
(𝑂𝑂𝑘𝑘 − 𝑛𝑛𝑘𝑘′ ���
𝜋𝜋𝑘𝑘 )2 R-cuadrado de Cox y
𝐶𝐶̂ = � ′ . Snell con valor
𝜋𝜋𝑘𝑘 (1 − ���
𝑛𝑛𝑘𝑘 ��� 𝜋𝜋𝑘𝑘 )
𝑘𝑘=1 máximo igual a 1.
En donde, c) Interpretación de los
• g es el número de grupos. Coeficientes
• 𝑛𝑛𝑘𝑘′ es el número total de El modelo logístico con una variable
observaciones en el k-ésimo independiente puede ser escrito como:
grupo. lnΩ(𝑥𝑥) = 𝛽𝛽0 + 𝛽𝛽1 𝑥𝑥
• 𝑂𝑂𝑘𝑘 es la suma de las Y en el k- En donde:
ésimo grupo. 𝑃𝑃(𝑦𝑦 = 1|𝑥𝑥)
Ω(𝑥𝑥 ) = .
𝑃𝑃(𝑦𝑦 = 0|𝑥𝑥)
Es la probabilidad (odds) del evento de un rango de 0 a 1, otorgando una medida de la
dado x. capacidad del modelo para discriminar entre los
Derivando, sujetos que experimentan el resultado de interés
𝜕𝜕lnΩ(𝑥𝑥) contra los que no lo hacen.
= 𝛽𝛽𝑘𝑘 .
𝜕𝜕𝑥𝑥𝑘𝑘
Dado que el modelo es lineal, 𝛽𝛽𝑘𝑘 , se Una regla general para la curva ROC es:
interpreta como: “Para un cambio  Si ROC=0.5 se sugiere no
unitario en 𝑥𝑥𝑘𝑘 , se espera que el logit discriminación.
cambie por un factor, 𝛽𝛽𝑘𝑘 , manteniendo  Si 0.7 ≤ ROC < 0.8 se considera
todas las demás variables constantes. discriminación aceptable.
 Si 0.8 ≤ ROC < 0.9 se considera
d) Valoración predictiva del Modelo discriminación excelente.
 Si ROC ≥ 0.9 se considera
Es de interés en la Estadística clasificar discriminación extraordinaria.
a los individuos dependiendo de que si
su probabilidad supera un valor de corte III. CREDIT SCORE
𝜋𝜋 o no. Scoring se refiere al empleo del conocimiento
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐ó𝑛𝑛 = sobre el desempeño y características de
𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 > 𝜋𝜋 ⇒ 𝑦𝑦𝑒𝑒 = 1 préstamos en el pasado para poder pronosticar el

𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 ≤ 𝜋𝜋 ⇒ 𝑦𝑦𝑒𝑒 = 0. cumplimiento de préstamos en el futuro, [8].
Siendo necesario seleccionar un punto a. Ventajas del Scoring:
de corte adecuado que permita resumir  Cuantifica el riesgo como una
los resultados en dos grupos. probabilidad.
La sensibilidad de una prueba se define  Consistencia: El proceso de análisis
como la probabilidad de obtener un se aplica homogéneamente a todas
resultado positivo. Y la especificidad de las solicitudes. Dos personas con las
una prueba indica la probabilidad de mismas características tendrán el
obtener un resultado negativo. mismo pronóstico de riesgo.
 El scoring estadístico puede
Realidad 𝑦𝑦0 probarse antes de usarlo: Una ficha
1 0 de calificación recién planteada
Modelo 1 VP FP puede probarse para pronosticar el
𝑦𝑦𝑒𝑒 0 FN VN riesgo de los préstamos vigentes en
la actualidad, usando únicamente las
En donde: características conocidas en el
VP=Valores Verdaderos Positivos. momento en que se hizo el
FP=Falsos Positivos. desembolso.
FN=Falsos Negativos.
VN=Verdaderos Negativos. b. Modelos utilizados en el Desarrollo de
Sistemas Credit Scoring
𝑉𝑉𝑉𝑉 Varios métodos estadísticos son usados
Sensibilidad = . para desarrollar sistemas de Credit
𝑉𝑉𝑉𝑉 + 𝐹𝐹𝐹𝐹
𝑉𝑉𝑉𝑉 Scoring incluyendo modelos de
Especificidad = .
𝑉𝑉𝑉𝑉 + 𝐹𝐹𝐹𝐹 probabilidad lineal, modelos logit,
Area bajo la curva ROC (Receiver Operating modelos probit, modelos de análisis
Characteristic) es construida para todos los discriminante.
posibles puntos de corte de 𝜋𝜋 para la clasificación Los primeros tres métodos son técnicas
de los individuos. estadísticas estándar para la estimación
La curva ROC es un gráfico en el que se observan de la probabilidad de incumplimiento
todos los pares sensibilidad/especificidad basada en datos históricos sobre el
resultantes de la variación continua de los puntos desempeño del préstamo y las
de corte en todo el rango de resultados características del prestatario.
observados. En el eje y de coordenadas se sitúa la
sensibilidad o fracción de verdaderos positivos, en IV. CASO PRÁCTICO
el eje x se sitúa la fracción de falsos positivos o  Descripción de la Base de Datos
(1-especicidad). El área bajo la curva está dentro
La base de datos German Credit con la activo el crédito. Es de carácter
que se trabaja en este estudio, consiste en cuantitativo.
la información de 1000 personas
solicitantes de un crédito, contenida en la 2. Monto de crédito: Variable numérica
medición de 20 variables para cada que expresa el monto total del crédito
individuo. Cada solicitante ha sido otorgado.
clasificado dentro de una de las dos
posibles categorías, “Buen crédito” (700 3. Tasa de crédito: Variable numérica
casos) o “Mal Crédito” (300 casos). que expresa la tasa del crédito.

 Definición de la Variable Respuesta y las 4. Balance de cuenta: Variable categórica


Variables Explicativas que expresa el estado de la cuenta
corriente de cada cliente, tiene cuatro
Dentro de la base de datos se encuentran categorías:
variables socioeconómicas: 1 = Menor a cero DM.
Edad, Estado civil-Género, Cantidad de 2 = Entre 0 y 200 DM.
personas que dependen del acreditado, 3 = Mayor o igual a 200 DM.
Tiempo de permanencia en el actual 4 = No existe cuenta.
domicilio, Tiempo de permanencia en el
empleo actual, Si es propietario de la 5. Historia Crediticia: Cuenta con 5
vivienda que habita, Tipo de ocupación, categorías en donde se muestra si el
Si tiene una cuenta de ahorros y a cuánto cliente ha tenido otros créditos.
asciende, Si cuenta con algún teléfono a 0 = No tiene créditos tomados/Todos los
su nombre, Si es trabajador foráneo. créditos pagados debidamente.
Además de variables que describen el 1 = Todos los créditos de este banco
comportamiento e historial de cada pagados debidamente.
cliente, entre las que se encuentran: 2 = Créditos existentes debidamente
Monto del crédito otorgado, Tipo de pagados hasta ahora.
crédito otorgado. 3 = Retraso en el pago en el pasado.
4 = Cuenta crítica/Otros créditos
 Selección de Variables Aplicadas al existentes (No en este banco).
modelo
6. Propósito: Tiene 11 categorías en las
La variable dependiente del modelo es cuales se clasificó el propósito por el cual
llamada Clase, la cual es una variable el cliente solicitó un crédito.
dicotómica, creada para hacer referencia 0 = Carro (Nuevo).
a los clientes cumplidos (“Buenos”) con 1 = Carro (Usado).
valor de 0 y a los clientes incumplidos 2 = Muebles/Equipo.
(“Malos”) con valor de 1. 3 = Radio/Televisión.
Para la construcción del modelo se divide 4 = Aparatos domésticos.
la base en dos partes: Primero se toma 5 = Reparaciones.
una muestra aleatoria del 70% llamada de 6 = Educación.
entrenamiento con la cual se construye el 7 = Vacaciones.
modelo, y con el 30% restante se 8 = Capacitación.
conforma la base de validación y se usa 9 = Negocios.
para evaluar los resultados del modelo 10 = Otros.
obtenido.
7. Cuenta de ahorros: Cuenta con 5
Las variables independientes categorías:
seleccionadas de acuerdo a las 1 = Menor a 100 DM.
características de la base de datos de 2 = Entre 100 y 500 DM.
entrenamiento, son: 3 = Entre 500 y 1000 DM.
1. Duración del crédito: Esta variable se 4 = Mayor a 1000 DM.
refiere a los meses que hasta el momento 5 = Monto Desconocido /No tiene cuenta
de la conformación de la base ha estado de ahorro.
8. Duración en el trabajo: En la Tabla 2 se detalla que en el modelo
1 = Desempleado. se tuvieron 3 cambios y finalizó en la
2 = Menos de 1 año. quinta iteración. El último valor de
3 = Entre 1 y 4 años. determinación fue de 0.362, explicando
4 = Entre 4 y 7 años. entre el 0.255 y el 0.362 de la variable
5 = Mayor o igual a 7 años. dependiente.

9. Género-EdoCivil:  Clasificación
1 = Hombre: Divorciado/Separado. La tabla de clasificación indica paso a paso
2 = Mujer: Divorciada/Separada/Casada. la clasificación de clientes cumplidos
3 = Hombre: Soltero. (Buenos) e incumplidos (Malos). En ella se
4 = Hombre: Casado/ Viudo. pueden ver el total de proporciones
5 = Mujer: Soltera. correctamente clasificadas en cada uno de
los grupos.
10. Otros planes de pago: Tipo de crédito
simultáneo.
1 = Bancario.
2 = Tiendas departamentales.
3 = Ninguno.

 Estimación del Modelo en SPSS


El modelo se realiza con el método
Backward bajo el criterio de Devianza
(LR) para encontrar un modelo que
tuviera variables con nivel de Tabla 3
significancia menor al 5%.
 Ajuste del Modelo En la Tabla 3 se ve que se obtuvo un total de
El ajuste del modelo fue evaluado con el 79.1% de clasificaciones correctas con un
estadístico Hosmer-Lemeshow. punto de corte óptimo de 0.55, el cual resultó
ser el óptimo por mantener una clasificación
de clientes cumplidos mayor al 90%.

 Poder Discriminatorio
Es la capacidad que tiene el modelo para
poder clasificar de manera correcta los
Tabla 1 préstamos.
La curva ROC brinda una representación
En la Tabla 1 se muestra cada escalón con gráfica del poder discriminatorio de un
los valores obtenidos, se obtuvo un nivel sistema de Scoring.
de bondad de ajuste del 67.5% en tercer y
último escalón, con lo cual se puede decir
que el modelo tiene un buen ajuste.
 Poder Predictivo
El poder predictivo del modelo es la
capacidad que tiene de predecir la variable
dependiente, sustentado en los valores de
las variables independientes.

Se obtuvo un área bajo la curva igual a 0.817


como lo muestra la Tabla 4.

Tabla 2
30% de los datos contiene una proporción similar
de buenos y malos como la muestra del 70%.
Cuando se estimaron los coeficientes se aplica el
modelo a esta muestra con el mismo punto de
corte. Los resultados revelaron una sensibilidad
del 92:86% y una especificidad del 42.22 %, con
una clasificación total correcta del 77.7%
Tabla 4

Que de acuerdo a la regla general, con este valor V. CONCLUSIONES


se considera una discriminación excelente. En la actualidad es importante contar con un vasto
conocimiento de los riesgos y las diferentes
 Interpretación metodologías que existen para su medición,
Ya es posible realizar el cálculo de la probabilidad teniendo como fin la mejora en la operación
de incumplimiento a través de la ecuación de crediticia, dentro de este análisis se logró realizar
Regresión Logística y los valores estimados de sus el Modelo de Regresión Logística de Credit
coeficientes juntos con los valores OR: Scoring, para así divulgar el método, la manera en
que se plantea y realiza el modelo, tomando en
cuenta sus ventajas al no requerir el supuesto de
normalidad y por calcular directamente las
probabilidades de incumplimiento.
Se implementó esta técnica con la ayuda de una
base de datos alemana que se encuentra disponible
en la red, siendo conformada por una muestra con
1000 observaciones de clientes, con 20 variables
originalmente. De las 20 variables explicativas, se
encontró que 10 únicamente eran las más
significativas. Y mediante el criterio de selección
Backward el mejor modelo ajustado quedó con las
siguientes variables:
1) Balance de cuenta.
2) Historia crediticia.
3) Monto de crédito.
4) Tasa de crédito.
5) Propósito.
6) Cuenta de ahorros.
7) Género-Estado Civil.
8) Duración del crédito.
El criterio de Hosmer-Lemeshov presenta
un p-valor de 0.675, concluyendo un
buen ajuste. No obstante se obtuvo un
bajo poder predictivo, evaluado por una
R-cuadrado igual a 0.362.
El área bajo la curva fue de 0.817, y por
regla general del poder discriminatorio,
se considera que el modelo tiene una
discriminación excelente.
 Validación La manera de definir el punto de corte
El scoring estadístico tiene la capacidad de ser fue buscando tener una clasificación
probado antes de usarse. Este procedimiento correcta de clientes malos mayor al 90 %.
expone cómo funciona el scoring si se aplicara en La sensibilidad declara que de los 210
el presente. La validación se realiza con una préstamos malos en la muestra, el
muestra no utilizada para construir el modelo. modelo detectó el 92.86% de ellos.
Para validar el modelo se usó una muestra La validación del modelo fue realizada
denominada Muestra de validación que se extrajo con el 30% de la base original.
de la muestra original, siendo el 30% del total de El modelo detectó el 71.7% de los
datos, la muestra es aleatoria y se asegura que el prestamos malos, y el 77.7% de los
registros de esta muestra fue clasificado
correctamente. La discriminación es
buena y puede mejorarse jugando con los VI. REFERENCIAS
datos, alternando entre la construcción [1] Altman, E. I., Saunders A., Credit Risk
del modelo y la validación, mejorando la Measurement: Developments over the
definición de categorías en algunas Last 20 Years, Journal of Banking and
variables e incluyendo variables que Finance, (1998).
influyan en el riesgo, sugeridas por los [2] Agresti, A. Categorical Data Analysis. John
expertos. Wiley Sons, Inc. New Jersey (1990).
También haciendo énfasis en que es igual [3] IBM. SPSS Statistics 22 para Windows.
de importante evaluar continuamente el (2010).
modelo de Credit Scoring con el fin de [4] Lemeshow, D. H. Applied Logistic Regression.
revalidar su correcto ajuste con los John Wiley & Sons. (2000).
valores reales, en conjunto con la [5] Long, J. S. Regression Models for Categorical
contribución del conocimiento del and Limited Dependent Variables. Sage
experto para considerar todos los Publications, Inc. (1997).
aspectos. [6] México, B. d. Definiciones básicas de Riesgos.
El modelo de Credit Scoring depende México. (2005).
únicamente de los datos con los que [7] Thomas, L. C. A survey of credit and
cuenta la entidad en cuestión, las behavioral scoring: forecasting financial
variables que se incluyen en el modelo risk of lending to consumers.
son propias para la institución por lo que International Journal of Forecasting, 149-
no serán las mismas por completo si se 172. (2000).
aplica a otra institución. [8] Schreiner, M. Benefits and Pitfalls of
Cuanto esté dispuesta a correr riesgos la Statistical Credit Scoring for
institución dependerá de los objetivos de Microfinance. Microfinance Risk
la misma, por lo que es fundamental Management. (2004).
considerarlo para aceptar o rechazar a un
cliente dependiendo de su probabilidad
de incumplimiento.

También podría gustarte