Documentos de Académico
Documentos de Profesional
Documentos de Cultura
6 Business Analytics
Integrantes:
Gustavo Adolfo Diaz
Santiago Rodríguez Medina
Bogotá 27/03/2022
Mediante el siguiente estudio se estimará un modelo de probabilidad lineal para estimar el efecto del
ingreso (income), del balance mensual en la tarjeta de crédito (balance) y de ser estudiante sobre la
probabilidad de que un cliente no pague la tarjeta de crédito (default), este tipo de estudios sirven muy a
menudo en para realizar estudios crediticios; los bancos pueden realizar un análisis parecido y en base a
ello tomar decisiones, siempre y cuando existan datos históricos como los que se mostraran a
continuación como ejemplo, la asimetría de la información en selección adversa se disminuirá y los
créditos serán concedidos a personas con menor probabilidad de incumpliendo, esto permitirá un mejor
desempeño en el sector financiero.
Después de realizar el análisis de regresión línea entre las variables se obtuvieron los siguientes
resultados:
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,35216371
Coeficiente de determinación R^2 0,12401928
R^2 ajustado 0,12375638
Error típico 0,16795855
Observaciones 10000
Coeficientes Probabilidad
Intercepción -0,081179487 4,37057E-22
student 0=no -0,010330101 0,068169534
balance 0,00013269 8,0371E-287
income 1,99E-07 0,298956668
Por ende, la probabilidad de incumplimiento aumenta dependiendo del balance y de los ingresos de los
usuarios, sin embargo los estudiantes tienden a realizar sus pagos a tiempo y no caen en mora o
incumplimiento.
Pero para realmente comprobar la probabilidad de incumplimiento se hará uso de un modelo logitEn el
siguiente estudio se realizará un estudio de regresión logística entre la variable logit “Income” como
explicativa y “default” como explicada.
R-square
R-sq (L) 0,00140939
R-sq (CS) 0,00041155
R-sq (N) 0,00162488
Significance Test
p-value 0,04247109
La variable income afecta significativamente la probabilidad de pago segun su p valor. Entre mayor sea
el income, menor será la probabilidad de incumplimiento. El Comportamiento de su grafica sera el
siguiente:
Como se observa en la gráfica, los valores toman lugares entre de 0 a 1, donde 1 es que el usuario
incumpla con el pago de su tarjeta. Dando valores a los ingresos los valores se encontrarán en este
rango, se podría establecer un cut off, que por lo general es de 0,5, esto para que cuando la probabilidad
sea superior a 0,5 el dato se tome como más probable a incumplimiento.
En el siguiente estudio se realizará un estudio de regresión logística entre la variable “balance” como
explicativa y “default” como explicada.
R-square
R-sq (L) 0,45339159
R-sq (CS) 0,12402682
R-sq (N) 0,48968267
Significance Test
p-value 0
La variable “balance” afecta significativamente la probabilidad de pago según su p valor. Entre mayor
sea el balance en la tarjeta, mayor sera la probabilidad de incumplimiento. El comportamiento de su
grafica sera el siguiente:
La grafica toma rangos de inferiores y superiores a los entregados y de las probabilidades siguen
estando dentro del rango de probabilidades.
Sin embargo al incluir todas las variables en un solo modelo, las variables de la regresión quedaran tal
como se presenta en el siguiente cuadro:
Significance
Test
p-value 0
# iter 20
Con el fin de poder evaluar el modelo se estimara la probabilidad que un estudiante con un balance
de $1.500 y un ingreso de $40.000 no pague su tarjeta de crédito. Para hallar esta probabilidad se
usara el siguiente modelo:
𝑒 −10,86+0,646 (1)+0,005(1500)+3,03𝐸−06(40.000)
𝑃𝑟𝑜𝑏 =
1 + 𝑒 −10,86+0,646 (1)+0,005(1500)+3,03𝐸−06(40.000)
El resultado de esta ecuación es 5,79% . Por lo tanto la probabilidad que un estudiante que un
estudiante con ingresos de 40,000 dólares y con un saldo de 1.500 dolares no pague es tan solo del
5,79%.
Para finalizar se quiso indagar el cómo hallar una probabilidad basada en una regresión logística
incluyendo las 3 variables explicativas, Ser estudiante, El balance y El ingreso de los usuarios.
Coeff
Intercepto -12,014026
Estudiante -0,6172375
Balance 0,00573586
Income 0,11996749
El estudio tuvo un acierto del 97,32% en los datos calculados, De los 333 usuarios de los 10000 que
incumplieron con el pago de su tarjeta de crédito, el estudio predijo que solo 105 tendrían
incumplimiento. De los 9667 usuarios de los 10000 que no incumplieron con el pago de su tarjeta de
crédito, el estudio predijo que solo 9627 no tendría incumplimiento. Esto con un cut off del 0,5. Si este
cut off se mueve a 0,4, los datos serían los siguientes:
Suc-Obs Fail-Obs
Suc-Pred 134 77 211
Fail-Pred 199 9590 9789
333 9667 10000
Accuracy 0,4024024 0,99203476 0,9724
Cutoff 0,4
Se observa que el accuracy disminuye a 97,24%, por esa razón por lo general se utiliza el 0,5. Se observa
que disminuye poco, esto quiere decir que lo datos están agrupados más a los extremos que en la
mediana.
1/= 1(𝐸𝑋𝑃 + −𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡𝑜 − 𝑀𝑀𝑈𝐿𝑇(𝑋1, 𝑋2, 𝑋3; 𝐸𝑠𝑡𝑢𝑑𝑖𝑎𝑛𝑡𝑒, 𝑏𝑎𝑙𝑎𝑛𝑐𝑒, log 𝑖 𝑛𝑐𝑜𝑚𝑒))
Para concluir, el R cuadrado fue mas certero en los estudios de regresión logística, también se observó
que la variable que más influye en el incumplimiento es la del balance, y el resultado no solo hace
sentido al cálculo matemático sino también a la actualidad, entre mas grande pueda llegar a ser la
deuda, el incumplimiento puede que aumente.