Está en la página 1de 8

Data

Analytics

Laboratorio
Overfitting, Lending
Club prediciendo
préstamos no pagados
LANZ MARROQUÍN JOSÉ EDUARDO 1507014
RACANCOJ TUMAX LESTER ANIBAL 1534719
DE LEÓN COYOY MARLON ELEAZAR 2410022
¿Cuál es el problema de negocio? ¿Qué variable objetivo
tenemos? ¿Qué es una instancia?
Lending Club es una plataforma la cual
funciona bajo el concepto de “Peer to peer”.
Eso quiere decir que hay gente que llena
solicitudes de préstamo y otros usuarios
pueden optar a prestar dinero ganando una
tasa de interés, el problema acá es predecir
quienes son las personas que si pagaran y
quienes no.

Variable objetivo: Not Fully Paid.

Instancia: Se refiere al número de personas que


han llenado una solicitud de préstamo.
Hacer un proceso de análisis exploratorio de la data para entender
relaciones de manera visual. ¿Qué influye más en que un crédito no se
pague?

De acuerdo al rank de Information Gain la tasa de interés, políticas de


crédito, fico, propósito del prestamo y número de consultas del prestatario
por parte de los acreedores en los últimos 6 meses son los que influyen más
en que no se pague un crédito.
Análisis Exploratorio
Tasa de Interés
En la siguiente gráfica se
observa que quienes tienen
menores tasas de interés tienen
una mayor probabilidad de
pagar, quienes tengan mayor
tasa de interés tienen menores
probabilidades de pagar.

Políticas de crédito
En la siguiente gráfica se observa que
quienes no tienen la documentación
completa tienen mayor posiblidad de
no pagar sus prestamos, por el
contrario, quienes si tienen
docuemntación, tienen menos
probabilidad de no pagar.
MÉTRICA FICO

FICO es una métrica de Lending Club,


entre más alta sea la calificación del
prestamista será menor la
probabilidad de que no paguen, se
observa la tendencia en la siguiente
gráfica.

Propósito.
De acuerdo a la gráfica, los negocios pequeños y
el área educativa son quienes tienen mayores
probabilidades de no pagar sus créditos.
Entrenar modelos utilizando técnicas para evitar Overfitting. Utilice
Cross Validation con 5 folds, ¿qué sucede si lo cambia a 10 folds?

Luego de realizar los ajustes en


Cross Validation se observa los
siguientes cambios.

Logistic Regression: Aumento de


0.001 en AUC

SVM: Aumento del 0.28 en AUC

Tree: Aumento del 0.007 en AUC

Siendo para este ejercicio Logístic


Regression el modelo con mayor
número de confiabilidad al realizar
una predicción.
Evaluar el desempeño del modelo. ¿Está haciendo
un buen trabajo? ¿Por qué?
La curva a la que se refiere el AUC es la curva ROC (Receiver Operating
Characteristic). La curva ROC es una representación gráfica del rendimiento de
un modelo de clasificación a diferentes niveles de umbral de decisión. Muestra la
tasa de verdaderos positivos (sensibilidad) en el eje y frente a la tasa de falsos
positivos (1 - especificidad) en el eje x.

En este caso el modelo con mejor rendimiento es Logistic Regressión quien a


pesar de tener un número bajo fue el mejor de los tres propuetos.

AUC > 0.5: Indica que el modelo tiene un rendimiento mejor que el azar. Cuanto
más cercano a 1, mejor.

También podría gustarte