Está en la página 1de 2

PRACTICA FINAL CURSO DE INTELIGENCIA ARTIFICIAL

TIRMESTRE Noviembre 2020- Enero 2021

PROF. RENATO R. GONZALEZ D.

1. El dataset “Clientes_Internet._churn_A.csv” contiene la información sobre las suscripciones


de internet de 18,130 clientes de una empresa de Telecomunicaciones. Por el periodo de
un año se ha registrado la información demográfica, de facturación, de atención a
reclamaciones del cliente, de uso del servicio y de operaciones de la red. Se registra en el
atributo ChurnId (variable categórica de clasificación) un cero si el cliente permanece con
su suscripción (no la ha retirado) o un uno si retiró la suscripción en ese periodo de tiempo.
El problema consiste en predecir en el futuro cuales clientes tienen riesgo de retirar el
servicio y cuales no (se denomina Churn Analysis).

a) Seleccione una muestra aleatoria del data set de 8,000 registros de clientes.
b) Basado en esta muestra, crear dos modelos predictivos de machine learning usando R
o Python, uno basado en regresión logística y el otro en redes neuronales, para predecir
si el cliente retirará el servicio o no. Use la variable ChurnID como atributo de
clasificación categórico.
c) Seleccionar un conjunto de entrenamiento del 60% de los casos y un conjunto de prueba
del restante 40% en forma aleatoria de la muestra de 8,000 previamente seleccionada.
d) Entrenar cada modelo con el conjunto de entrenamiento seleccionando las variables
explicativas más significativas para el modelo. Debe de aplicar un procedimiento de
selección de las variables tal como análisis de CORRELACION. Asegúrese de que no
contenga variables linealmente dependientes mediante un análisis de correlación.
(NOTA: VERIFICAR SI ALGUNA VARIABLE EXPLICATIVA ESTA ALTAMAENTE
CORRELACIONADA CON LA VARIABLE CATEGORICA CHURNID, Y ELEMINARAL SI ASI
FUESE).
e) Con el conjunto de prueba realizar la predicción y construir la tabla de contingencia con
los indicadores de precisión, exactitud, etc. (usar template en Excel) para ambos
modelos.
f) Construir la gráfica ROC y el cálculo del área para ver el nivel de performance de cada
modelo.
g) Realizar un análisis de la performance de cada modelo. Cuales indicadores le resultan
los mejores para este caso. Porque?
h) Determine cual de los dos modelos es el de mejor capacidad de predicción, usando los
indicadores de la tabla de contingencia O CONFUSION y el ROC. Porque?
i) Puede mejorar el modelo incluyendo otras variables explicativas que excluyó en el
punto (c)?. Pruébelo creando nuevos modelos con esas variables. Defina el criterio de
selección del mejor.
j) Realizar el grafo del modelo de redes neuronales.
2. Usando el mismo data set del problema (1) realizar en análisis de cluster aplicando el
algoritmo K-Means (use R o Python).
a. Use las variables más adecuadas (no incluya ChurnID). Determine un criterio de
selección.
b. Aplicar el procedimiento de clustering análisis para los modelos k =2, 3 y 5
c. Cual de los tres es más adecuado y por qué? Realizar test de aceptación.
d. Realizar el grafico de dispersión de cada modelo y representar su centroide en
cada uno (use un color diferente para cada cluster).
e. Interprete el significado que posee cada cluster para el modelo considerado mas
adecuado.
f. ¿Es posible mejorar estas clasificaciones adicionando otras variables? Porque?
Pruébelo.

También podría gustarte