Está en la página 1de 9

Facultad Ingeniería

Escuela de Ingeniería UNAB

Minería de Datos: Certamen III

Autor:

Profesor:

Concepción, Chile
26 de Mayo de 2023

Contenido
Minería de Datos: Certamen III..............................................................................................1
1. INDICE
2. DESARROLLLO
2.1.Comprenda del problema: Describa la problemática, se debe generar un marco de referencia

Según las varíales del servicio, se debe indicar si los usuario darán de baja o no el servicio,
según distintas variables empleadas en la problemática ya sean en tiempo, cantidad de
llamadas y reclamos, cantidad de tiempo sin servicio, pagos adeudados y monto a pagar
mensualmente entre otros

2.2 Comprenda de los datos: Describir las variables según su naturaleza estadistica (tipo) y su
significado en el problema.

Conjunto de datos para Entrenamiento y Test.


N° VARIABLES TIPO DESCRIPCIÓN
Variable Discreta (factor) Indica si el usuario dio de baja o no el
1 churn
servicio
2 afect_inet Variables Discreta (numérica) Horas sin servicio internet
3 afect_tva Variables Continuas (numérica) Horas sin servicio de televisión básica
Variables Continuas (numerica) Horas sin servicio de televisión alta
4 afect_tvhd
definición
5 afect_voip Variables Continuas (numerica) Horas sin servicio de telefonía IP
6 cod_conex Variables Continuas (numerica) Código de conexión
Variables Continuas (numerica) Monto en pesos de la deuda que tiene
7 deuda
un cliente
Variables Discreta (numérica) Estado actual del proceso de pagos de
8 estado_impago
cuentas
9 hrs_afect_sla Variables Continuas (numerica) Horas totales sin servicio
Variables Discreta (numérica) Id de la comuna donde tiene
10 id_comuna
contratado el o los servicios
Variables Continuas (numerica) Total pagado en pesos durante toda la
11 importe
vida del cliente en la empresa
Variables Continuas (numerica) Cantidad de llamadas al contact center
12 q_cc_actividad_12
en 12 meses
Variables Continuas (numerica) Cantidad de llamadas al contact center
13 q_cc_actividad_3
en 3 meses
Variables Continuas (numerica) Cantidad de llamadas al contact center
14 q_cc_actividad_6
en 6 meses
Variables Continuas (numerica) Cantidad de solicitudes de renuncia sin
15 q_contencion_12
éxito por contención en 12 meses
Variables Continuas (numerica) Cantidad de solicitudes de renuncia sin
16 q_contencion_3
éxito por contención en 3 meses
Variables Continuas (numerica) Cantidad de solicitudes de renuncia sin
17 q_contencion_6
éxito por contención en 6 meses
Variables Continuas (numerica) Cantidad de llamadas por solicitud de
18 q_llamadas_tec
servicios técnicos
Variables Continuas (numerica) Cantidad de pagos, mide la antigüedad
19 q_pagos
del cliente en meses
N° VARIABLES TIPO DESCRIPCIÓN
Variables Continuas (numerica) Cantidad de veces que ha quedado a
q_pte_comercial_1
20 la espera de la instalación de un
2
servicio en 12 meses
Variables Continuas (numerica) Cantidad de veces que ha quedado a
21 q_pte_comercial_3 la espera de la instalación de un
servicio en 3 meses
Variables Continuas (numerica) Cantidad de veces que ha quedado a
22 q_pte_comercial_6 la espera de la instalación de un
servicio en 6 meses
23 q_reclamo_12 Variables Continuas (numerica) Cantidad de reclamos en 12 meses
24 q_reclamo_3 Variables Continuas (numerica) Cantidad de reclamos en 3 meses
25 q_reclamo_6 Variables Continuas (numerica) Cantidad de reclamos en 6 meses
Variables Continuas (numerica) Cantidad de reclamos por redes
26 q_rrss_actv_12
sociales en 12 meses
Variables Continuas (numerica) Cantidad de reclamos por redes
27 q_rrss_actv_3
sociales en 3 meses
Variables Continuas (numerica) Cantidad de reclamos por redes
28 q_rrss_actv_6
sociales en 6 meses
Variables Continuas (numerica) Cantidad de veces que se ha
reconectado un cliente, del resultado
29 q_rx
de baja de servicios por impago o
renuncia voluntaria
Variables Continuas (numerica) Cantidad de servicio técnico por
30 q_sstt_fono
teléfono
Variables Continuas (numerica) Cantidad de servicio técnico por
31 q_sstt_inet
internet
Variables Continuas (numerica) Cantidad de servicio técnico por los 3
32 q_sstt_mundos
servicios
Variables Continuas (numerica) Cantidad de servicio técnico por
33 q_sstt_tv
televisión
Variables Continuas (numerica) Cantidad de interacciones en
34 q_sucursal_12
sucursales en 12 meses
Variables Continuas (numerica) Cantidad de interacciones en
35 q_sucursal_3
sucursales en 3 meses
Variables Continuas (numerica) Cantidad de interacciones en
36 q_sucursal_6
sucursales en 6 meses
Variables Continuas (numerica) Tiempo máximo en horas sin servicio
37 t_max_fono
de fono
Variables Continuas (numerica) Tiempo máximo en horas sin servicio
38 t_max_inet
de internet
Variables Continuas (numerica) Tiempo máximo en horas sin servicio
39 t_max_mundos
de los 3 servicios
Variables Continuas (numerica) Tiempo máximo en horas sin servicio
40 t_max_tv
de televisión
41 t_mean_fono Variables Continuas (numerica) Tiempo promedio sin servicio de fono
N° VARIABLES TIPO DESCRIPCIÓN
Variables Continuas (numerica) Tiempo promedio sin servicio de
42 t_mean_inet
internet
Variables Continuas (numerica) Tiempo promedio sin servicio de los 3
43 t_mean_mundos
servicios
Variables Continuas (numerica) Tiempo promedio sin servicio de
44 t_mean_tv
televisión
45 total_pagado Variables Continuas (numerica) Último valor pagado
46 total_pagar Variables Continuas (numerica) Valor mensual de pago por el servicio

2.3 Preprocesamiento: Realice un análisis exploratorio de datos (EDA), además: Elimine variables
que no son relevantes mediante el algoritmo boruta.

R. Se puede observar en la Modelación en R.

2.4 Modelo: Entrene usando partición 80 – 20, el algoritmo de regresión logística, árbol de
decisión, KNN, Redes Neuronales.

R. Se puede observar en la Modelación en R.

2.5 Evaluación: Elabore un cuadro comparativo que evidencie los mejores modelos un ranking,
por medio del Exactitud, Sensibilidad, Especicidad, además tiempo de procesamiento del
algoritmo y procesador equipo usado.

Imagen N°1, Arbol de Decisión Imagen N°2, Regresion Lineal


Imagen N°3, KNN Imagen N°4, Redes Neuronales

Árbol de Redes
EVALUACIÓN Regresión Lineal KNN
Decisión Neuronales

Accuracy 0.7263 0.3474 0.7632 0.7737

Sensitivity 0.7625 0.4750 0.7625 0.8250

Speciiticity 0.7000 0.2545 0.7636 0.7364

2.6 Genere una curva ROC para cada modelo y elija la mejor.
Imagen N° 5, Regresión Lineal, ROC=0,635 Imagen N° 6, Árbol de Decisión, ROC=0,731

Imagen N° 7, KNN, ROC=0,763 Imagen N° 8, Redes Neuronales, ROC=0,781

Finalmente la mejor opción para la simulación según la imagen N°8, correspondería a la curva ROC
de Redes Neuronales, ya que esta es la que más se acerca a 1.

2.7 Dado el mejor modelo describa los resultados, evidenciando el impacto de las variables y
mostrando una predicción.

Son las variables que más impactan en la decisión del usuario en dar de baja o no el servicio. En
este caso se evalúa

 q_contencion_3
 q_contencion_6
 q_contencion_12
 q_rx
3. REFERENCIA BIBLIOGRAFICA

También podría gustarte