Documentos de Académico
Documentos de Profesional
Documentos de Cultura
- Exploración de datos:
Por otra parte, la variable Height tiene una distribución simétrica, al ser la
mediana y la media idénticas.
- Análisis gráfico:
Se realiza un gráfico de dispersión para identificar la relación entre las variables.
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
- Matriz de correlación:
Basados en los estadísticos del modelo podemos concluir que, con un nivel de
confianza del 99% y del 95% respectivamente las variables circunferencia y
altura son estadísticamente significativas para el modelo. Además dado que el
R-cuadrado ajustado del modelo está más cercano a 1 con un 0.9442 el modelo
es adecuado porque predice las variables dependientes con las independientes.
Lo nos lleva a interpretar que por cada unidad adicional en diámetro, el volumen
aumentara en 4.7082. Al igual, que el aumento adicional de una unidad de altura
hará que el volumen aumente en 0.3393.
- Exploración de datos:
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
Por otro lado, se identifió que las corelaciones con la variable Women son
negativas y débiles
Modelo 2
De acuerdo al punto anterior, decidimos realizar un nuevo modelo quitando la
variable que no era significativa en el modelo anterior, como se muestra a
continuación:
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
De acuerdo a los estadísticos del modelo podemos identificar que las variables
Income y Education son significativas. Además, se observa que el r cuadrado
ajustado es de un 0.7939, mayor al que tiene el modelo anterior.
Modelo 3
Conociendo que las variables Income y educación son significativas se procede
a realizar un nuevo modelo probando ahora la interacción entre ambas variables:
El modelo se muestra a continuación.
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
A partir de este nuevo modelo se concluye que con un nivel de confianza del
90% las variable income, education y la interacción de ambas son significativas.
Por otra parte, se obtuvo un r cuadrado ajustado del 80.55%.
d. Analizar las salidas del modelo y concluir cuáles son las variables más
significativas y si el modelo es adecuado para predecir (4 puntos).
3. Ejercicio de clasificación
- Análisis de data:
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
Se observa que la base de datos consta de 5 variables tipo factor y 15 variables
de tipo integer. La muestra consiste en 5000 observaciones. En este caso
particular, la variable de respuesta es la variable “churn”. Esta variable binaria
se interpreta de la siguiente manera, “no” se asume que la persona sigue siendo
cliente de la empresa, “si” la persona sale.
c. Comparar los resultados de los modelos y concluir cuál es el mejor para este
tipo de problemas.
Regresión logística
Como modelo de secundario se implementó una regresión logística, a continuación,
se muestra el modelo.
A partir del modelo se concluye que, con un nivel de confianza del 90% las
variables “Tiene plan internacional”, minutos/día, reclamaciones, “minutos
internacionales” y “llamadas internacionales” son estadísticamente significativas.
En base a este resultado se concluye que es mejor el modelo basado en naive bayes
que la regresión logística
Árbol de decisión:
Como modelo segundo modelo se decidió implementar un árbol de decisión. A
continuación, se muestra el modelo:
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
A continuación, se muestra la matriz de confusión del modelo. La sensibilidad de
este modelo fue del 53.23%.
A partir de los 3 modelos implementados se concluye que el mejor modelo para predecir el
churn de los clientes es el modelo Naive Bayes.
Referencias:
- https://rpubs.com/elfenixsoy/arbol-veronica
- Presentaciones de los módulos
- https://economipedia.com/definiciones/r-cuadrado-ajustado-coeficiente-de-
determinacion-ajustado.html