Está en la página 1de 4

Asignatura Datos del alumno Fecha

Análisis de Datos Apellidos: Vázquez Guajardo


01/06/23
Masivos para el Negocio Nombre: Gildardo David

Actividad 2: Modelos de clasificación


Nuestra empresa TELCO SL tiene una base de datos de clientes y está tratando de
generar un modelo de clasificación que permita predecir el abandono del servicio
por parte del cliente. Para ello nos pide ayuda como consultor de datos, para su
implementación en la empresa en el próximo otoño. La base de datos contiene
información relacionada con el comportamiento de los clientes. La base de datos
original puede ser descargada de: https://www.kaggle.com/blastchar/telco-customer-
churn. Después de ciertas transformaciones y basado en nuestro conocimiento
adquirido en los primeros temas de análisis de datos masivos, se nos solicita con la
base de datos: datos_teleco.csv lo siguiente

 Con el fin de evitar el sobreajuste, y como paso previo a la aplicación de


clasificadores, deberá particionar el conjunto de datos en entrenamiento y en
test con la proporción de 80/20 (entrenamiento/test).
 Dos modelos de clasificación que permita predecir el abandono de un cliente
(Abandono) basado en la experiencia pasada. Con el fin de responder a la
pregunta, podrá usar un modelo logit y de árbol de decisión y usando las
siguientes variables: Contrato, Factura digital, Servicio Internet, Soporte
técnico, Copia de Seguridad Online, Televisión, Meses de alta en el servicio,
 ¿Qué modelo de clasificación tiene una mayor precisión? Razone su respuesta
 ¿Cómo se podría obtener una clasificación de la importancia de las variables en
nuestro modelo?

© Universidad Internacional de La Rioja (UNIR)

Tema 6. Actividades 1
Asignatura Datos del alumno Fecha
Análisis de Datos Apellidos: Vázquez Guajardo
01/06/23
Masivos para el Negocio Nombre: Gildardo David

Sabemos la relevancia que tienen los datos en la toma de decisiones, pero si no se


llegan a hacer modelos, pudiera suceder que los datos sean una fuente de
información no explotada. Lo importante es conseguir modelizarlos utilizando
técnicas estadísticas, econométricas, investigación operativa o machine learning. La
construcción de éste es un proceso iterativo, y en nuestro caso, se nos plantean
unas variables preseleccionadas (Contrato, Factura digital, Servicio Internet,
Soporte técnico, Copia de Seguridad Online, Televisión, Meses de alta en el servicio).
El trabajo consiste en ejecutar el modelo usando dos técnicas de clasificación y
valorar cuál técnica tiene una mejor valoración según las cuatro métricas vistas en
clase.

Uno de los principales problemas que se encuentran a la hora de realizar un modelo


es el sobreentrenamiento o mejor conocido como overfitting. Para evitar dicho
problema, se realizó una partición del conjunto de datos en subconjuntos… uno de
entrenamiento y otro de validación, con un 80% y 20% de proporción
respectivamente. Para ello se hace la función split que divide los datos de manera
que la variable independiente tenga el mismo porcentaje en ambas partes y que a
su vez se divida en el porcentaje que queremos al decirle que queremos como set
de entrenamiento 0,8, es decir 80%.

A la hora de entrenar los 2 modelos tendremos que especificar qué modelos


queremos entrenar, cuáles serán las columnas que usaremos y cual será nuestro set
de prueba, para ello usaremos la función glm que nos entrenará los datos con el
modelo logic y rpart, el cual hará lo propio con el árbol. Ambos recibirán las
columnas con las que se entrenarán y el 80% de los datos que hemos separado para
© Universidad Internacional de La Rioja (UNIR)
entrenamiento, así como su tipo, en el caso de logic será binomial y en el caso del
árbol será class. Una vez entrenados ya podremos predecir con la función predict, la
cual usará el modelo entrenado y el conjunto de validación.

Tema 6. Actividades 2
Asignatura Datos del alumno Fecha
Análisis de Datos Apellidos: Vázquez Guajardo
01/06/23
Masivos para el Negocio Nombre: Gildardo David

 ¿Qué modelo de clasificación tiene una mayor precisión? Razone su respuesta

El modelo de clasificación con mayor precisión es el árbol de decisión, con una


precisión (accuracy) de 0.7979, en comparación con la metodología logic, que tiene
una precisión de 0.7934. Aunque la diferencia no es significativa, objetivamente la
mejor sería el árbol de decisión, aunque al haber tan poca diferencia ambos se
podrían usar de manera indistinta. El cálculo se ha hecho a partir de una matriz de
confusión la cual nos da los valores que son verdaderos positivos y negativos, así
como los falsos negativos y falsos positivos, de esta manera podemos calcular
diversos valores. En el caso de precisión (accuracy) se calcula de esta manera,
(VP+VN)/(VP+FP+VN+FN), con esto sabemos cuántos valores en total se han
acertado, sin importar si son positivos o negativos. Si quisiéramos calcular la
precisión (precision) lo haríamos con la siguiente fórmula, VP/(VP+FP), con esto
sabriamos cuantos valores positivos se han acertado. Además de esto hay
diferentes métricas que se pueden calcular con la matriz de confusión que puede
servirnos según el caso que busquemos.

 ¿Cómo se podría obtener una clasificación de la importancia de las variables en


nuestro modelo?

Para calcular el valor de la clasificación de la importancia de las variables hay que


calcular su peso en el modelo propuesto, para ello calcularemos su coeficiente de
Gini. El coeficiente de Gini también se utiliza para medir el peso o la importancia de
una variable en la predicción de valores. En este contexto, se calcula evaluando la
© Universidad Internacional de La Rioja (UNIR)
capacidad de una variable para clasificar o separar los valores de la variable
objetivo. Un coeficiente de Gini alto indica que la variable tiene un gran impacto en
la predicción y es muy informativa, mientras que un coeficiente de Gini bajo indica
que la variable tiene poco poder predictivo. El coeficiente de Gini se puede calcular

Tema 6. Actividades 3
Asignatura Datos del alumno Fecha
Análisis de Datos Apellidos: Vázquez Guajardo
01/06/23
Masivos para el Negocio Nombre: Gildardo David

directamente con las herramientas que nos proporciona R. En nuestro caso los
valores más relevantes serán:

Otra manera de calcular la importancia de las variables es observando si son


significativas respecto a la variable dependiente, o con la ejecutando el modelo y
utilizando la función summary(), en donde en un apartado se muestran las
diferentes variables y su orden de importancia. Todo esto es importante, sobre todo
seguir los pasos e interpretar bien los resultados para poder acertar en la toma de
decisiones.

© Universidad Internacional de La Rioja (UNIR)

Tema 6. Actividades 4

También podría gustarte