Trabajo Final Grupo N°2

TRABAJO FINAL N°02:
MACHINE LEARNING
TelcoCustomerChurn
Integrantes
Greta del Valle Raquel Benítez Claudia Álvarez

MARKETING CONTABILIDAD DISEÑO
· ÍNDICE ·
1. Entendimiento del Negocio
2. Análisis Exploratorio de Datos
3. Limpieza de Datos
4. Feature Engineering
5. Entrenamiento y Validación
6. Interpretación de Resultados
7. Conclusiones
ENTENDIMIENTO DEL
NEGOCIO
HR ANALITICS
-Conocimiento de clientes
(Recolección de datos, preprocesamiento)
-Acciones históricas
(Extracción y selección de características)
-Optimización
(Creación y evaluación de modelos)
CASO DE ESTUDIO
Telco Customer Churn
Proceso para retener a los clientes actuales:

PLANTEAMIENTO DEL MODELO
Objetivo
Predecir los abandonos que sucederán e implementar
estrategias de retención para aquellos clientes más
propensos a abandonar al negocio.

Unidad de Estudio
Clientes que abandonaron.
ANÁLISIS EXPLORATORIO DE
DATOS
· ANÁLISIS EXPLORATORIO DE DATOS·
· ANÁLISIS EXPLORATORIO DE DATOS·
· EDA·
· EDA·
· EDA·
· EDA·
LIMPIEZA DE DATOS
Tratamiento de datos
Eliminamos la columna CustomerID
Ya que:
No afectará en los resultados

finales
No tendrá relevancia en la
representación gráfica
Al ser valores independientes no

afectarán al analisis
Tratamiento de datos
Convertimos Cargos totales a tipo numérico
Comprobando entradas nulas
Cargos totales tiene 11

valores faltantes
No deberían exisitir si
los cargos mensuales no
tienen valores faltantes
Si el problema no se encuentra en los cargos mensuales tenemos que
encontrar la columna donde no exista pertenencia, tenure(pertenencia)=0
Borramos
todos los
registros
que tengan
tenure=0
para que
no afecte
al análisis.
Árbol de decisiones
Correlación entre
variables :
FEATURE ENGINEERING
Comparación de valores en columnas
Comparación métodos de pago
Porcentaje resaltante
El porcentaje de personas jubiladas abandonan más el servicio
El contrato por mes tienen mayor probabilidad de abandonar la empresa
El método de pago electrónico suelen abandonar la empresa
Cantidad de VIF en variables
Correlación entre cargos totales y mensuales
Existe multicolienalidad
Existe multicolienalidad,
al existir ambas con alto
VIF, implica redundancia
y sobreajuste.
Dificultan la
interpretación del
modelo
Luego se revisa la correlación, y como se
comprueba bajo el VIF de los cargos
mensuales
ENTRENAMIENTO Y
VALIDACIÓN
Dividir los datos en 2 Grupos
Entrenamiento: Construir el
modelo
Prueba: Evaluar el
desempeño
Normalización de datos
Todas las variables tendrán una influencia similar en el modelo,

mejorando la estabilidad y el rendimiento del algoritmo de
aprendizaje.
Dividir el conjunto de datos en valores X e Y.
Entrenamiento y Validación
Datos de entrenamiento Datos de prueba

Evaluación de múltiples algoritmos
Algoritmo seleccionado Gradient Boost
Gradient Boosting es un método conjunto de aprendizaje

automático muy popular basado en un entrenamiento secuencial
de múltiples modelos para hacer predicciones
Definimos la cuadricula de los parámetros seleccionados

Matriz confusión
Metricas
INTERPRETACIÓN DE
RESULTADOS
Importancia de Variables
Los valores más altos de información mutua muestran un
mayor grado de dependencia, lo que indica que la variable
independiente será útil para predecir el objetivo, en este
caso se descubrió que los valores más altos son: Tenure,
MonthlyCharges y Contract_Month-to-month
Resultados con hiperparámetros predeterminados
Utilizando los
hiperparámetros
predeterminados, el modelo
que presenta una mayor
precisión corresponde al
modelo de aumento de
gradiente (gradient boosting)
Classifier:
gradient_boos que muestra una exactitud
ting, Accuracy:
casi del 80%.
0.7963594
Resultados del modelo con mejores hiperparámetros
Comprobamos el rendimiento del modelo mediante el uso de la matriz de
confusión y obtuvimos:
El modelo Gradient Boosting clasificó
correctamente 1404 observaciones de los datos
de prueba (1156 verdaderos negativos y 248
verdaderos positivos). Por el contrario, podemos
observar 354 errores de clasificación (154 falsos
positivos y 200 falsos negativos).

Resultados del modelo con mejores hiperparámetros
También obtuvimos resultados en cuanto a métricas aplicadas al modelo:
Modelo
Accuracy:
0.798634
En cuanto a la exactitud
Obtenemos una sensibilidad de 0,55 (248/(200+248))

(accuracy) del modelo, el ajuste
y una especificidad de 0,88 (1156/(1156+154)). El

de hiperparámetros apenas ha
modelo obtenido predice con mayor precisión los

logrado que aumente un 0,0022.
clientes que no abandonan. Es lo esperado ya que el
modelo utilizado (Gradient Boosting) suele estar
sesgado hacia las clases con más observaciones .

CONCLUSIONES
CONCLUSIONES
Después de transformar los datos, probamos 6 algoritmos de
aprendizaje automático diferentes utilizando parámetros
predeterminados. Finalmente, ajustamos los hiperparámetros del
Gradient Boosting Classifier (modelo de mejor rendimiento) para la
optimización del modelo, obteniendo una precisión de casi el 80%.
Los apartados anteriores nos apoyan a soportar que una estrategia de

retención de clientes debe considerar diversos elementos como lo
son:
La estrategia y objetivos de negocio.
Conocimiento de nuestros clientes, claridad en las característcas
de clientes objetivo.
Madurez y estrategia de datos
Con base a lo anterior podríamos implementar la adecuación de

servicios, productos y valor agregado actuales basados en las
necesidades del cliente o bien la creación de campañas para la
retención de clientes (estas pueden ser digitales o físicas) o la
creación de un sistema de calificación del cliente (recompensas), etc.
· GRACIAS ·
Grupo N°2

Trabajo Final Grupo N°2

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Trabajo Final Grupo N°2

Cargado por

Copyright:

Formatos disponibles

TRABAJO FINAL N°02:

Greta del Valle Raquel Benítez Claudia Álvarez

Telco Customer Churn

Proceso para retener a los clientes actuales:

Eliminamos la columna CustomerID

No afectará en los resultados

Al ser valores independientes no

Convertimos Cargos totales a tipo numérico

Comprobando entradas nulas

Cargos totales tiene 11

Todas las variables tendrán una influencia similar en el modelo,

Datos de entrenamiento Datos de prueba

Gradient Boosting es un método conjunto de aprendizaje

Definimos la cuadricula de los parámetros seleccionados

mayor grado de dependencia, lo que indica que la variable

independiente será útil para predecir el objetivo, en este

caso se descubrió que los valores más altos son: Tenure,

que presenta una mayor

gradiente (gradient boosting)

gradient_boos que muestra una exactitud

El modelo Gradient Boosting clasificó

correctamente 1404 observaciones de los datos

de prueba (1156 verdaderos negativos y 248

verdaderos positivos). Por el contrario, podemos

observar 354 errores de clasificación (154 falsos

positivos y 200 falsos negativos).

Obtenemos una sensibilidad de 0,55 (248/(200+248))

y una especificidad de 0,88 (1156/(1156+154)). El

modelo obtenido predice con mayor precisión los

modelo utilizado (Gradient Boosting) suele estar

sesgado hacia las clases con más observaciones .

Los apartados anteriores nos apoyan a soportar que una estrategia de

Con base a lo anterior podríamos implementar la adecuación de

También podría gustarte