Está en la página 1de 47

TRABAJO FINAL N°02:

MACHINE LEARNING
TelcoCustomerChurn
Integrantes

Greta del Valle Raquel Benítez Claudia Álvarez


MARKETING CONTABILIDAD DISEÑO
· ÍNDICE ·
1. Entendimiento del Negocio
2. Análisis Exploratorio de Datos
3. Limpieza de Datos
4. Feature Engineering
5. Entrenamiento y Validación
6. Interpretación de Resultados
7. Conclusiones
ENTENDIMIENTO DEL
NEGOCIO
HR ANALITICS

-Conocimiento de clientes
(Recolección de datos, preprocesamiento)

-Acciones históricas
(Extracción y selección de características)

-Optimización
(Creación y evaluación de modelos)
CASO DE ESTUDIO

Telco Customer Churn

Proceso para retener a los clientes actuales:


PLANTEAMIENTO DEL MODELO

Objetivo
Predecir los abandonos que sucederán e implementar
estrategias de retención para aquellos clientes más
propensos a abandonar al negocio.

Unidad de Estudio
Clientes que abandonaron.
ANÁLISIS EXPLORATORIO DE
DATOS
· ANÁLISIS EXPLORATORIO DE DATOS·
· ANÁLISIS EXPLORATORIO DE DATOS·
· EDA·
· EDA·
· EDA·
· EDA·
LIMPIEZA DE DATOS
Tratamiento de datos

Eliminamos la columna CustomerID

Ya que:

No afectará en los resultados


finales

No tendrá relevancia en la
representación gráfica

Al ser valores independientes no


afectarán al analisis
Tratamiento de datos

Convertimos Cargos totales a tipo numérico

Comprobando entradas nulas

Cargos totales tiene 11


valores faltantes

No deberían exisitir si
los cargos mensuales no
tienen valores faltantes
Si el problema no se encuentra en los cargos mensuales tenemos que
encontrar la columna donde no exista pertenencia, tenure(pertenencia)=0
Borramos
todos los
registros
que tengan
tenure=0
para que
no afecte
al análisis.
Árbol de decisiones
Correlación entre
variables :
FEATURE ENGINEERING
Comparación de valores en columnas
Comparación métodos de pago
Porcentaje resaltante
El porcentaje de personas jubiladas abandonan más el servicio
El contrato por mes tienen mayor probabilidad de abandonar la empresa
El método de pago electrónico suelen abandonar la empresa
Cantidad de VIF en variables
Correlación entre cargos totales y mensuales

Existe multicolienalidad

Existe multicolienalidad,
al existir ambas con alto
VIF, implica redundancia
y sobreajuste.

Dificultan la
interpretación del
modelo
Luego se revisa la correlación, y como se
comprueba bajo el VIF de los cargos
mensuales
ENTRENAMIENTO Y
VALIDACIÓN
Dividir los datos en 2 Grupos

Entrenamiento: Construir el
modelo

Prueba: Evaluar el
desempeño
Normalización de datos

Todas las variables tendrán una influencia similar en el modelo,


mejorando la estabilidad y el rendimiento del algoritmo de
aprendizaje.
Dividir el conjunto de datos en valores X e Y.
Entrenamiento y Validación

Datos de entrenamiento Datos de prueba


Evaluación de múltiples algoritmos
Algoritmo seleccionado Gradient Boost

Gradient Boosting es un método conjunto de aprendizaje


automático muy popular basado en un entrenamiento secuencial
de múltiples modelos para hacer predicciones

Definimos la cuadricula de los parámetros seleccionados


Matriz confusión

Metricas
INTERPRETACIÓN DE
RESULTADOS
Importancia de Variables
Los valores más altos de información mutua muestran un

mayor grado de dependencia, lo que indica que la variable

independiente será útil para predecir el objetivo, en este

caso se descubrió que los valores más altos son: Tenure,

MonthlyCharges y Contract_Month-to-month
Resultados con hiperparámetros predeterminados

Utilizando los

hiperparámetros

predeterminados, el modelo

que presenta una mayor

precisión corresponde al

modelo de aumento de

gradiente (gradient boosting)

Classifier:

gradient_boos que muestra una exactitud

ting, Accuracy:
casi del 80%.
0.7963594
Resultados del modelo con mejores hiperparámetros
Comprobamos el rendimiento del modelo mediante el uso de la matriz de

confusión y obtuvimos:

El modelo Gradient Boosting clasificó

correctamente 1404 observaciones de los datos

de prueba (1156 verdaderos negativos y 248

verdaderos positivos). Por el contrario, podemos

observar 354 errores de clasificación (154 falsos

positivos y 200 falsos negativos).


Resultados del modelo con mejores hiperparámetros
También obtuvimos resultados en cuanto a métricas aplicadas al modelo:

Modelo
Accuracy:

0.798634

En cuanto a la exactitud

Obtenemos una sensibilidad de 0,55 (248/(200+248))


(accuracy) del modelo, el ajuste

y una especificidad de 0,88 (1156/(1156+154)). El


de hiperparámetros apenas ha

modelo obtenido predice con mayor precisión los


logrado que aumente un 0,0022.
clientes que no abandonan. Es lo esperado ya que el

modelo utilizado (Gradient Boosting) suele estar

sesgado hacia las clases con más observaciones .


CONCLUSIONES
CONCLUSIONES
Después de transformar los datos, probamos 6 algoritmos de
aprendizaje automático diferentes utilizando parámetros
predeterminados. Finalmente, ajustamos los hiperparámetros del
Gradient Boosting Classifier (modelo de mejor rendimiento) para la
optimización del modelo, obteniendo una precisión de casi el 80%.

Los apartados anteriores nos apoyan a soportar que una estrategia de


retención de clientes debe considerar diversos elementos como lo
son: 
La estrategia y objetivos de negocio. 
Conocimiento de nuestros clientes, claridad en las característcas
de clientes objetivo. 
Madurez y estrategia de datos

Con base a lo anterior podríamos implementar la adecuación de


servicios, productos y valor agregado actuales basados en las
necesidades del cliente o bien la creación de campañas para la
retención de clientes (estas pueden ser digitales o físicas) o la
creación de un sistema de calificación del cliente (recompensas), etc.
· GRACIAS ·
Grupo N°2

También podría gustarte