Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis Multivariante
Presentación
Esta PEC recoge las primeras técnicas para aprender a segmentar clientes, como la
reducción de la dimensionalidad o el preprocesamiento de los datos.
Competencias
En esta PEC se trabajan las siguientes competencias:
Objetivos
Los objetivos de esta PEC son:
● Comprender la necesidad de aplicar técnicas de preprocesamiento de datos
para poder trabajar con un dataset con las mejores características.
● Aplicar técnicas de reducción de la dimensionalidad en datos tan categóricos
como numéricos.
● Aprender a manipular un dataset detectando outliers y tratando missings.
● Conocer y saber aplicar las técnicas del Principal Component Analysis (PCA) y el
Correspondence Analysis.
● Entender la documentación de librerías básicas para el tratamiento de datos.
Esta actividad nos permitirá poner en práctica los conocimientos y los procedimientos
trabajados en este reto.
A partir de un dataset, pedimos que resolváis una serie de ejercicios donde se tendrán
que aplicar los procedimientos que hemos ido trabajando. Estos ejercicios plantean
escenarios propios de la ciencia de datos y veremos cómo lo que hemos visto en la
asignatura nos aportan valor en el estudio de un conjunto de datos.
Recursos
Los recursos de aprendizaje relacionados con esta PEC se pueden encontrar en el aula
de la asignatura, concretamente en los hitos del calendario del Reto 1.
Criterios de evaluación
- La PEC debe resolverse de forma individual.
- Es necesario justificar todas las respuestas de las preguntas de la PEC.
- La nota de la PEC1 será parte de la nota de evaluación continua de la asignatura
con un peso del 20% respecto al total. Para más información sobre el modelo
de evaluación de la asignatura consulte el plan docente.
Imagínate que trabajas para un banco y éste tiene un problema importante: los clientes
se marchan. A tu equipo le han encargado entender el porqué los clientes se marchan y
ver si se puede hacer algo para, proactivamente, ir a aquellos clientes que tienen una
posibilidad alta de marcharse y ofrecerle algún producto o servicio para evitarlo.
La tarea que te han asignado es la de estudiar y entender el dataset que te han
proporcionado y realizar diferentes tareas para poder estar en las mejores condiciones
para después entrenar un modelo predictivo.
El dataset lo puedes descargar en la misma página de la PEC.
i)
iii)
iv)
f) Replica las gráficas i), ii) del apartado C con la nueva columna de los rangos de
edad.
i)
ii)
No hay ningún cliente que cobre más de 120k y se haya quedado en el banco,
por lo tanto podemos hacer una hipótesis que se base en que aquellos clientes
que cobran más de 120k pagan más comisiones en general cuando en otros
bancos estas son más pequeñas y esto provoca que se marchen. Entonces, para
el estudio, podemos prescindir de las muestras de aquellos que cobran más de
120k.
Por último, haz una copia del dataset de la actividad 1 y guárdalo en la variable data_1.
a) Elimina del dataset las columnas que contienen las IDs de los clientes, la de si se
han ido o no del banco y la de los rangos de edad creada anteriormente. ¿Qué
método has utilizado? (En la documentación de Pandas lo puedes encontrar).
Elimina también, si no lo has hecho antes, aquellas muestras del dataset que
tengan unos ingresos superiores a 120k y explica el porqué de esa decisión.
Haz una copia del dataset y guárdalo en la variable data_2.
A veces crear nuevas variables a partir de las existentes en el dataset nos pueden
ayudar a mejorar nuestros modelos predictivos. Por ejemplo, podemos añadir variables
de comportamiento como ver el dinero gastado en la 1ª semana del mes, en la 2ª… En
este caso concreto, se propone crear una nueva variable llamada
AvgAmountTransaction qué es la media de dinero usada en una transacción.
c) Crea esta nueva variable en una columna nueva del dataset y vuelve a realizar la
matriz de correlación. ¿Aporta valor lo que hemos hecho? ¿Por qué?
La nueva variable que hemos creado tiene una correlación positiva muy alta, de
0.91, con otra variable, por lo tanto, podemos decir que no aporta demasiado
valor al dataset.
d) Cuenta con tus palabras que nos aporta el uso del PCA. ¿Crees que será útil
aplicarlo a nuestro dataset? ¿Por qué?
A priori no tendría que ser demasiado útil puesto que solo tenemos 2
relaciones de correlación positiva alta entre 2 parejas de variables pero al tener
una imagen parcial de la matriz de correlación, y al ser un procedimiento rápido
en este dataset puesto que es pequeño, nos aporta utilidad para poder tener
una visión extra de los datos.
Nos ha aportado una visión basada en datos para tomar decisiones donde
antes, quizás, como sociedad, teníamos en cuenta suposiciones. Es decir, tal y
como comenta el artículo, ahora podemos tomar decisiones basadas en datos.