Taller Analítica Predictiva y Machine Learning

Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury

Yury Aldana Díaz
Andrés Felipe García.
Taller Analítica Predictiva y machine learning
1. Ejercicio básico de regresión lineal múltiple: El objetivo es que el estudiante

pueda replicar el código del algoritmo que se le entrega, analice la salida del modelo
e identifique las variables más significativas y si el modelo es adecuado para
predecir y de ser así, predecir nuevos casos. Peso: 10 puntos
Utilizando el set de datos Trees se realiza el siguiente análisis de datos:
- Se realiza la carga de la base de datos Trees en donde se obtiene la siguiente

tabla:
- Exploración de datos:
En la base de datos se observan 3 variables numéricas las cuales son la

circunferencia (Girth), la altura (Height) y el volumen (Volume).
Adicionalmente la base de datos cuenta con 31 observaciones.
A continuación se muestra la estadística descriptiva del conjunto de datos y un
boxplot para ilustrar la distribución de las 3 variables
Yury Aldana Díaz
Con respecto a la variable Girth se observa que la distribución es asimétrica, y

está sesgada a la izquierda. Dada la distribución de la variable en el boxplot se
puede concluir también que la desviación de los datos es baja.
Por otra parte, la variable Height tiene una distribución simétrica, al ser la
mediana y la media idénticas.
Finalmente, la variable Volume tiene una distribución sesgada a la izquierda. De

las tres variables es la que mayor desviación tiene y cuenta con una observación
atípica.
- Análisis gráfico:
Se realiza un gráfico de dispersión para identificar la relación entre las variables.
Yury Aldana Díaz
Se observa que hay una correlación fuerte entre la variable circunferencia y la

variable volumen con un valor de 0.97, además en la graficas se observa que los
dos tienen una relación lineal positiva. Por otro lado, también existe una
correlación alta entre las variables altura y volumen de 0.6.
Al querer análisis cada una de las variables de manera individual se generan

histogramas y boxplot para cada una de las variables, como se muestra a
continuación:
Yury Aldana Díaz
En base a los gráficos mostrados anteriormente podemos identificar primero que

la variable volumen tiene datos atípicos, segundo que las variables no tiene
datos muy dispersos debido al tamaño que tiene la caja en los boxplot y tercero
que las variables tienen dispersión normal.
- Matriz de correlación:
Con la matriz de correlación confirmamos lo dicho anteriormente en el gráfico

de correlación.
Yury Aldana Díaz
- Construcción del modelo de regresión:
En base al modelo obtenido anteriormente se realiza su respectivo análisis para

identificar su precisión.
Basados en los estadísticos del modelo podemos concluir que, con un nivel de
confianza del 99% y del 95% respectivamente las variables circunferencia y
altura son estadísticamente significativas para el modelo. Además dado que el
R-cuadrado ajustado del modelo está más cercano a 1 con un 0.9442 el modelo
es adecuado porque predice las variables dependientes con las independientes.
Finalmente se obtiene el siguiente modelo de regresión:
Volumen= β0 + ( β 1∗diámetro ) +( β 2∗altura)

Volumen=−57.9877+ ( 4.7082∗diámetro ) +(0.3393∗altura)
Yury Aldana Díaz
En donde el intercepto de la regresión lineal será de -57.9877 y los coeficientes

de diámetro y altura serán de 4.7082 y 0.3393 respectivamente.
Lo nos lleva a interpretar que por cada unidad adicional en diámetro, el volumen
aumentara en 4.7082. Al igual, que el aumento adicional de una unidad de altura
hará que el volumen aumente en 0.3393.
- Comprobación supuestos del modelo:

Con la finalidad de comprobar los supuestos de normalidad, heterocedasticidad
se procede a realizar una prueba de Shapiro y de Breusch-Pagan
respectivamente, a continuación se ilustran los resultados.
A partir de los resultados obtenidos en ambas pruebas se concluye que los
supuestos de normalidad y heterocedasticidad son respetados.
Yury Aldana Díaz
- Predicción de nuevos casos:
Caso 1: altura 73.4 pies y diámetro 20 pulgadas
Volumen=−57.9877+ ( 4.7082∗20 ) +(0.3393∗73.4)

Volumen=61
Yury Aldana Díaz
Caso 2: altura 65.9 pies y diámetro 18.1 pulgadas
Volumen=−57.9877+ ( 4.7082∗18.1 )+(0.3393∗65.9)

Volumen=50
Caso 3: altura 53.7 pies y diámetro 15.4 pulgadas
Volumen=−57.9877+ ( 4.7082∗15.4 ) +( 0.3393∗53.7)

Volumen=33
2. Ejercicio de regresión lineal múltiple:

El objetivo es que el estudiante utilice el set de datos que se le entrega para:
Se descarga el set de datos de Prestige y se obtiene la siguiente data:
- Exploración de datos:
Yury Aldana Díaz
Al obtener la información general de la base de datos podemos identificar que

contamos con 6 variables y 106 observaciones. Las variables educaction, women y
prestige son tipo numéricas; Income y census son tipo Integer y finalmente type es
tipo factor.
A partir de la estadística descriptiva se concluye que todas las distribuciones son

asimétricas y todas están sesgadas a la izquierda.
a. Realizar un análisis gráfico que permita ver la distribución de las variables

y ver las correlaciones (4 puntos).
Yury Aldana Díaz
Para poder identificar el tipo de relación entre variables realizamos un gráfico de

correlación y la matriz de correlación en donde se encuentran las siguientes
relaciones.
Se observa correlación fuerte positiva entre las siguientes variables:

- Education – income con un 0.58
Yury Aldana Díaz
- Education – Prestige con un 0.85
- Income – Prestige con un 0.71
Por otro lado, se identifió que las corelaciones con la variable Women son
negativas y débiles
No se tienen en cuentas las correlaciones con las variables Census ni Type,

debido a ambas son variables categóricas y no continuas.
Al realizar el análisis individual de las variables numéricas podemos identificar que la

variable Income tiene datos atípicos. Adicionalmente acorde al tamaño de las cajas en los
gráficos de boxplot las variables de Education y Women tienen mayor variabilidad que las
variables de Income y Prestige.
Finalmente, gracias a los histogramas se puede reafirmar que todas las distribuciones están
sesgadas a la izquierda.
Yury Aldana Díaz
Yury Aldana Díaz
b. Implementar el modelo de regresión lineal múltiple (4 puntos).

Yury Aldana Díaz
Se realiza la implementación del modelo lineal en donde se encuentra que la

variable women no es estadísticamente significativa en el modelo.
Adicionalmente, de acuerdo al r cuadrado ajustado las variables independientes
explican en un 0.792 la variable dependiente.
Para terminar, las variables income y education son estadísticamente
significativas con un nivel de confianza del 99%.
c. Implemente otros modelos y valide cuál es el mejor para predecir; debe

explicar el criterio de selección y realizar el correspondiente análisis. (5
puntos).
Modelo 1
El primer modelo a probar consiste en analizar la incidencia no solo de las 3
variables sino también sus interacciones. Este modelo se muestra a
continuación:
A partir del modelo obtenido se concluye que con un nivel de significancia del
90% las variables income, educación, y la interacción income-educación es
significativa. A demás se obtuvo un r cuadrado ajustado del 80,23%
Yury Aldana Díaz
Modelo 2
De acuerdo al punto anterior, decidimos realizar un nuevo modelo quitando la
variable que no era significativa en el modelo anterior, como se muestra a
continuación:
Yury Aldana Díaz
De acuerdo a los estadísticos del modelo podemos identificar que las variables
Income y Education son significativas. Además, se observa que el r cuadrado
ajustado es de un 0.7939, mayor al que tiene el modelo anterior.
Modelo 3
Conociendo que las variables Income y educación son significativas se procede
a realizar un nuevo modelo probando ahora la interacción entre ambas variables:
El modelo se muestra a continuación.
Yury Aldana Díaz
A partir de este nuevo modelo se concluye que con un nivel de confianza del
90% las variable income, education y la interacción de ambas son significativas.
Por otra parte, se obtuvo un r cuadrado ajustado del 80.55%.
d. Analizar las salidas del modelo y concluir cuáles son las variables más
significativas y si el modelo es adecuado para predecir (4 puntos).
El segundo modelo es más adecuado para predecir debido a que tiene un r

ajustado mayor, por lo que tienen mayor capacidad de explicar la variable
dependiente a partir de las independientes. Por los cual, las variables más
significativas son Income y Education.
Finalmente, para comprobar los supuestos de normalidad e independencia de los

residuales se procede a realizar un Gráfico QQ-Plot para el supuesto de
normalidad y se grafican los residuales versus los ajustados. A partir de estas
dos herramientas se concluye que los supuestos se cumplen
Yury Aldana Díaz
Yury Aldana Díaz
e. Con base en el modelo que mejor prediga, realice la predicción de 2 nuevos

casos, usted define los valores de las variables (3 puntos).
- Predicción de nuevos casos:
Caso 1: Income 10500 y education 12.5

Yury Aldana Díaz
Prestige=−6.8477787+ ( 0.0013612∗10500 ) +(4.1374444∗12.5)

Prestige=59
Caso 2: Income 8765 y education 14.5
Prestige=−6.8477787+ ( 0.0013612∗8765 )+(4.1374444∗14.5)

Prestige=65
3. Ejercicio de clasificación
El objetivo es que el estudiante implemente varios modelos de aprendizaje

supervisado, en este caso debe utilizar algoritmos de clasificación para
identificar los clientes propensos a cancelar los productos, es decir, un modelo
churn, para ello:
- Análisis de data:
Yury Aldana Díaz
Se observa que la base de datos consta de 5 variables tipo factor y 15 variables
de tipo integer. La muestra consiste en 5000 observaciones. En este caso
particular, la variable de respuesta es la variable “churn”. Esta variable binaria
se interpreta de la siguiente manera, “no” se asume que la persona sigue siendo
cliente de la empresa, “si” la persona sale.
Actualmente el nivel de churn de la empresa es del 14%. A partir de este nivel y

tomando como referencia otras empresas del sector de comunicaciones se considera
necesario hacer acciones de mejora en el área de retención, ya que en el rubro donde
opera la empresa, una tasa de churn mayor al 5% es alarmante.
Se realiza la partición de la data en un 70% - 30%.

A continuación, se ilustra gráficamente la distribución de las dos muestras luego de
realizar la partición y se muestra la distribución porcentual de ambas muestras
Yury Aldana Díaz
A partir de las figuras anteriores y de la distribución porcentual se pueden concluir

que la partición de los datos se realizó de manera aleatoria ya que la proporción de
los “no” y “yes” en ambas muestras es similar y ambas son consistentes con la
distribución porcentual de la muestra completa.
Yury Aldana Díaz
a. Realizar la predicción y la matriz de confusión.

Matriz de predicción:
Luego de correr el modelo se obtuvieron los siguientes resultados para la
predicción del churn.
b. Identificar cuál es la métrica más adecuada para el problema particular de

churn.
A continuación, se muestran los indicadores de la matriz de confusión.
Yury Aldana Díaz
Dado el contexto del problema, donde agrega más valor poder predecir
correctamente los clientes que potencialmente puede hacer churn, se elige la
sensibilidad como indicador para evaluar el modelo.
En este caso la sensibilidad del modelo es del 88%. A partir de esta métrica se
concluye que el modelo tiene muy buena capacidad de discriminación de los
clientes que pueden hacer churn.
c. Comparar los resultados de los modelos y concluir cuál es el mejor para este
tipo de problemas.
Regresión logística
Como modelo de secundario se implementó una regresión logística, a continuación,
se muestra el modelo.
A partir del modelo se concluye que, con un nivel de confianza del 90% las
variables “Tiene plan internacional”, minutos/día, reclamaciones, “minutos
internacionales” y “llamadas internacionales” son estadísticamente significativas.
Con el fin de comparar los dos modelos se procede a calcular la matriz de

confusión. A continuación, se muestra dicha matriz:
Yury Aldana Díaz
Como se mencionó anteriormente el indicador que se va a utilizar para determinar
cuál de los dos modelos es mejor, es la sensibilidad. Teniendo en cuenta la matriz
de confusión se concluye que la sensibilidad de la regresión logística es del 15,92%.
En base a este resultado se concluye que es mejor el modelo basado en naive bayes
que la regresión logística
Árbol de decisión:
Como modelo segundo modelo se decidió implementar un árbol de decisión. A
continuación, se muestra el modelo:
Yury Aldana Díaz
A continuación, se muestra la matriz de confusión del modelo. La sensibilidad de
este modelo fue del 53.23%.
A partir de los 3 modelos implementados se concluye que el mejor modelo para predecir el
churn de los clientes es el modelo Naive Bayes.
Referencias:
- https://rpubs.com/elfenixsoy/arbol-veronica
- Presentaciones de los módulos
- https://economipedia.com/definiciones/r-cuadrado-ajustado-coeficiente-de-
determinacion-ajustado.html

Taller Analítica Predictiva y Machine Learning

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Taller Analítica Predictiva y Machine Learning

Cargado por

Copyright:

Formatos disponibles

Luisa Fernanda Sereno Alonso

Juan Camilo Pedroza Maury

1. Ejercicio básico de regresión lineal múltiple: El objetivo es que el estudiante

Utilizando el set de datos Trees se realiza el siguiente análisis de datos:

- Se realiza la carga de la base de datos Trees en donde se obtiene la siguiente

En la base de datos se observan 3 variables numéricas las cuales son la

Con respecto a la variable Girth se observa que la distribución es asimétrica, y

Finalmente, la variable Volume tiene una distribución sesgada a la izquierda. De

Se observa que hay una correlación fuerte entre la variable circunferencia y la

Al querer análisis cada una de las variables de manera individual se generan

En base a los gráficos mostrados anteriormente podemos identificar primero que

Con la matriz de correlación confirmamos lo dicho anteriormente en el gráfico

En base al modelo obtenido anteriormente se realiza su respectivo análisis para

Finalmente se obtiene el siguiente modelo de regresión:

Volumen= β0 + ( β 1∗diámetro ) +( β 2∗altura)

En donde el intercepto de la regresión lineal será de -57.9877 y los coeficientes

- Comprobación supuestos del modelo:

- Predicción de nuevos casos:

Caso 1: altura 73.4 pies y diámetro 20 pulgadas

Volumen=−57.9877+ ( 4.7082∗20 ) +(0.3393∗73.4)

Caso 2: altura 65.9 pies y diámetro 18.1 pulgadas

Volumen=−57.9877+ ( 4.7082∗18.1 )+(0.3393∗65.9)

Caso 3: altura 53.7 pies y diámetro 15.4 pulgadas

Volumen=−57.9877+ ( 4.7082∗15.4 ) +( 0.3393∗53.7)

2. Ejercicio de regresión lineal múltiple:

Se descarga el set de datos de Prestige y se obtiene la siguiente data:

Al obtener la información general de la base de datos podemos identificar que

A partir de la estadística descriptiva se concluye que todas las distribuciones son

a. Realizar un análisis gráfico que permita ver la distribución de las variables

Para poder identificar el tipo de relación entre variables realizamos un gráfico de

Se observa correlación fuerte positiva entre las siguientes variables:

No se tienen en cuentas las correlaciones con las variables Census ni Type,

Al realizar el análisis individual de las variables numéricas podemos identificar que la

b. Implementar el modelo de regresión lineal múltiple (4 puntos).

Se realiza la implementación del modelo lineal en donde se encuentra que la

c. Implemente otros modelos y valide cuál es el mejor para predecir; debe

El segundo modelo es más adecuado para predecir debido a que tiene un r

Finalmente, para comprobar los supuestos de normalidad e independencia de los

e. Con base en el modelo que mejor prediga, realice la predicción de 2 nuevos

- Predicción de nuevos casos:

Caso 1: Income 10500 y education 12.5

Prestige=−6.8477787+ ( 0.0013612∗10500 ) +(4.1374444∗12.5)

Caso 2: Income 8765 y education 14.5

Prestige=−6.8477787+ ( 0.0013612∗8765 )+(4.1374444∗14.5)

El objetivo es que el estudiante implemente varios modelos de aprendizaje

Actualmente el nivel de churn de la empresa es del 14%. A partir de este nivel y

Se realiza la partición de la data en un 70% - 30%.

A partir de las figuras anteriores y de la distribución porcentual se pueden concluir

a. Realizar la predicción y la matriz de confusión.

b. Identificar cuál es la métrica más adecuada para el problema particular de

Con el fin de comparar los dos modelos se procede a calcular la matriz de

También podría gustarte