Está en la página 1de 26

Luisa Fernanda Sereno Alonso

Juan Camilo Pedroza Maury


Yury Aldana Díaz
Andrés Felipe García.
Taller Analítica Predictiva y machine learning

1. Ejercicio básico de regresión lineal múltiple: El objetivo es que el estudiante


pueda replicar el código del algoritmo que se le entrega, analice la salida del modelo
e identifique las variables más significativas y si el modelo es adecuado para
predecir y de ser así, predecir nuevos casos. Peso: 10 puntos

Utilizando el set de datos Trees se realiza el siguiente análisis de datos:

- Se realiza la carga de la base de datos Trees en donde se obtiene la siguiente


tabla:

- Exploración de datos:

En la base de datos se observan 3 variables numéricas las cuales son la


circunferencia (Girth), la altura (Height) y el volumen (Volume).
Adicionalmente la base de datos cuenta con 31 observaciones.
A continuación se muestra la estadística descriptiva del conjunto de datos y un
boxplot para ilustrar la distribución de las 3 variables
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

Con respecto a la variable Girth se observa que la distribución es asimétrica, y


está sesgada a la izquierda. Dada la distribución de la variable en el boxplot se
puede concluir también que la desviación de los datos es baja.

Por otra parte, la variable Height tiene una distribución simétrica, al ser la
mediana y la media idénticas.

Finalmente, la variable Volume tiene una distribución sesgada a la izquierda. De


las tres variables es la que mayor desviación tiene y cuenta con una observación
atípica.

- Análisis gráfico:
Se realiza un gráfico de dispersión para identificar la relación entre las variables.
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

Se observa que hay una correlación fuerte entre la variable circunferencia y la


variable volumen con un valor de 0.97, además en la graficas se observa que los
dos tienen una relación lineal positiva. Por otro lado, también existe una
correlación alta entre las variables altura y volumen de 0.6.

Al querer análisis cada una de las variables de manera individual se generan


histogramas y boxplot para cada una de las variables, como se muestra a
continuación:
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

En base a los gráficos mostrados anteriormente podemos identificar primero que


la variable volumen tiene datos atípicos, segundo que las variables no tiene
datos muy dispersos debido al tamaño que tiene la caja en los boxplot y tercero
que las variables tienen dispersión normal.

- Matriz de correlación:

Con la matriz de correlación confirmamos lo dicho anteriormente en el gráfico


de correlación.
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
- Construcción del modelo de regresión:

En base al modelo obtenido anteriormente se realiza su respectivo análisis para


identificar su precisión.

Basados en los estadísticos del modelo podemos concluir que, con un nivel de
confianza del 99% y del 95% respectivamente las variables circunferencia y
altura son estadísticamente significativas para el modelo. Además dado que el
R-cuadrado ajustado del modelo está más cercano a 1 con un 0.9442 el modelo
es adecuado porque predice las variables dependientes con las independientes.

Finalmente se obtiene el siguiente modelo de regresión:

Volumen= β0 + ( β 1∗diámetro ) +( β 2∗altura)


Volumen=−57.9877+ ( 4.7082∗diámetro ) +(0.3393∗altura)
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

En donde el intercepto de la regresión lineal será de -57.9877 y los coeficientes


de diámetro y altura serán de 4.7082 y 0.3393 respectivamente.

Lo nos lleva a interpretar que por cada unidad adicional en diámetro, el volumen
aumentara en 4.7082. Al igual, que el aumento adicional de una unidad de altura
hará que el volumen aumente en 0.3393.

- Comprobación supuestos del modelo:


Con la finalidad de comprobar los supuestos de normalidad, heterocedasticidad
se procede a realizar una prueba de Shapiro y de Breusch-Pagan
respectivamente, a continuación se ilustran los resultados.
A partir de los resultados obtenidos en ambas pruebas se concluye que los
supuestos de normalidad y heterocedasticidad son respetados.
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

- Predicción de nuevos casos:

Caso 1: altura 73.4 pies y diámetro 20 pulgadas

Volumen=−57.9877+ ( 4.7082∗20 ) +(0.3393∗73.4)


Volumen=61
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

Caso 2: altura 65.9 pies y diámetro 18.1 pulgadas

Volumen=−57.9877+ ( 4.7082∗18.1 )+(0.3393∗65.9)


Volumen=50

Caso 3: altura 53.7 pies y diámetro 15.4 pulgadas

Volumen=−57.9877+ ( 4.7082∗15.4 ) +( 0.3393∗53.7)


Volumen=33

2. Ejercicio de regresión lineal múltiple:


El objetivo es que el estudiante utilice el set de datos que se le entrega para:

Se descarga el set de datos de Prestige y se obtiene la siguiente data:

- Exploración de datos:
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

Al obtener la información general de la base de datos podemos identificar que


contamos con 6 variables y 106 observaciones. Las variables educaction, women y
prestige son tipo numéricas; Income y census son tipo Integer y finalmente type es
tipo factor.

A partir de la estadística descriptiva se concluye que todas las distribuciones son


asimétricas y todas están sesgadas a la izquierda.

a. Realizar un análisis gráfico que permita ver la distribución de las variables


y ver las correlaciones (4 puntos).
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

Para poder identificar el tipo de relación entre variables realizamos un gráfico de


correlación y la matriz de correlación en donde se encuentran las siguientes
relaciones.

Se observa correlación fuerte positiva entre las siguientes variables:


- Education – income con un 0.58
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
- Education – Prestige con un 0.85
- Income – Prestige con un 0.71

Por otro lado, se identifió que las corelaciones con la variable Women son
negativas y débiles

No se tienen en cuentas las correlaciones con las variables Census ni Type,


debido a ambas son variables categóricas y no continuas.

Al realizar el análisis individual de las variables numéricas podemos identificar que la


variable Income tiene datos atípicos. Adicionalmente acorde al tamaño de las cajas en los
gráficos de boxplot las variables de Education y Women tienen mayor variabilidad que las
variables de Income y Prestige.
Finalmente, gracias a los histogramas se puede reafirmar que todas las distribuciones están
sesgadas a la izquierda.
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

b. Implementar el modelo de regresión lineal múltiple (4 puntos).


Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

Se realiza la implementación del modelo lineal en donde se encuentra que la


variable women no es estadísticamente significativa en el modelo.
Adicionalmente, de acuerdo al r cuadrado ajustado las variables independientes
explican en un 0.792 la variable dependiente.
Para terminar, las variables income y education son estadísticamente
significativas con un nivel de confianza del 99%.

c. Implemente otros modelos y valide cuál es el mejor para predecir; debe


explicar el criterio de selección y realizar el correspondiente análisis. (5
puntos).
Modelo 1
El primer modelo a probar consiste en analizar la incidencia no solo de las 3
variables sino también sus interacciones. Este modelo se muestra a
continuación:
A partir del modelo obtenido se concluye que con un nivel de significancia del
90% las variables income, educación, y la interacción income-educación es
significativa. A demás se obtuvo un r cuadrado ajustado del 80,23%
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

Modelo 2
De acuerdo al punto anterior, decidimos realizar un nuevo modelo quitando la
variable que no era significativa en el modelo anterior, como se muestra a
continuación:
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

De acuerdo a los estadísticos del modelo podemos identificar que las variables
Income y Education son significativas. Además, se observa que el r cuadrado
ajustado es de un 0.7939, mayor al que tiene el modelo anterior.

Modelo 3
Conociendo que las variables Income y educación son significativas se procede
a realizar un nuevo modelo probando ahora la interacción entre ambas variables:
El modelo se muestra a continuación.
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

A partir de este nuevo modelo se concluye que con un nivel de confianza del
90% las variable income, education y la interacción de ambas son significativas.
Por otra parte, se obtuvo un r cuadrado ajustado del 80.55%.

d. Analizar las salidas del modelo y concluir cuáles son las variables más
significativas y si el modelo es adecuado para predecir (4 puntos).

El segundo modelo es más adecuado para predecir debido a que tiene un r


ajustado mayor, por lo que tienen mayor capacidad de explicar la variable
dependiente a partir de las independientes. Por los cual, las variables más
significativas son Income y Education.

Finalmente, para comprobar los supuestos de normalidad e independencia de los


residuales se procede a realizar un Gráfico QQ-Plot para el supuesto de
normalidad y se grafican los residuales versus los ajustados. A partir de estas
dos herramientas se concluye que los supuestos se cumplen
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

e. Con base en el modelo que mejor prediga, realice la predicción de 2 nuevos


casos, usted define los valores de las variables (3 puntos).

- Predicción de nuevos casos:

Caso 1: Income 10500 y education 12.5


Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

Prestige=−6.8477787+ ( 0.0013612∗10500 ) +(4.1374444∗12.5)


Prestige=59

Caso 2: Income 8765 y education 14.5

Prestige=−6.8477787+ ( 0.0013612∗8765 )+(4.1374444∗14.5)


Prestige=65

3. Ejercicio de clasificación

El objetivo es que el estudiante implemente varios modelos de aprendizaje


supervisado, en este caso debe utilizar algoritmos de clasificación para
identificar los clientes propensos a cancelar los productos, es decir, un modelo
churn, para ello:

- Análisis de data:
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
Se observa que la base de datos consta de 5 variables tipo factor y 15 variables
de tipo integer. La muestra consiste en 5000 observaciones. En este caso
particular, la variable de respuesta es la variable “churn”. Esta variable binaria
se interpreta de la siguiente manera, “no” se asume que la persona sigue siendo
cliente de la empresa, “si” la persona sale.

Actualmente el nivel de churn de la empresa es del 14%. A partir de este nivel y


tomando como referencia otras empresas del sector de comunicaciones se considera
necesario hacer acciones de mejora en el área de retención, ya que en el rubro donde
opera la empresa, una tasa de churn mayor al 5% es alarmante.

Se realiza la partición de la data en un 70% - 30%.


A continuación, se ilustra gráficamente la distribución de las dos muestras luego de
realizar la partición y se muestra la distribución porcentual de ambas muestras
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

A partir de las figuras anteriores y de la distribución porcentual se pueden concluir


que la partición de los datos se realizó de manera aleatoria ya que la proporción de
los “no” y “yes” en ambas muestras es similar y ambas son consistentes con la
distribución porcentual de la muestra completa.
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.

a. Realizar la predicción y la matriz de confusión.


Matriz de predicción:
Luego de correr el modelo se obtuvieron los siguientes resultados para la
predicción del churn.

b. Identificar cuál es la métrica más adecuada para el problema particular de


churn.
A continuación, se muestran los indicadores de la matriz de confusión.
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
Dado el contexto del problema, donde agrega más valor poder predecir
correctamente los clientes que potencialmente puede hacer churn, se elige la
sensibilidad como indicador para evaluar el modelo.
En este caso la sensibilidad del modelo es del 88%. A partir de esta métrica se
concluye que el modelo tiene muy buena capacidad de discriminación de los
clientes que pueden hacer churn.

c. Comparar los resultados de los modelos y concluir cuál es el mejor para este
tipo de problemas.
Regresión logística
Como modelo de secundario se implementó una regresión logística, a continuación,
se muestra el modelo.
A partir del modelo se concluye que, con un nivel de confianza del 90% las
variables “Tiene plan internacional”, minutos/día, reclamaciones, “minutos
internacionales” y “llamadas internacionales” son estadísticamente significativas.

Con el fin de comparar los dos modelos se procede a calcular la matriz de


confusión. A continuación, se muestra dicha matriz:
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
Como se mencionó anteriormente el indicador que se va a utilizar para determinar
cuál de los dos modelos es mejor, es la sensibilidad. Teniendo en cuenta la matriz
de confusión se concluye que la sensibilidad de la regresión logística es del 15,92%.

En base a este resultado se concluye que es mejor el modelo basado en naive bayes
que la regresión logística

Árbol de decisión:
Como modelo segundo modelo se decidió implementar un árbol de decisión. A
continuación, se muestra el modelo:
Luisa Fernanda Sereno Alonso
Juan Camilo Pedroza Maury
Yury Aldana Díaz
Andrés Felipe García.
A continuación, se muestra la matriz de confusión del modelo. La sensibilidad de
este modelo fue del 53.23%.

A partir de los 3 modelos implementados se concluye que el mejor modelo para predecir el
churn de los clientes es el modelo Naive Bayes.
Referencias:
- https://rpubs.com/elfenixsoy/arbol-veronica
- Presentaciones de los módulos
- https://economipedia.com/definiciones/r-cuadrado-ajustado-coeficiente-de-
determinacion-ajustado.html

También podría gustarte