Está en la página 1de 21

UNIVERSIDAD ESTATAL DE MILAGRO

Facultad de Ciencias de la Ingeniería


CARRERA:

Ingeniería Industrial

MATERIA:

Modelos Probabilísticos

CURSO:

Sexto semestre C2

Grupo #1

Integrantes:

- Jean Carlos Campo Cobeña

- Steven Aaron Méndez Peralta

- Melanie Daniela Palacios Arellano

- Antonio Isaías Pita Alvarado

- Dailana Milena Rivera Cortez

DOCENTE:

Ing. Luis Torres Ordoñez


2

Índice

Introducción ......................................................................................................................... 3

1. Carga de Base de Datos. .......................................................................................... 4

2. Muestreo .................................................................................................................... 4

3. Identificación de conceptos ...................................................................................... 6

3.1. Población de estudio. ..................................................................................... 6

3.2. Muestra. ......................................................................................................... 6

3.3. Variable dependiente .................................................................................... 6

3.4. Variables independientes .............................................................................. 6

4. Análisis de Regresión................................................................................................... 7

4.1. Construya su modelo de regresión múltiple eligiendo su mejor modelo .. 9

4.2. Realice los contrastes de hipótesis necesarios para su modelo ................ 13

4.3. Compruebe los supuestos del modelo de regresión lineal. ....................... 14

4.3.1. Linealidad. ................................................................................................ 14

4.3.2. Independencia........................................................................................... 15

4.3.3. Homocedasticidad. ................................................................................... 16

4.3.4. Normalidad ............................................................................................... 16

4.3.5. No colinealidad (multicolinealidad). ........................................................ 18

5. Elaboración del informe del análisis del caso práctico. ......................................... 18

Bibliografía ........................................................................................................................ 21
3

Introducción

La regresión lineal múltiple es la extensión del modelo de regresión lineal simple, por lo

cual, este tipo de regresión puede utilizarse cuando se quiere conocer la fuerza del efecto que

las variables independientes tienen en una variable dependiente, de tal manera, que en el

presente documento se muestra un ejemplo de regresión lineal múltiple desarrollado a partir de

las opciones y conocimientos que se efectúen con el software Rstudio.

El trabajo consiste en descargar una base de datos de la pagina web keggle y empezar a

construir un modelo de regresión múltiple, realizándolo a través del uso de la base de datos

escogida House price prediction que cumple con los requisitos establecidos para disponer los

gráficos y conceptos correspondientes.

Para realizar este proceso estadístico se debe de ir de un modelo general a un modelo

reducido identificando la variable dependiente y las variables independientes, para así

establecer un diagrama de dispersión y el coeficiente de correlación, que nos permite observar

el resumen estadístico que nos proporciona Rstudio para su análisis estadístico inferencial.

Además de comprobar los contrastes de hipótesis se debe evidenciar los supuestos de regresión

lineal múltiple que son: linealidad, independencia, homocedasticidad, normalidad y no

colinealidad.

Al finalizar el modelo se procede a realizar un ejemplo práctico ejecutado con el mismo

software estadístico y comprobando el funcionamiento del modelo obtenido en nuestra

regresión lineal múltiple aplicando fundamentos teóricos a la práctica.


4

Actividades a realizar:

A partir del conjunto de datos y utilizando R Studio, el participante debe realizar las

siguientes actividades:

1. Carga de Base de Datos.

Descargue una base de datos cualquiera que tenga las siguientes condiciones y cargue el

conjunto de datos en el paquete R.

La base de datos a trabajar en el trabajo es:

https://www.kaggle.com/datasets/shree1992/housedata

Esta es una base de datos de los mercados inmobiliarios, como los de Sydney y Melbourne,

donde se están moviendo los precios de las propiedades.

a. Al menos 5 variables numéricas

2. Muestreo

De la base de datos anterior, realice un muestreo donde queden 90 observaciones. (sugerencia:

realice un muestreo aleatorio simple)

Ilustración 1

Muestreo aleatorio de la base de datos en RStudio.

Nota: Comandos generados para realizar el muestreo aleatorio de 90 observaciones. Fuente: Autoría propia.
5

Para obtener la muestra se utiliza la librería dplyr () de RStudio, con la función select () se

selecciona las variables con las que se trabaja en forma aleatoria sin reemplazo y por último

se redondea la variable Precio.

A continuación, se visualiza la base:

Ilustración 2

Tabla de datos correspondiente a la muestra seleccionada.

Fuente: Autoría propia


6

3. Identificación de conceptos

Población, muestra y tipo de variables de análisis:

Población: Colección de todos los elementos que se están estudiando y sobre los cuales

intentamos llegar a conclusiones.

Muestra: Es un subconjunto de la población y contiene elementos en la cual debe

estudiarse la característica de interés para la población.

Tipo de variables de análisis: En el trabajo a realizar para el análisis de regresión

intervienen dos tipos de variables: las variables independientes o predictoras(X) y las

variables de respuesta o dependientes(Y).

Utilizando la información del conjunto de datos, se identifica lo siguiente:

3.4.3.1. Población de estudio.

Base de datos House price predicción

3.5.3.2. Muestra.

Nueva base de datos llamada base la cual contiene 7 variables, una variable dependiente y

6 variables independientes.

3.6.Variable dependiente

Price (Precio): esta variable representa el costo de las viviendas de Sydney y Melbourne,

3.7.Variables independientes

Variable_1➔ bedrooms(D): Variable que representa los dormitorios de la casa

Variable_2:➔ bathrooms(B): Esta variable es la cantidad de baños que tiene la casa

Variable_3:➔sqft_living(as): representa el área de la sala de la casa.

Variable_4➔ sqft_lot(al): representa el área del lote de la casa.

Variable_5:➔ floor(pisos): representa el número de pisos que tiene cada casa.

Variable_6:➔ sqft_above(aa): es el área de la parte de arriba de la casa.


7

4. Análisis de Regresión

De la base de datos anterior (punto2), realice los gráficos de dispersión y cálculos del

coeficiente de correlación entre variable.

Realizo el gráfico de dispersión para ver como están distribuidas las variables.

Ilustración 3

Gráfica de dispersión para identificar la distribución de variables.

Fuente: Autoría propia

Estas correlaciones están dentro del rango -1 a 1


8

Ilustración 4

Matriz de números para observar la correlación de los datos.

Fuente. Autoría propia

En esta matriz de números se observa claramente que casi todas las variables están

correlacionadas positivamente, representando cada valor una asociación entre ellas.

❖ as-aa, B-aa, Precio-aa, D-as tienen una correlación positiva fuerte.

❖ B-pisos, D-as tienen una correlación positiva moderada

❖ Precio-al, D-al, B-al tienen una correlación positiva débil

❖ al-pisos, es la única correlación negativa débil y así sucesivamente mientras más se

acerque el coeficiente de correlación al número 1 es más fuerte mientras que el que

más se aleje es más débil


9

3.8.4.1. Construya su modelo de regresión múltiple eligiendo su mejor modelo

Antes de construir el modelo realizo una prueba anova.

Ilustración 5

Aplicación de la prueba Anova en RStudio.

Fuente: autoría propia

Ho: 𝜷𝟏 = 𝜷𝟐 = …𝜷𝒌 = 0

Ha: 𝜷𝒋 ≠0 al menos una j

Criterio de decisión: p-value < 0.05 se rechaza Ho

En la prueba Anova al rechazar la hipótesis nula significa que esa variable es significativa

para el modelo, por lo tanto, en el cuadro de resultados se evidencia que la variable D, B y as

son significativas para el modelo porque el p-value < 0.05, el resto de variables aparentemente

no son significativas. Este breve análisis nos da una idea de que variables podrían aportar al

modelo.

A continuación, vamos a crear un primer modelo:


10

Ilustración 6

Construcción del Modelo 1

Fuente: autoría propia

Al analizar los resultados del summary () se puede indicar que:

Pr(>|t|): Aquí se observa que el p-value > 0.05 de la mayoría de las variables del modelo,

la única que es significativa es as, por lo que, tenemos que realizar un segundo modelo

incluyendo más variables, aunque no sean significativas. Las variables a escoger sería las que

el modelo ANOVA me indicó.

Adjusted R-squared = 0.6029. El R² ajustado es conocido como el coeficiente de

Determinación el cual indica que alrededor del 60.29% de la variabilidad del valor del Precio

puede explicarse por las diferencias en los datos de nuestras variables independientes.
11

F-statistic: Esta es la prueba de hipótesis global el p-value<0.05 lo que lleva a concluir

que existe suficiente evidencia estadística para decir que al menos un coeficiente de regresión

es diferente de cero, por lo tanto, es aceptable el modelo.

Procedemos a crear un segundo modelo para analizarlo:

Ilustración 7

Construcción del Modelo 2

Fuente: autoría propia

Al ver los resultados del m2 se identifica que las variables que se han quitado en realidad no

dan peso al modelo, el coeficiente de Determinación es el 60.97% e incluso subió en centésimas

manifestando que este modelo alrededor del 60,97% de la variabilidad del Precio es explicado

por la diferencia de datos de los dormitorios, baños y área de la sala, en lo que respecta al F-

statistic el p-value < 0.05, esto indica que en la prueba de hipótesis global se rechaza la Ho

afirmando que el modelo si es válido.

Al tener un coeficiente de determinación casi iguales m1 y m2 el intercepto sigue siendo no

significativo por ser p-valor > 0.05 procediendo a realizar m3 quitando la variable baño.
12

Ilustración 8

Construcción del Modelo 3

Fuente: autoría propia

Como se puede observar en este modelo el coeficiente de Determinación subió y las

variables D y as son significativas porque su p-value < 0.05, la hipótesis global me indica que

p-value < 0.05 por lo tanto se acepta el modelo.

Esto me quiere decir que el modelo 3 me indica que alrededor del 61.23% de la variabilidad

del Precio, puede explicarse por las diferencias de el número de dormitorios y área de la sala.

Una vez obtenido nuestros modelos realizaremos la prueba de AIC (criterio de información de

Akaike).

El criterio de información de Akaike (AIC) es una métrica que se utiliza para comparar el

ajuste de varios modelos de regresión.


13

El modelo que tenga el AIC con menor valor debe ser el elegido para seguir analizándolo,

pero si se observa bien los resultados se observa que no cambia mucho entre m2 y m3,

identificando que en m2 tenemos la variable B de baños y en el m3 no la tenemos. De esta

manera, se realiza el análisis del grupo en decidir si es m2 o m3 la ecuación escogida a pesar

de que AIC me indica m3, se señala m2 porque para al comprar una casa si es importante

saber cuántos baños tiene, igual en la prueba de contrastes de hipótesis se comprueba si

estamos en lo correcto o no de escoger m2.

Con esa decisión nuestro modelo para seguir analizando quedaría así:

Ecuación para el modelo m2:

Precio= 139957.3464 - 60204.3979(D) -32071.6848(B) + 320.2625(as)

3.9.4.2. Realice los contrastes de hipótesis necesarios para su modelo

En los análisis anteriores el F-statistic dio un p-value<0.05 se asumió que por lo menos un

coeficiente de nuestro modelo es diferente de cero. Ahora se procede a hacer el análisis en

forma individual y para ello podemos ayudarnos con cor.test (), en el cual si el p-value < 0.05

ese coeficiente del modelo si se acepta caso contrario el coeficiente sería cero y se rechaza.

Ho: 𝜷𝟏 = 𝜷𝟐 = …𝜷𝒌 = 0

Ha: 𝜷𝒋 ≠0 al menos una j

Criterio de decisión: p-value < 0.05 se rechaza Ho


14

Ilustración 9 Contraste de hipótesis del modelo elaborado.

Fuente: autoría propia.

Como se puede observar en los tres test el p-value < 0.05 entonces las tres variables si

aportan al modelo. Por lo tanto, se evidencia el correcto análisis anterior al incluir la variable

B en el modelo para así comprobar los supuestos de la regresión a m2.

Precio= 139957.3464 - 60204.3979(D) -32071.6848(B) + 320.2625(as)

3.10. 4.3. Compruebe los supuestos del modelo de regresión lineal.

4.3.1. Linealidad. Para que exista linealidad en el modelo debe existir una relación lineal

entre el predictor y la variable respuesta. Para comprobarlo se debe realizar el gráfico

a los residuos y comprobar que el gráfico tiende a ser una línea recta.
15

Ilustración 10 Grafica de Linealidad del Modelo.

Fuente: autoría propia

Se cumple la linealidad para todos los predictores porque los residuos se distribuyen en

torno al eje x, aunque se puede observar ciertos datos atípicos.

4.3.2. Independencia. Los datos se encuentran en una forma aleatoria, concluyendo así que

los residuos no tienen un patrón o dirección por lo tanto existe independencia en los

residuos.

Ilustración 11

Gráfica de independencia del modelo escogido.

Fuente: autoría propia


16

4.3.3. Homocedasticidad.

La varianza de los residuos es constante

Ho: Homocedasticidad

Ha: Heterocedasticidad

Criterio de decisión: p-value < 0.05 por lo tanto se rechaza Ho

p-value < 0.05 se rechaza la hipótesis nula, entonces se considera que la varianza no es

constante (varía) por lo tanto hay heterocedasticidad, puesto que, la varianza de

los errores(residuos) no es igual en todas las observaciones realizadas.

Se puede corregir el problema de varianza no constante en los errores aplicando

transformaciones a los datos. Sin embargo, si no se tiene cuidado, se puede afectar la

linealidad o la normalidad.

4.3.4. Normalidad

Los residuos tienen que poseer una distribución normal

Ho: normalidad

H1: no hay normalidad

Criterio de decisión: p-value < 0.05 por lo tanto se rechaza Ho

Por tener más de 50 observaciones se aplica el test de lillie que no es más que el test de

kolmogoroc mejorado y también se aplica el test de kolmogoroc.


17

Ilustración 12

Test de Lillie

Fuente: autoría propia

Se puede observar que para ambos test el p-value < 0.05, por lo tanto, se rechaza la

hipótesis nula, esto quiere decir que no hay normalidad.

Ilustración 13

Gráfica de normalidad efectuada en RStudio.

Fuente: autoría propia


18

4.3.5. No colinealidad (multicolinealidad). Se produce cuando existe fuerte (o total)

correlación entre las variables independientes. La multicolinealidad es la correlación

alta entre más de dos variables explicativas.

VIF = 1: Ausencia total de colinealidad

1<VIF<5: La regresión puede verse afectada por cierta colinealidad

5<VIF<10: Causa de preocupación

El termino de tolerancia es 1/Vif por lo que los límites recomendables están entre 1 y 10

De la salida anterior se visualiza que los VIF de todas las variables están entre 1 y 5 por

lo que la regresión puede verse afectada por cierta colinealidad. Como los datos no se

acercan mucho a 5 se puede decir que no hay multicolinealidad.

5. Elaboración del informe del análisis del caso práctico.

Para elaborar el informe de análisis del modelo m2 de la base de datos House Price

predicción se presenta el modelo reducido:

Precio= 139957.3464 - 60204.3979(D) -32071.6848(B) + 320.2625(as)

Cuando se obtuvo el m1 se presentaron problemas con la significancia de las variables, de

tal manera, que se tuvo que crear tres modelos, pero al final se decidió por el m2 sugerido por

la prueba ANOVA al identificar que esas variables tenían peso al momento de saber el precio

de una casa.

Una vez que se ha realizado los contrastes de hipótesis y los supuestos al modelo se puede

concluir que alrededor del 60,97% de la variabilidad del Precio es explicado por la diferencia
19

de datos de los dormitorios, baños y área de la sala, o todo lo contrario, es decir se puede

concluir que el 39,03% de la variabilidad del Precio de la casa no puede explicarse por las

variables D,B,as. En lo que respecta al F-statistic el p-value < 0.05, esto indica que en la

prueba de hipótesis global se rechaza la Ho afirmando que el modelo si es válido.

El modelo si tiene variables predictoras significativas para su variable de respuesta, los

coeficientes de las variables son diferente de cero, debido que, se pudo comprobar con

cor.test() el valor del p-value de cada relación de las variables independientes con su variable

dependiente, evidenciando así que eran menores a 0.05.

En los supuestos si cumple con la linealidad, independencia y no colinealidad, pero se

determina que no cumple con el supuesto de homocedasticidad, es decir las varianzas de los

residuos no son constantes siendo quizás ocasionado por necesitar algún ajuste estadístico y

presencia de datos que afecten al modelo.

También demostramos que los residuos no poseen normalidad, para solucionarlo hay que

realizar una revisión detallada de las variables independientes y ver los datos atípicos.

Ahora se muestra del modelo reducido(m2):

Precio= 139957.3464 - 60204.3979(D) -32071.6848(B) + 320.2625(as)

La variable as tiene una relación directa y positiva sobre la variable Precio, mientras

que, las variables D y B tienen una relación directa y negativa con la variable Precio. Se

puede decir que la variable Precio sube en promedio de 320.2625 cada vez que el área de la

sala se incrementa y el número de dormitorios y baños permanecen constantes.

El precio de la casa disminuye en un promedio de 60204.3979 cada vez que se aumenta

la variable dormitorio y el número de baños y área de la sala permanecen constantes, del

mismo modo, el precio de la casa disminuye en un promedio de 32071.6848 cada vez que
20

se incrementa el número de baños y número de dormitorios y el área de la sala permanecen

constantes.

Para finalizar se usa el m2 para nuestra predicción:

Precio= 139957.3464 - 60204.3979(D) -32071.6848(B) + 320.2625(as)

Ilustración 14

Comprobación del modelo 2.

Fuente. Autoria propia

En sintesis, se puede comprobar que si el número de dormitorios y baños permanece

constantes y se incrementa el area de la sala el precio de la vivienda se va aumentar, y así en

el modelo se puede reemplazar las variables de acuerdo a la información que tenga y se podrá

estimar cual sería en promedio el precio de la vivienda.


21

Bibliografía

Mendenhall, Beaver, & Beaver. (2010). Introducción a la probabilidad y estadistica .

México: Cengage Learning Inc.

También podría gustarte