GRUPO#1Proyecto Regresión

UNIVERSIDAD ESTATAL DE MILAGRO
Facultad de Ciencias de la Ingeniería

CARRERA:
Ingeniería Industrial
MATERIA:
Modelos Probabilísticos
CURSO:
Sexto semestre C2
Grupo #1
Integrantes:
- Jean Carlos Campo Cobeña
- Steven Aaron Méndez Peralta
- Melanie Daniela Palacios Arellano
- Antonio Isaías Pita Alvarado
- Dailana Milena Rivera Cortez
DOCENTE:
Ing. Luis Torres Ordoñez

2
Índice
Introducción ......................................................................................................................... 3
1. Carga de Base de Datos. .......................................................................................... 4
2. Muestreo .................................................................................................................... 4
3. Identificación de conceptos ...................................................................................... 6
3.1. Población de estudio. ..................................................................................... 6
3.2. Muestra. ......................................................................................................... 6
3.3. Variable dependiente .................................................................................... 6
3.4. Variables independientes .............................................................................. 6
4. Análisis de Regresión................................................................................................... 7
4.1. Construya su modelo de regresión múltiple eligiendo su mejor modelo .. 9
4.2. Realice los contrastes de hipótesis necesarios para su modelo ................ 13
4.3. Compruebe los supuestos del modelo de regresión lineal. ....................... 14
4.3.1. Linealidad. ................................................................................................ 14
4.3.2. Independencia........................................................................................... 15
4.3.3. Homocedasticidad. ................................................................................... 16
4.3.4. Normalidad ............................................................................................... 16
4.3.5. No colinealidad (multicolinealidad). ........................................................ 18
5. Elaboración del informe del análisis del caso práctico. ......................................... 18
Bibliografía ........................................................................................................................ 21
3
Introducción
La regresión lineal múltiple es la extensión del modelo de regresión lineal simple, por lo
cual, este tipo de regresión puede utilizarse cuando se quiere conocer la fuerza del efecto que
las variables independientes tienen en una variable dependiente, de tal manera, que en el
presente documento se muestra un ejemplo de regresión lineal múltiple desarrollado a partir de
las opciones y conocimientos que se efectúen con el software Rstudio.
El trabajo consiste en descargar una base de datos de la pagina web keggle y empezar a
construir un modelo de regresión múltiple, realizándolo a través del uso de la base de datos
escogida House price prediction que cumple con los requisitos establecidos para disponer los
gráficos y conceptos correspondientes.
Para realizar este proceso estadístico se debe de ir de un modelo general a un modelo
reducido identificando la variable dependiente y las variables independientes, para así
establecer un diagrama de dispersión y el coeficiente de correlación, que nos permite observar
el resumen estadístico que nos proporciona Rstudio para su análisis estadístico inferencial.
Además de comprobar los contrastes de hipótesis se debe evidenciar los supuestos de regresión
lineal múltiple que son: linealidad, independencia, homocedasticidad, normalidad y no
colinealidad.
Al finalizar el modelo se procede a realizar un ejemplo práctico ejecutado con el mismo
software estadístico y comprobando el funcionamiento del modelo obtenido en nuestra
regresión lineal múltiple aplicando fundamentos teóricos a la práctica.

4
Actividades a realizar:
A partir del conjunto de datos y utilizando R Studio, el participante debe realizar las
siguientes actividades:
1. Carga de Base de Datos.
Descargue una base de datos cualquiera que tenga las siguientes condiciones y cargue el
conjunto de datos en el paquete R.
La base de datos a trabajar en el trabajo es:
https://www.kaggle.com/datasets/shree1992/housedata
Esta es una base de datos de los mercados inmobiliarios, como los de Sydney y Melbourne,
donde se están moviendo los precios de las propiedades.
a. Al menos 5 variables numéricas
2. Muestreo
De la base de datos anterior, realice un muestreo donde queden 90 observaciones. (sugerencia:
realice un muestreo aleatorio simple)
Ilustración 1
Muestreo aleatorio de la base de datos en RStudio.
Nota: Comandos generados para realizar el muestreo aleatorio de 90 observaciones. Fuente: Autoría propia.
5
Para obtener la muestra se utiliza la librería dplyr () de RStudio, con la función select () se
selecciona las variables con las que se trabaja en forma aleatoria sin reemplazo y por último
se redondea la variable Precio.
A continuación, se visualiza la base:
Ilustración 2
Tabla de datos correspondiente a la muestra seleccionada.
Fuente: Autoría propia

6
3. Identificación de conceptos
Población, muestra y tipo de variables de análisis:
Población: Colección de todos los elementos que se están estudiando y sobre los cuales
intentamos llegar a conclusiones.
Muestra: Es un subconjunto de la población y contiene elementos en la cual debe
estudiarse la característica de interés para la población.
Tipo de variables de análisis: En el trabajo a realizar para el análisis de regresión
intervienen dos tipos de variables: las variables independientes o predictoras(X) y las
variables de respuesta o dependientes(Y).
Utilizando la información del conjunto de datos, se identifica lo siguiente:
3.4.3.1. Población de estudio.
Base de datos House price predicción
3.5.3.2. Muestra.
Nueva base de datos llamada base la cual contiene 7 variables, una variable dependiente y
6 variables independientes.
3.6.Variable dependiente
Price (Precio): esta variable representa el costo de las viviendas de Sydney y Melbourne,
3.7.Variables independientes
Variable_1➔ bedrooms(D): Variable que representa los dormitorios de la casa
Variable_2:➔ bathrooms(B): Esta variable es la cantidad de baños que tiene la casa
Variable_3:➔sqft_living(as): representa el área de la sala de la casa.
Variable_4➔ sqft_lot(al): representa el área del lote de la casa.
Variable_5:➔ floor(pisos): representa el número de pisos que tiene cada casa.
Variable_6:➔ sqft_above(aa): es el área de la parte de arriba de la casa.

7
4. Análisis de Regresión
De la base de datos anterior (punto2), realice los gráficos de dispersión y cálculos del
coeficiente de correlación entre variable.
Realizo el gráfico de dispersión para ver como están distribuidas las variables.
Ilustración 3
Gráfica de dispersión para identificar la distribución de variables.
Fuente: Autoría propia
Estas correlaciones están dentro del rango -1 a 1

8
Ilustración 4
Matriz de números para observar la correlación de los datos.
Fuente. Autoría propia
En esta matriz de números se observa claramente que casi todas las variables están
correlacionadas positivamente, representando cada valor una asociación entre ellas.
❖ as-aa, B-aa, Precio-aa, D-as tienen una correlación positiva fuerte.
❖ B-pisos, D-as tienen una correlación positiva moderada
❖ Precio-al, D-al, B-al tienen una correlación positiva débil
❖ al-pisos, es la única correlación negativa débil y así sucesivamente mientras más se
acerque el coeficiente de correlación al número 1 es más fuerte mientras que el que
más se aleje es más débil

9
3.8.4.1. Construya su modelo de regresión múltiple eligiendo su mejor modelo
Antes de construir el modelo realizo una prueba anova.
Ilustración 5
Aplicación de la prueba Anova en RStudio.
Fuente: autoría propia
Ho: 𝜷𝟏 = 𝜷𝟐 = …𝜷𝒌 = 0
Ha: 𝜷𝒋 ≠0 al menos una j
Criterio de decisión: p-value < 0.05 se rechaza Ho
En la prueba Anova al rechazar la hipótesis nula significa que esa variable es significativa
para el modelo, por lo tanto, en el cuadro de resultados se evidencia que la variable D, B y as
son significativas para el modelo porque el p-value < 0.05, el resto de variables aparentemente
no son significativas. Este breve análisis nos da una idea de que variables podrían aportar al
modelo.
A continuación, vamos a crear un primer modelo:

10
Ilustración 6
Construcción del Modelo 1
Al analizar los resultados del summary () se puede indicar que:
Pr(>|t|): Aquí se observa que el p-value > 0.05 de la mayoría de las variables del modelo,
la única que es significativa es as, por lo que, tenemos que realizar un segundo modelo
incluyendo más variables, aunque no sean significativas. Las variables a escoger sería las que
el modelo ANOVA me indicó.
Adjusted R-squared = 0.6029. El R² ajustado es conocido como el coeficiente de
Determinación el cual indica que alrededor del 60.29% de la variabilidad del valor del Precio
puede explicarse por las diferencias en los datos de nuestras variables independientes.
11
F-statistic: Esta es la prueba de hipótesis global el p-value<0.05 lo que lleva a concluir
que existe suficiente evidencia estadística para decir que al menos un coeficiente de regresión
es diferente de cero, por lo tanto, es aceptable el modelo.
Procedemos a crear un segundo modelo para analizarlo:
Ilustración 7
Al ver los resultados del m2 se identifica que las variables que se han quitado en realidad no
dan peso al modelo, el coeficiente de Determinación es el 60.97% e incluso subió en centésimas
manifestando que este modelo alrededor del 60,97% de la variabilidad del Precio es explicado
por la diferencia de datos de los dormitorios, baños y área de la sala, en lo que respecta al F-
statistic el p-value < 0.05, esto indica que en la prueba de hipótesis global se rechaza la Ho
afirmando que el modelo si es válido.
Al tener un coeficiente de determinación casi iguales m1 y m2 el intercepto sigue siendo no
significativo por ser p-valor > 0.05 procediendo a realizar m3 quitando la variable baño.
12
Ilustración 8
Como se puede observar en este modelo el coeficiente de Determinación subió y las
variables D y as son significativas porque su p-value < 0.05, la hipótesis global me indica que
p-value < 0.05 por lo tanto se acepta el modelo.
Esto me quiere decir que el modelo 3 me indica que alrededor del 61.23% de la variabilidad
del Precio, puede explicarse por las diferencias de el número de dormitorios y área de la sala.
Una vez obtenido nuestros modelos realizaremos la prueba de AIC (criterio de información de
Akaike).
El criterio de información de Akaike (AIC) es una métrica que se utiliza para comparar el
ajuste de varios modelos de regresión.

13
El modelo que tenga el AIC con menor valor debe ser el elegido para seguir analizándolo,
pero si se observa bien los resultados se observa que no cambia mucho entre m2 y m3,
identificando que en m2 tenemos la variable B de baños y en el m3 no la tenemos. De esta
manera, se realiza el análisis del grupo en decidir si es m2 o m3 la ecuación escogida a pesar
de que AIC me indica m3, se señala m2 porque para al comprar una casa si es importante
saber cuántos baños tiene, igual en la prueba de contrastes de hipótesis se comprueba si
estamos en lo correcto o no de escoger m2.
Con esa decisión nuestro modelo para seguir analizando quedaría así:
Ecuación para el modelo m2:
Precio= 139957.3464 - 60204.3979(D) -32071.6848(B) + 320.2625(as)
3.9.4.2. Realice los contrastes de hipótesis necesarios para su modelo
En los análisis anteriores el F-statistic dio un p-value<0.05 se asumió que por lo menos un
coeficiente de nuestro modelo es diferente de cero. Ahora se procede a hacer el análisis en
forma individual y para ello podemos ayudarnos con cor.test (), en el cual si el p-value < 0.05
ese coeficiente del modelo si se acepta caso contrario el coeficiente sería cero y se rechaza.
Ho: 𝜷𝟏 = 𝜷𝟐 = …𝜷𝒌 = 0
Ha: 𝜷𝒋 ≠0 al menos una j
Criterio de decisión: p-value < 0.05 se rechaza Ho

14
Ilustración 9 Contraste de hipótesis del modelo elaborado.
Fuente: autoría propia.
Como se puede observar en los tres test el p-value < 0.05 entonces las tres variables si
aportan al modelo. Por lo tanto, se evidencia el correcto análisis anterior al incluir la variable
B en el modelo para así comprobar los supuestos de la regresión a m2.
Precio= 139957.3464 - 60204.3979(D) -32071.6848(B) + 320.2625(as)
3.10. 4.3. Compruebe los supuestos del modelo de regresión lineal.
4.3.1. Linealidad. Para que exista linealidad en el modelo debe existir una relación lineal
entre el predictor y la variable respuesta. Para comprobarlo se debe realizar el gráfico
a los residuos y comprobar que el gráfico tiende a ser una línea recta.
15
Ilustración 10 Grafica de Linealidad del Modelo.
Se cumple la linealidad para todos los predictores porque los residuos se distribuyen en
torno al eje x, aunque se puede observar ciertos datos atípicos.
4.3.2. Independencia. Los datos se encuentran en una forma aleatoria, concluyendo así que
los residuos no tienen un patrón o dirección por lo tanto existe independencia en los
residuos.
Ilustración 11
Gráfica de independencia del modelo escogido.

16
4.3.3. Homocedasticidad.
La varianza de los residuos es constante
Ho: Homocedasticidad
Ha: Heterocedasticidad
Criterio de decisión: p-value < 0.05 por lo tanto se rechaza Ho
p-value < 0.05 se rechaza la hipótesis nula, entonces se considera que la varianza no es
constante (varía) por lo tanto hay heterocedasticidad, puesto que, la varianza de
los errores(residuos) no es igual en todas las observaciones realizadas.
Se puede corregir el problema de varianza no constante en los errores aplicando
transformaciones a los datos. Sin embargo, si no se tiene cuidado, se puede afectar la
linealidad o la normalidad.
4.3.4. Normalidad
Los residuos tienen que poseer una distribución normal
Ho: normalidad
H1: no hay normalidad
Criterio de decisión: p-value < 0.05 por lo tanto se rechaza Ho
Por tener más de 50 observaciones se aplica el test de lillie que no es más que el test de
kolmogoroc mejorado y también se aplica el test de kolmogoroc.

17
Ilustración 12
Test de Lillie
Se puede observar que para ambos test el p-value < 0.05, por lo tanto, se rechaza la
hipótesis nula, esto quiere decir que no hay normalidad.
Ilustración 13
Gráfica de normalidad efectuada en RStudio.

18
4.3.5. No colinealidad (multicolinealidad). Se produce cuando existe fuerte (o total)
correlación entre las variables independientes. La multicolinealidad es la correlación
alta entre más de dos variables explicativas.
VIF = 1: Ausencia total de colinealidad
1<VIF<5: La regresión puede verse afectada por cierta colinealidad
5<VIF<10: Causa de preocupación
El termino de tolerancia es 1/Vif por lo que los límites recomendables están entre 1 y 10
De la salida anterior se visualiza que los VIF de todas las variables están entre 1 y 5 por
lo que la regresión puede verse afectada por cierta colinealidad. Como los datos no se
acercan mucho a 5 se puede decir que no hay multicolinealidad.
5. Elaboración del informe del análisis del caso práctico.
Para elaborar el informe de análisis del modelo m2 de la base de datos House Price
predicción se presenta el modelo reducido:
Precio= 139957.3464 - 60204.3979(D) -32071.6848(B) + 320.2625(as)
Cuando se obtuvo el m1 se presentaron problemas con la significancia de las variables, de
tal manera, que se tuvo que crear tres modelos, pero al final se decidió por el m2 sugerido por
la prueba ANOVA al identificar que esas variables tenían peso al momento de saber el precio
de una casa.
Una vez que se ha realizado los contrastes de hipótesis y los supuestos al modelo se puede
concluir que alrededor del 60,97% de la variabilidad del Precio es explicado por la diferencia
19
de datos de los dormitorios, baños y área de la sala, o todo lo contrario, es decir se puede
concluir que el 39,03% de la variabilidad del Precio de la casa no puede explicarse por las
variables D,B,as. En lo que respecta al F-statistic el p-value < 0.05, esto indica que en la
prueba de hipótesis global se rechaza la Ho afirmando que el modelo si es válido.
El modelo si tiene variables predictoras significativas para su variable de respuesta, los
coeficientes de las variables son diferente de cero, debido que, se pudo comprobar con
cor.test() el valor del p-value de cada relación de las variables independientes con su variable
dependiente, evidenciando así que eran menores a 0.05.
En los supuestos si cumple con la linealidad, independencia y no colinealidad, pero se
determina que no cumple con el supuesto de homocedasticidad, es decir las varianzas de los
residuos no son constantes siendo quizás ocasionado por necesitar algún ajuste estadístico y
presencia de datos que afecten al modelo.
También demostramos que los residuos no poseen normalidad, para solucionarlo hay que
realizar una revisión detallada de las variables independientes y ver los datos atípicos.
Ahora se muestra del modelo reducido(m2):
Precio= 139957.3464 - 60204.3979(D) -32071.6848(B) + 320.2625(as)
La variable as tiene una relación directa y positiva sobre la variable Precio, mientras
que, las variables D y B tienen una relación directa y negativa con la variable Precio. Se
puede decir que la variable Precio sube en promedio de 320.2625 cada vez que el área de la
sala se incrementa y el número de dormitorios y baños permanecen constantes.
El precio de la casa disminuye en un promedio de 60204.3979 cada vez que se aumenta
la variable dormitorio y el número de baños y área de la sala permanecen constantes, del
mismo modo, el precio de la casa disminuye en un promedio de 32071.6848 cada vez que
20
se incrementa el número de baños y número de dormitorios y el área de la sala permanecen
constantes.
Para finalizar se usa el m2 para nuestra predicción:
Precio= 139957.3464 - 60204.3979(D) -32071.6848(B) + 320.2625(as)
Ilustración 14
Comprobación del modelo 2.
Fuente. Autoria propia
En sintesis, se puede comprobar que si el número de dormitorios y baños permanece
constantes y se incrementa el area de la sala el precio de la vivienda se va aumentar, y así en
el modelo se puede reemplazar las variables de acuerdo a la información que tenga y se podrá
estimar cual sería en promedio el precio de la vivienda.

21
Bibliografía
Mendenhall, Beaver, & Beaver. (2010). Introducción a la probabilidad y estadistica .
México: Cengage Learning Inc.

GRUPO#1Proyecto Regresión

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

GRUPO#1Proyecto Regresión

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD ESTATAL DE MILAGRO

Facultad de Ciencias de la Ingeniería

- Jean Carlos Campo Cobeña

- Steven Aaron Méndez Peralta

- Melanie Daniela Palacios Arellano

- Antonio Isaías Pita Alvarado

- Dailana Milena Rivera Cortez

Ing. Luis Torres Ordoñez

1. Carga de Base de Datos. .......................................................................................... 4

3. Identificación de conceptos ...................................................................................... 6

3.1. Población de estudio. ..................................................................................... 6

3.2. Muestra. ......................................................................................................... 6

3.3. Variable dependiente .................................................................................... 6

3.4. Variables independientes .............................................................................. 6

4.1. Construya su modelo de regresión múltiple eligiendo su mejor modelo .. 9

4.2. Realice los contrastes de hipótesis necesarios para su modelo ................ 13

4.3. Compruebe los supuestos del modelo de regresión lineal. ....................... 14

4.3.1. Linealidad. ................................................................................................ 14

4.3.3. Homocedasticidad. ................................................................................... 16

4.3.4. Normalidad ............................................................................................... 16

4.3.5. No colinealidad (multicolinealidad). ........................................................ 18

5. Elaboración del informe del análisis del caso práctico. ......................................... 18

presente documento se muestra un ejemplo de regresión lineal múltiple desarrollado a partir de

las opciones y conocimientos que se efectúen con el software Rstudio.

gráficos y conceptos correspondientes.

Para realizar este proceso estadístico se debe de ir de un modelo general a un modelo

reducido identificando la variable dependiente y las variables independientes, para así

establecer un diagrama de dispersión y el coeficiente de correlación, que nos permite observar

lineal múltiple que son: linealidad, independencia, homocedasticidad, normalidad y no

Al finalizar el modelo se procede a realizar un ejemplo práctico ejecutado con el mismo

software estadístico y comprobando el funcionamiento del modelo obtenido en nuestra

regresión lineal múltiple aplicando fundamentos teóricos a la práctica.

1. Carga de Base de Datos.

conjunto de datos en el paquete R.

La base de datos a trabajar en el trabajo es:

donde se están moviendo los precios de las propiedades.

a. Al menos 5 variables numéricas

De la base de datos anterior, realice un muestreo donde queden 90 observaciones. (sugerencia:

realice un muestreo aleatorio simple)

Muestreo aleatorio de la base de datos en RStudio.

se redondea la variable Precio.

A continuación, se visualiza la base:

Tabla de datos correspondiente a la muestra seleccionada.

Fuente: Autoría propia

Población, muestra y tipo de variables de análisis:

intentamos llegar a conclusiones.

Muestra: Es un subconjunto de la población y contiene elementos en la cual debe

estudiarse la característica de interés para la población.

Tipo de variables de análisis: En el trabajo a realizar para el análisis de regresión

intervienen dos tipos de variables: las variables independientes o predictoras(X) y las

variables de respuesta o dependientes(Y).

Utilizando la información del conjunto de datos, se identifica lo siguiente:

3.4.3.1. Población de estudio.

Base de datos House price predicción

Variable_1➔ bedrooms(D): Variable que representa los dormitorios de la casa

Variable_2:➔ bathrooms(B): Esta variable es la cantidad de baños que tiene la casa

Variable_3:➔sqft_living(as): representa el área de la sala de la casa.

Variable_4➔ sqft_lot(al): representa el área del lote de la casa.

Variable_5:➔ floor(pisos): representa el número de pisos que tiene cada casa.

Variable_6:➔ sqft_above(aa): es el área de la parte de arriba de la casa.

coeficiente de correlación entre variable.

Gráfica de dispersión para identificar la distribución de variables.