Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ingeniería Industrial
MATERIA:
Modelos Probabilísticos
CURSO:
Sexto semestre C2
Grupo #1
Integrantes:
DOCENTE:
Índice
Introducción ......................................................................................................................... 3
2. Muestreo .................................................................................................................... 4
4. Análisis de Regresión................................................................................................... 7
4.3.2. Independencia........................................................................................... 15
Bibliografía ........................................................................................................................ 21
3
Introducción
La regresión lineal múltiple es la extensión del modelo de regresión lineal simple, por lo
cual, este tipo de regresión puede utilizarse cuando se quiere conocer la fuerza del efecto que
las variables independientes tienen en una variable dependiente, de tal manera, que en el
El trabajo consiste en descargar una base de datos de la pagina web keggle y empezar a
construir un modelo de regresión múltiple, realizándolo a través del uso de la base de datos
escogida House price prediction que cumple con los requisitos establecidos para disponer los
el resumen estadístico que nos proporciona Rstudio para su análisis estadístico inferencial.
Además de comprobar los contrastes de hipótesis se debe evidenciar los supuestos de regresión
colinealidad.
Actividades a realizar:
A partir del conjunto de datos y utilizando R Studio, el participante debe realizar las
siguientes actividades:
Descargue una base de datos cualquiera que tenga las siguientes condiciones y cargue el
https://www.kaggle.com/datasets/shree1992/housedata
Esta es una base de datos de los mercados inmobiliarios, como los de Sydney y Melbourne,
2. Muestreo
Ilustración 1
Nota: Comandos generados para realizar el muestreo aleatorio de 90 observaciones. Fuente: Autoría propia.
5
Para obtener la muestra se utiliza la librería dplyr () de RStudio, con la función select () se
selecciona las variables con las que se trabaja en forma aleatoria sin reemplazo y por último
Ilustración 2
3. Identificación de conceptos
Población: Colección de todos los elementos que se están estudiando y sobre los cuales
3.5.3.2. Muestra.
Nueva base de datos llamada base la cual contiene 7 variables, una variable dependiente y
6 variables independientes.
3.6.Variable dependiente
Price (Precio): esta variable representa el costo de las viviendas de Sydney y Melbourne,
3.7.Variables independientes
4. Análisis de Regresión
De la base de datos anterior (punto2), realice los gráficos de dispersión y cálculos del
Realizo el gráfico de dispersión para ver como están distribuidas las variables.
Ilustración 3
Ilustración 4
En esta matriz de números se observa claramente que casi todas las variables están
Ilustración 5
Ho: 𝜷𝟏 = 𝜷𝟐 = …𝜷𝒌 = 0
En la prueba Anova al rechazar la hipótesis nula significa que esa variable es significativa
son significativas para el modelo porque el p-value < 0.05, el resto de variables aparentemente
no son significativas. Este breve análisis nos da una idea de que variables podrían aportar al
modelo.
Ilustración 6
Pr(>|t|): Aquí se observa que el p-value > 0.05 de la mayoría de las variables del modelo,
la única que es significativa es as, por lo que, tenemos que realizar un segundo modelo
incluyendo más variables, aunque no sean significativas. Las variables a escoger sería las que
Determinación el cual indica que alrededor del 60.29% de la variabilidad del valor del Precio
puede explicarse por las diferencias en los datos de nuestras variables independientes.
11
que existe suficiente evidencia estadística para decir que al menos un coeficiente de regresión
Ilustración 7
Al ver los resultados del m2 se identifica que las variables que se han quitado en realidad no
manifestando que este modelo alrededor del 60,97% de la variabilidad del Precio es explicado
por la diferencia de datos de los dormitorios, baños y área de la sala, en lo que respecta al F-
statistic el p-value < 0.05, esto indica que en la prueba de hipótesis global se rechaza la Ho
significativo por ser p-valor > 0.05 procediendo a realizar m3 quitando la variable baño.
12
Ilustración 8
variables D y as son significativas porque su p-value < 0.05, la hipótesis global me indica que
Esto me quiere decir que el modelo 3 me indica que alrededor del 61.23% de la variabilidad
del Precio, puede explicarse por las diferencias de el número de dormitorios y área de la sala.
Una vez obtenido nuestros modelos realizaremos la prueba de AIC (criterio de información de
Akaike).
El criterio de información de Akaike (AIC) es una métrica que se utiliza para comparar el
El modelo que tenga el AIC con menor valor debe ser el elegido para seguir analizándolo,
pero si se observa bien los resultados se observa que no cambia mucho entre m2 y m3,
de que AIC me indica m3, se señala m2 porque para al comprar una casa si es importante
Con esa decisión nuestro modelo para seguir analizando quedaría así:
En los análisis anteriores el F-statistic dio un p-value<0.05 se asumió que por lo menos un
forma individual y para ello podemos ayudarnos con cor.test (), en el cual si el p-value < 0.05
ese coeficiente del modelo si se acepta caso contrario el coeficiente sería cero y se rechaza.
Ho: 𝜷𝟏 = 𝜷𝟐 = …𝜷𝒌 = 0
Como se puede observar en los tres test el p-value < 0.05 entonces las tres variables si
aportan al modelo. Por lo tanto, se evidencia el correcto análisis anterior al incluir la variable
4.3.1. Linealidad. Para que exista linealidad en el modelo debe existir una relación lineal
a los residuos y comprobar que el gráfico tiende a ser una línea recta.
15
Se cumple la linealidad para todos los predictores porque los residuos se distribuyen en
4.3.2. Independencia. Los datos se encuentran en una forma aleatoria, concluyendo así que
los residuos no tienen un patrón o dirección por lo tanto existe independencia en los
residuos.
Ilustración 11
4.3.3. Homocedasticidad.
Ho: Homocedasticidad
Ha: Heterocedasticidad
p-value < 0.05 se rechaza la hipótesis nula, entonces se considera que la varianza no es
linealidad o la normalidad.
4.3.4. Normalidad
Ho: normalidad
Por tener más de 50 observaciones se aplica el test de lillie que no es más que el test de
Ilustración 12
Test de Lillie
Se puede observar que para ambos test el p-value < 0.05, por lo tanto, se rechaza la
Ilustración 13
El termino de tolerancia es 1/Vif por lo que los límites recomendables están entre 1 y 10
De la salida anterior se visualiza que los VIF de todas las variables están entre 1 y 5 por
lo que la regresión puede verse afectada por cierta colinealidad. Como los datos no se
Para elaborar el informe de análisis del modelo m2 de la base de datos House Price
tal manera, que se tuvo que crear tres modelos, pero al final se decidió por el m2 sugerido por
la prueba ANOVA al identificar que esas variables tenían peso al momento de saber el precio
de una casa.
Una vez que se ha realizado los contrastes de hipótesis y los supuestos al modelo se puede
concluir que alrededor del 60,97% de la variabilidad del Precio es explicado por la diferencia
19
de datos de los dormitorios, baños y área de la sala, o todo lo contrario, es decir se puede
concluir que el 39,03% de la variabilidad del Precio de la casa no puede explicarse por las
variables D,B,as. En lo que respecta al F-statistic el p-value < 0.05, esto indica que en la
coeficientes de las variables son diferente de cero, debido que, se pudo comprobar con
cor.test() el valor del p-value de cada relación de las variables independientes con su variable
determina que no cumple con el supuesto de homocedasticidad, es decir las varianzas de los
residuos no son constantes siendo quizás ocasionado por necesitar algún ajuste estadístico y
También demostramos que los residuos no poseen normalidad, para solucionarlo hay que
realizar una revisión detallada de las variables independientes y ver los datos atípicos.
La variable as tiene una relación directa y positiva sobre la variable Precio, mientras
que, las variables D y B tienen una relación directa y negativa con la variable Precio. Se
puede decir que la variable Precio sube en promedio de 320.2625 cada vez que el área de la
mismo modo, el precio de la casa disminuye en un promedio de 32071.6848 cada vez que
20
constantes.
Ilustración 14
el modelo se puede reemplazar las variables de acuerdo a la información que tenga y se podrá
Bibliografía