Está en la página 1de 5

EVIDENCIA # 06 MÉTODOS ESTADÍSTICOS MET.

ALEJANDRA CERDA

NOMBRES: VANIA LIZZETH ENRÍQUEZ MIRANDA; YESENIA ESTEFANÍA OVALLE PUENTE

Considere los datos Extracción aceite disponible en el archivo Datos_Montgomery y use un alfa
de 0.05 en caso de ser necesario

A) Realice la matriz de dispersión y comente respecto a la posible relación entre par de


variables

MATRIZ DE DISPERSION

MATRIZ DE CORRELACION

En este caso la mayoría de las correlaciones se encuentran entre un nivel despreciable o


débil mientras que en un nivel fuerte únicamente se encuentra la relación de las variables
𝑦 ~ 𝑥5 , la cual tiene una relación inversa (negativa), mientras que las otras correlaciones
visibles se encuentran muy cercanas al cero, siendo estas las de 𝑦 ~ 𝑥1 , 𝑦 ~ 𝑥2 , 𝑦 ~ 𝑥3 ,
las cuales cuentan con una relación directa (positiva) y aunque estas siguen en un nivel de
correlación entre débil y despreciable esperaríamos que estas variables aparezcan en el
modelo final.

B) Revise problemas de multicolinealidad

COEFICIENTES Ya que todos los VIF son menores a 10,


entonces se puede afirmar que no existen
problemas graves de multicolinealidad.
Verificando lo anterior, para el siguiente inciso
se trabajará con las variables iniciales del
problema, es decir: 𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 , 𝑥5 .
C) Ajustar la regresión lineal indicando la ecuación correspondiente y el ajuste obtenido

Una vez realizada la regresión, contemplando a la variable de respuesta (y) como


“rendimiento” y a las variables predictivas (𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 , 𝑥5 ) como “presión”,
“temperatura”, “humedad”, “flujo” y “tamaño partícula”, respectivamente, se obtuvo la
siguiente ecuación:

𝑦̂ = 5.21 + 0.0556𝑥1 + 0.2821 𝑥2 + 0.125 𝑥3 + 0.000 𝑥4 − 16.06 𝑥5

La cual también se puede representar de la siguiente forma:

̂
𝑟𝑒𝑛𝑑𝑖𝑚𝑖𝑒𝑛𝑡𝑜 = 5.21 + 0.0556𝑝𝑟𝑒𝑠𝑖𝑜𝑛 + 0.2821𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎 + 0.125ℎ𝑢𝑚𝑒𝑑𝑎𝑑
+ 0.000𝑓𝑙𝑢𝑗𝑜 − 16.06𝑡𝑎𝑚𝑎ñ𝑜 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎

Dado lo anterior, este modelo cuenta con un coeficiente de determinación ajustado de


90.58% categorizado como muy bueno.

D) Probar la significancia del modelo


PRUEBA DE SIGNIFICANCIA
HIPOTESIS P VALOR CONCLUSION

E) Analizar mejores subconjuntos e indicar el modelo elegido

TABLA DE MEJORES SUBCONJUNTOS En este caso para elegir el mejor


modelo para nuestros datos se realizó
la comparativa respecto al desempeño
ajustado (𝑅2 𝑎𝑗𝑢𝑠𝑡) de los cuales se
puede observar que se tiene con
mayor desempeño el modelo de 3
variables ya que este tiene un 𝑅2 =
92.1%, además algo extra positivo es
que es el que tiene desviación mas
pequeña.

F) Calcular los intervalos de confianza e indicar si existe evidencia de regresión al origen

22.4 < 𝛽0 < 84.2


−0.0041 < 𝛽1 < 0.1153
0.1670 < 𝛽2 < 0.3973
−18.97 < 𝛽3 < −13.16

En lo anterior se concluye que no existe evidencia de regresión al origen ya que β0 no


puede tomar el valor de cero.
G) En caso de existir, volver a ajustar el modelo y realizar la prueba de significancia e
indicar el ajuste obtenido

Ya que no existe evidencia de regresión al origen entonces ese punto queda omitido.

H) Analice el cumplimiento de supuestos de los residuales incluyendo gráficas y


comentarios al respecto

Para el modelo al cual que se le analizaran los cuatro supuestos será el siguiente:

𝑦̂ = 53.3 + 0.0556𝑥1 + 0.2821 𝑥2 − 16.06 𝑥5

Donde también se puede representar de la siguiente forma:

̂
𝑟𝑒𝑛𝑑𝑖𝑚𝑖𝑒𝑛𝑡𝑜 = 53.3 + 0.0556𝑝𝑟𝑒𝑠𝑖𝑜𝑛 + 0.2821𝑡𝑒𝑚𝑝𝑒𝑟𝑎𝑡𝑢𝑟𝑎
− 16.06𝑡𝑎𝑚𝑎ñ𝑜 𝑝𝑎𝑟𝑡𝑖𝑐𝑢𝑙𝑎

RESIDUOS PARA Y VS AJUSTES Supuesto de varianza constante:

dado que los datos no incluyen ningún tipo de


patrón visto, ya sea de arcoíris, limón, cono,
rectángulo o cualquier otro, concluimos que los
residuales de este modelo tienen varianza
constante, por tanto, este primer supuesto se
cumple.

RESIDUOS PARA Y VS ORDEN Supuesto de incorrelación:

Para este supuesto se plantearon las siguientes


hipótesis:
𝐻0 : los residuos están incorrelacionados, son
independientes.
𝐻𝑎 : los residuos muestran evidencia de estar
correlacionados, son dependientes.

Dada la gráfica anterior, y ya que no se aprecia un patrón visible en las subidas y bajadas
de los residuales, se puede concluir que los residuos están incorrelacionados, es decir, son
independientes y este supuesto igualmente se cumple.
GRAFICA DE PROBABILIDAD NORMAL Supuesto de normalidad:

Analizando la “Gráfica de probabilidad normal” o


“grafico qqplot”, y dado que la distribución de los
puntos sigue el patrón donde los puntos caen
aproximadamente sobre la recta, entonces podemos
suponer que los residuos son normales, ya que,
aunque se aprecian algunas ligeras variaciones estas
no afectan mucho en la normalidad.

HISTOGRAMA Supuesto de media cero:

Por último, observando el histograma generado


para los residuos, notamos que no se aprecia
completamente que los datos tienen media cero ya
que la barra más alta se encuentra desplazada
algunas unidades hacia la derecha, por esta razón,
se realiza una prueba de bondad de ajuste para
poder confirmar la normalidad y media cero. Para
poder realizar esta prueba esto se plantean las siguientes hipótesis:

𝐻0 : los residuos provienen de una distribución normal con media 0.


𝐻𝑎 : los residuos NO provienen de una distribución normal con media 0.

GRAFICA DE PROBABILIDAD DE RESIDUOS Con la gráfica de prueba de


normalidad observamos que el
“valor p” = 0.357, siendo este
mayor que 0.05, esto quiere decir
que no se rechaza H0, por lo
tanto, los residuos provienen de
una distribución normal con
media 0 y entonces se cumple el
supuesto de normalidad y media
cero.

Conclusión general: dado que se cumplen todos lo supuestos, entonces este será el
modelo elegido.
I) Calcule los residuales y residuales estandarizados del modelo elegido e indique la
presencia de datos atípicos.

residuos
residuos Con esto calculado se procedió a buscar en los residuales
estandarizados estandarizados los datos que fueran mayores a 3 y menores
0.125 0.01951057
que -3 y dado que no se encontró ninguno, entonces dentro de
-4.875 -0.760912241
-2.125 -0.331679695
nuestros datos no existe ningún punto atípico.
8.875 1.38525049
5.625 0.877975662
-4.375 -0.68286996
-11.625 -1.814483036
8.375 1.307208208
4.625 0.7218911
3.625 0.565806538
-2.625 -0.409721976
-12.625 -1.970567598
0.125 0.01951057
-4.875 -0.760912241
5.875 0.916996803
5.875 0.916996803

J) Eliminando los datos atípicos analice de nuevo el modelo seleccionado indicando la


ecuación de regresión y el ajuste obtenido.

Ya que en el inciso anterior observamos que no existe evidencia de datos atípicos este
inciso se puede omitir.

También podría gustarte