Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ej Regresion Lineal Multiple Zoritza PDF
Ej Regresion Lineal Multiple Zoritza PDF
Primero se explorará las relaciones entre todas las parejas de variables, en particular la relación de Y
con cada una de las variables independientes. Esto lo detectaremos a través de las correlaciones y la
función pairs de R, la cual produce un gráfico matricial para las variables dadas.
Comandos en R:
pairs(cervezas)
20 25 30 35 40
30
25
No.cajas
20
15
10
40
35
30
Distancia
25
20
40
35
Tiempo
30
25
10 15 20 25 30 25 30 35 40
cor(cervezas) - Correlaciones
40
35
35
Tiempo
Tiempo
30
30
25
25
10 15 20 25 30
20 25 30 35 40
No.cajas
Distancia
Figura 2: Gráficos 2D de la variable respuesta en función de las variables independientes por separado
Se puede observar que la variable independiente “No. de cajas” (X1) es la que tiene mejor relación
lineal con el tiempo de entrega, es decir, a medida que aumenta una de ellas aumenta la otra. En
tanto la máxima distancia (X2) que debe recorrer el despachador no parece tener una relación lineal
muy marcada para predecir el tiempo.
AJUSTE DE UN MODELO
X: matriz n x p que contiene ceros, unos y/o valores de variables independientes (matriz de diseño)
: vector p x 1 de parámetros
Con lo cual las ecuaciones normales (sistema de mínimos cuadrados) toman la forma
!
βˆ0 15 270
−1
420 463 βˆ0 3, 478 −0, 069 −0, 078 463
βˆ1 = 270 5.364 7.347 * 8.679 ⇒ βˆ1 = −0, 069 0, 0024 0, 001 * 8.679
ˆ
β 2 420 7.347 12.308 13.027 ˆ
β2 −0, 078 0, 001 0, 002
13.027
y al resolver se obtiene:
2.313
! "0.877#
0.456
De aquí que:
Por las propiedades de los estimadores de mínimos cuadrados, se puede considerar que
Ahora bien, no conocemos . , de manera que si queremos obtener algún tipo de inferencia sobre el
modelo necesitaremos estimarlo.
463
! 3 3 14741 2 2.313
445 1 1 3 2 0.877 0.456 " 8679 #
13027
445 119.198
4 9.93
627 15 2 3
$%) 2 $)
8
49/))
Puede probarse que este estadístico tiene una distribución t con n-p grados de libertad.
Si no es usada con cuidado, la prueba t puede llevar a resultados erróneos, porque las estimaciones
de los coeficientes no son independientes. En general, no es recomendable eliminar más de una
variable a la vez cuando aplicamos este procedimiento, pues sólo nos permite comparar modelos
que difieren en una variable.
Veamos cómo puede usarse esta prueba para el ejemplo de las cervezas. Comencemos probando la
hipótesis de que la distancia recorrida no influye en el tiempo de entrega. Esto equivale a plantear:
: : $ 0
: : $ < 0
Así, tenemos
Si decidimos usar α=0.05, cuando buscamos el valor tabulado de t para un área de cola de α/2 =
0.025 correspondiente a una t con 12 grados de libertad, obtenemos =,.> 2.18. Como el valor
calculado de T es mayor que el tabulado, rechazamos : . Es decir, se puede afirmar (a este nivel) que
la distancia recorrida es importante para predecir el tiempo de entrega de la cerveza.
: : $ 0
: : $ < 0
y obtenemos
Comparando nuevamente contra =,.> 2.18, se rechaza : . Es decir, podemos afirmar (a este
nivel) que el número de cajas distribuidas es importante para predecir el tiempo de entrega de la
cerveza.
: : $ 0
: : $ < 0
En este caso no podemos rechazar la hipótesis nula. Es decir, podemos decir a este nivel de
significación que la constante en el modelo lineal planteado no parece ser relevante para predecir el
tiempo de entrega en esta muestra.
! ), los
Para los parámetros del modelo se reporta los valores estimados de los coeficientes (vector
Utilizando el comando summary en R, observamos las características del modelo antes mencionada.
summary(mod1)
Residuals:
Min 1Q Median 3Q Max El valor del error estándar residual
Coefficients:
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
1 ') $ @)
Recordemos que el estadístico en este caso viene dado por la expresión siguiente
! 2 HI
JK 44M
L L N4M
G
2 ! 445 N45
6 2 L 1 6 2 L 1
Reemplazando
463
! 2 HI
44M JK 2.313 0.877 0.456 " 8679 # – 15 30.86
13027
Si fijamos un nivel α=0.05 y comparamos el valor de F que acabamos de calcular con G,.>
=3.89,
prueba desarrollado anteriormente, rechazamos : ; por tanto, decidimos que el modelo (2) es mejor
observamos que el valor calculado es mayor que el valor tabulado. Según el procedimiento de
COMPARACIÓN DE MODELOS
Para generar la tabla ANOVA para un modelo o para comparar dos modelos anidados, se utiliza el
comando anova en R.
Como la variable Distancia nos había reflejado una relación lineal más débil, se estimo un modelo
lineal sin incluir esta misma. En R, escribimos
mod2=lm(Tiempo~No.cajas)
summary(mod2)
Residuals:
Min 1Q Median 3Q Max
-10.6583 -1.6018 -0.1821 2.5262 5.3952 Al realizar esta instrucción notamos
Realicemos una comparación de ambos modelos (1 y 2) a través del ANOVA. Para hacer la
comparación entre los modelos se utiliza la instrucción anova (modelo más sencillo, modelo más
complejo)
anova(mod2,mod1)
Esta instrucción permite comparar dos modelos anidados a través de una prueba F.
1 13 213.573
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
H0: β2 = 0 vs H1: β2 ≠ 0
213.573 2 118.375
445Q 2 445R /L 2 D 221 95.198
G P 9.650
445R /6 2 L 1 118.375 9.864
15 2 2 1
Fijando un nivel α=0.05 para la prueba, cuando comparamos el valor anterior con G,T
.>
4.67,
observamos el valor calculado es mayor que el tabulado, por lo que podemos rechazar la hipótesis
nula en este caso. Concluimos de manera similar que la distancia recorrida es importante para
predecir el tiempo de entrega de la cerveza.
• La relación entre las variables es lineal, lo cual puede ser chequeado con el gráfico de los
datos.
• Los errores siguen una distribución normal.
• Las varianzas de los errores son iguales (es decir los errores son HOMOCEDÁSTICOS).
• Los errores son independientes.
ANÁLISIS DE RESIDUOS
• Gráfico de residuos en papel normal. Debe obtenerse un gráfico similar a una recta.
• Gráfico de residuos vs. valores estimados.
• Gráfico de residuos vs. variables explicativas.
Si se desea un gráfico de residuos estandarizados vs. valores ajustados en R, existen funciones que
extraen ambos objetos de un modelo lineal. Estas funciones son fitted.values y rstandard.
Para chequear la suposición de normalidad podemos observar los siguientes gráficos:
plot(No.cajas,rstandard(mod1),xlab="No.cajas",ylab="Residuos estandarizados")
plot(Distancia,rstandard(mod1),xlab="Distancia",ylab="Residuos estandarizados")
1
6
0
Sample Quantiles
Frequency
-1
-1
4
-2
-2
2
-3
-3
0
-4 -3 -2 -1 0 1 2 -1 0 1
-1
-2
-3
25 30 35
Valores ajustados
1
0
Residuos estandarizados
-1
-2
-3
10 15 20 25 30
No.cajas
1
0
Residuos estandarizados
-1
-2
-3
20 25 30 35 40
Distancia
β 1 : 0.88 - Significa que el tiempo promedio de servicio a los clientes aumenta en aproximadamente
0.88 cuando el número de cajas transportadas se incrementa, asumiendo que la distancia recorrida
se mantiene fija.
β 0 : 2.31 - Representa el valor del tiempo de servicio a los clientes cuando el número de cajas de
cervezas y la distancia recorrida es cero.
INTERVALOS
INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA
En esta parte vamos a construir un intervalo de confianza de 95% para el tiempo medio de servicio a
los clientes de la muestra, cuando el número de cajas (X1) es 9 y la distancia recorrida (X2 ) es de 16.
16
Usando el modelo ajustado tenemos que, el tiempo estimado de servicio cuando X1=9 y X2=16 es:
Luego determinamos que
3.478 −0.069 −0.078 1
U 3 U V1 9 16W X Y 0.7344
−0.069 0.0024 0.001 9
0
−0.078 0.001 0.002 16
Buscamos en la tabla el valor =Z⁄ =.> con n -(k +1) grados de libertad, es decir, =.>,
2.179
445
Además usando
4 9.93
627
17.502 2 2.179 99.93 U 3 0 U \ ]^ \ 17.502 2.179 99.93 U 3 0 U
11.617 \ ]^ \ 23.385
Tenemos un 95% de seguridad de que cuando las variables independientes (número de cajas y
distancia recorrida) adoptan los valores 9 y 16, el valor medio (E(Y)) de la variable tiempo de servicio
está entre 11.6 y 23.3.
Valores=data.frame(No.cajas=9,Distancia=16)
predict(mod1, newdata=valores, interval="confidence",level=0.95)
predict(mod1, newdata=valores, interval="prediction",level=0.95)
Funciones genéricas de extracción de información del modelo
anova(objeto 1, objeto 2)
Compara un submodelo con un modelo externo y produce una tabla de análisis de la varianza.
coefficients(objeto)
Extrae la matriz de coeficientes de regresión. Forma reducida: coef(objeto).
formula(objeto)
Extrae la fórmula del modelo.
plot(objeto)
Crea cuatro gráficos que muestran los residuos, los valores ajustados y algunos diagnósticos.
predict(objeto, newdata=hoja.de.datos)
La nueva hoja de datos que se indica debe tener variables cuyas etiquetas coincidan con las de la
original. El resultado es un vector o matriz de valores predichos correspondiente a los valores de las
variables de hoja.de.datos.
residuals(objeto)
Extrae la matriz de residuos, ponderada si es necesario. La forma reducida es resid(objeto).
step(objeto)
Selecciona un modelo apropiado añadiendo o eliminando términos y preservando las jerarquías. Se
devuelve el modelo que en este proceso tiene el máximo valor de AIC
Otras funciones que permiten explorar sucesiones crecientes de modelos son add1(), drop1()