Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresion Lineal Multiple EI2
Regresion Lineal Multiple EI2
Existe ms de una variable regresora xi; i=1,2,3 y una variable de respuesta (y)
Cmo surge RLM? A veces el modelo inicial de RLS no cumple las expectativas o metas del
ingeniero; entonces se puede buscar otra variable regresora o bien buscar ms de una variable xi,
esperando encontrar un mejor modelo de prediccin.
Hop Scotch Airlines utiliz publicidad en un modelo de RLS, para explicar y predecir el nmero de
pasajeros que volaran en sus aeronaves en cierto momento. Se desea incorporar una segunda
variable explicativa dentro del modelo de Regresin con el deseo de que se pueda explicar y
predecir el nmero de pasajeros.
Se escogi el ingreso nacional del pas (PIB) como una segunda variable de prediccin con base en
el razonamiento de que el ingreso de las personas es determinante primaria de la demanda. Los
siguientes datos corresponden a las observaciones de los ltimos 15 meses sobre los datos del
nmero de pasajeros (en miles) que volaron en la compaa en todo el pas; los montos en miles
de dlares (x1) erogados por la empresa y el monto mensual del ingreso nacional bruto del pas (x2)
en billones de dlares correspondientes.
Etapas de la solucin:
= 0 + 1 1 + 2 2 +
1 2
2
= = 1 1 1 2
2
[ 2 1 2 2 ]
= = 1
[ 2 ]
= 1
= 15
= 268
1 = 187
2 = 40.29
2
1 = 2469
2
2 = 113.53
1 2 = 525.38
1 = 3490
2 = 746.62
= 3.522 + 0.8381 + 1.4512
Tabla ANOVA
Fuente GL SC CM F P
Regresin 2 163.63 81.81 121.18 0.000
Error Residual 12 8.102 0.675
Total 14 171.73
En regresin lineal simple o mltiple se usa el enfoque del anlisis de varianza, ANOVA (Analisis of
Variance) para hacer una particin de la suma total de cuadrados en una parte que se debe a la
regresin, y otra que se debe al error (error de estimacin de la ecuacin)
= 0 + 1 1 + 2 2 +
Existe tambin una variacin aleatoria o al azar dentro de la muestra en la variable de respuesta y,
respecto al valor promedio de .
La tcnica del anlisis de varianza consiste en analizar la variacin que hay en un conjunto de
respuestas y asignar porciones de esta variacin a cada conjunto de variables independientes. Esto
indica que las variables de respuesta cambian como consecuencia de la variacin.
= ( )2
= ( )2
En el anlisis de la tabla ANOVA SCE y SCT representan la variacin en los valores de respuesta
que idealmente seran explicados con el modelo. La cantidad SCE es la variacin debido al error o
variacin no explicada.
Interpretacin de R2 y R2 adj
Si la suma de cuadrados de error valiera 0 toda la variacin quedara explicada. La cantidad que
representa la variacin explicada es SCT-SCE, entonces
2 = 1
Por ltimo R2 adj representa un valor de R2 que es ms til que R2; debido a que a medida que se
incrementan las variables regresoras R2 va aumentando en forma matemtica sin que esto
signifique que mejora la prediccin del modelo obtenido.
El valor S
El valor S que se obtiene debajo de la tabla ANOVA es la magnitud del error estndar de
estimacin; significa una medida de la varianza o dispersin de los puntos de la muestra alrededor
de la lnea de regresin o plano de regresin en caso de tener 2 variables regresoras.
Frmulas de R2 y R2 adj
2 = 1
2 ( + 1)
= 1 =
1 1
0 : 1 = 2 = 0
1 : 0
Como F0
Se puede concluir que con un nivel de significancia del 5% existe una relacin lineal entre y y por lo
menos una de las variables regresoras.
0 : 1 = 0
1 : 0
Estadstico de prueba t=
1 1
=
1
0.8397 0
= = 5.92
0.1419
Conclusin
1 : 0 es verdadera.
Ejercicio 12.9
Validacin del modelo de RLM obtenido
Anlisis de Residuales
Nota.- Los residuales ei deben ser independientes y estar distribuidos en forma idntica con media
()=0 y varianza comn 2.
INTERPRETACION
Esta prueba simplemente se conoce como la prueba de normalidad de los residuales del modelo.
La prueba es visual; pero debe corroborarse la interpretacin con la prueba no paramtrica que
usa el estadstico RJ.
Prueba no paramtrica
Procedimiento:
1.- Planteamiento de H0 y H1
0 :
= 0 2
1 :
= 0 2
= 0.06400
= 0.935
Lejano a 0 Aceptar H0
Conclusin
0 :
= 0 2
Valor P
Valores de P muy cercanos a 0 se rechaza la hiptesis nula y valores lejanos a 0 se acepta H0.
Una vez realizado esto con el valor P que arroja la mquina se concluye respecto a H1 y se
concluye la prueba.
0.000__ Cercano a 0
0.____ Lejano a 0
ANOVA
ANOVA
Predictor Coef SE Coef T P
Constant 3.5284 0.9994 3.53 0.004
Publicidad 0.8397 0.1419 5.92 0
PIB 1.441 0.736 1.96 0.074
Prueba:
0 : = 2 =
0 : = 2 =
+
Normal Probability Plot of the Residuals
(response is No. de Pasajeros)
99
95
90
80
70
Percent
60
50
40
30
20
10
1
-2 -1 0 1 2
Residual
1.5
1.0
Residual
0.5
0.0
-0.5
-1.0
Etapas de la RLM
= 0 + 1 1 + 2 2 +
-A travs del anlisis de varianza ANOVA. Prueba del modelo como un todo y pruebas
individuales de los coeficientes.
En caso de no validarse el modelo, se deben elegir otras variables de regresin (elementos que
afecten al resultado) y volver a aplicar el procedimiento entero.
Una aplicacin del modelo obtenido y validado es calcular un intervalo de prediccin de (y) para
ciertos valores de 1 y 2 , con cierta confianza
Se obtendra mediante:
0 ()0 ( )1 0
2
0 es una matriz de una sola columna formada con los valores dados para 1 y 2 y cuyo primer
elemento es 1 y 0 es la matriz transpuesta de x0 y la matriz ( )1 es la inversa de ( ).
Ejemplo.-
Obtener un intervalo de prediccin de y del 95% de confianza cuando 1 = 9.5 (miles de pesos)
y 2 = 2.41 (en millones de dlares) del PIB
Con u=n-k-1=15-2-1=12
Con S=0.8217
1
0 = [ 9.5 ]
2.41
0 = [1 9.5 2.41]
=15.7245253
LS=14.2362747
Interpretacin:
Si se invierten 9.5 miles de pesos en publicidad y el PIB es de 2.41 billones de dlares en un mes se
puede esperar que en esta aerolnea viajen entre 14236 y 15724 pasajeros con una confianza
certeza de 95%.
Matrices en Excel