Está en la página 1de 13

Regresin Lineal Mltiple (RLM)

Existe ms de una variable regresora xi; i=1,2,3 y una variable de respuesta (y)

Cmo surge RLM? A veces el modelo inicial de RLS no cumple las expectativas o metas del
ingeniero; entonces se puede buscar otra variable regresora o bien buscar ms de una variable xi,
esperando encontrar un mejor modelo de prediccin.

Ejemplo 1.- Con dos variables x1 y x2

Hop Scotch Airlines utiliz publicidad en un modelo de RLS, para explicar y predecir el nmero de
pasajeros que volaran en sus aeronaves en cierto momento. Se desea incorporar una segunda
variable explicativa dentro del modelo de Regresin con el deseo de que se pueda explicar y
predecir el nmero de pasajeros.

Se escogi el ingreso nacional del pas (PIB) como una segunda variable de prediccin con base en
el razonamiento de que el ingreso de las personas es determinante primaria de la demanda. Los
siguientes datos corresponden a las observaciones de los ltimos 15 meses sobre los datos del
nmero de pasajeros (en miles) que volaron en la compaa en todo el pas; los montos en miles
de dlares (x1) erogados por la empresa y el monto mensual del ingreso nacional bruto del pas (x2)
en billones de dlares correspondientes.

Etapas de la solucin:

1.- Obtener por mnimos cuadrados el modelo muestral de RLM

2.- Validar el modelo

3.- Hacer inferencias respecto al modelo poblacional verdadero o desconocido.

4.- Utilizar el modelo

= 0 + 1 1 + 2 2 +

Sean las matrices:

1 2
2
= = 1 1 1 2
2

[ 2 1 2 2 ]

= = 1

[ 2 ]
= 1

= 15

= 268

1 = 187

2 = 40.29

2
1 = 2469

2
2 = 113.53

1 2 = 525.38

1 = 3490

2 = 746.62
= 3.522 + 0.8381 + 1.4512

Variables Modelo s r R2 (%) R2 adj (%)


y vs x1 0.906 0.968 93.6 93.3
= 4.39
+ 1.081 +
y vs x2 1.56 0.903 81.5 80.1
= 3.82
+ 5.232 +
y vs x1 y x2 0.8216 95.3 94.5
= 3.53
+ 0.841
+ 1.492 +

Tabla ANOVA

Fuente GL SC CM F P
Regresin 2 163.63 81.81 121.18 0.000
Error Residual 12 8.102 0.675
Total 14 171.73

s= 0.8217 R-sq= 95.3% R-sq adj=94.5%


Validacin del Modelo

Acerca del anlisis de varianza en regresin

En regresin lineal simple o mltiple se usa el enfoque del anlisis de varianza, ANOVA (Analisis of
Variance) para hacer una particin de la suma total de cuadrados en una parte que se debe a la
regresin, y otra que se debe al error (error de estimacin de la ecuacin)

= 0 + 1 1 + 2 2 +

Existe tambin una variacin aleatoria o al azar dentro de la muestra en la variable de respuesta y,
respecto al valor promedio de .

La tcnica del anlisis de varianza consiste en analizar la variacin que hay en un conjunto de
respuestas y asignar porciones de esta variacin a cada conjunto de variables independientes. Esto
indica que las variables de respuesta cambian como consecuencia de la variacin.

= ( )2

= ( )2
En el anlisis de la tabla ANOVA SCE y SCT representan la variacin en los valores de respuesta
que idealmente seran explicados con el modelo. La cantidad SCE es la variacin debido al error o
variacin no explicada.

Interpretacin de R2 y R2 adj

Si la suma de cuadrados de error valiera 0 toda la variacin quedara explicada. La cantidad que
representa la variacin explicada es SCT-SCE, entonces


2 = 1

Por ltimo R2 adj representa un valor de R2 que es ms til que R2; debido a que a medida que se
incrementan las variables regresoras R2 va aumentando en forma matemtica sin que esto
signifique que mejora la prediccin del modelo obtenido.

El valor S

El valor S que se obtiene debajo de la tabla ANOVA es la magnitud del error estndar de
estimacin; significa una medida de la varianza o dispersin de los puntos de la muestra alrededor
de la lnea de regresin o plano de regresin en caso de tener 2 variables regresoras.

Frmulas de R2 y R2 adj


2 = 1

Y 2 adj R barra al cuadrado ajustado


2 ( + 1)
= 1 =

1 1

Validacin del modelo

1.- Prueba de hiptesis del modelo como un todo

0 : 1 = 2 = 0

1 : 0
Como F0

Se puede concluir que con un nivel de significancia del 5% existe una relacin lineal entre y y por lo
menos una de las variables regresoras.

2.- Pruebas individuales para los coeficientes de regresin

Minitab genera la siguiente tabla

Predictor coef SE coef (Error T (Estadstico de P (p-value)


estndar de los prueba T de
coeficientes) Student)
Constant 3.5284 0.9994 3.53 0.004
Publicid 0.8397 0.1419 5.92 0.000
PIB 1.4410 0.7360 1.96 0.074

= 3.522 + 0.8381 + 1.4512

Ejemplo para publicidad

0 : 1 = 0

1 : 0
Estadstico de prueba t=

1 1
=
1

De la tabla dada en MINITAB

0.8397 0
= = 5.92
0.1419

1 es el error estndar del coeficiente de regresin.

Conclusin

1 : 0 es verdadera.

Con un nivel de significancia de 0.01 podemos concluir que la publicidad contribuye


significativamente al poder predictivo del modelo aun despus de incluir la otra variable.

Ejercicio 12.9
Validacin del modelo de RLM obtenido

Anlisis de Residuales

1.- Diagnstico de la grfica visual

2.- Prueba visual de normalidad de los residuales estandarizados

3.- Prueba (no paramtrica) de normalidad (usando el estadstico RYAN JOINER

Nota.- Los residuales ei deben ser independientes y estar distribuidos en forma idntica con media
()=0 y varianza comn 2.

Prueba visual de normalidad de los residuales

INTERPRETACION

Esta grfica se genera en la computadora graficando los residuales obtenidos en el modelo


estandarizados en un papel que se denomina probabilstico en el eje vertical. La grfica consiste en
una serie de puntos que corren de izquierda a derecha, en los que la computadora traza una lnea
recta que pasa sobre ellos.
La prueba visual que debe hacerse consiste en observar que la mayora de los puntos corren
alrededor de dicha recta; si esto es as se dice que los residuales obtenidos efectivamente son
independientes y estn distribuidos en forma normal con media cero y varianza comn.

Esta prueba simplemente se conoce como la prueba de normalidad de los residuales del modelo.

La prueba es visual; pero debe corroborarse la interpretacin con la prueba no paramtrica que
usa el estadstico RJ.

Prueba no paramtrica

Procedimiento:

1.- Planteamiento de H0 y H1

0 :
= 0 2

1 :
= 0 2

2.- Se utiliza un enfoque del valor P

= 0.06400

3.- Clculo del estadstico de prueba Ryan Joyner

= 0.935

4.- Decisin y conclusin

Lejano a 0 Aceptar H0

Por tanto H1 es falso

Conclusin
0 :
= 0 2
Valor P

La decisin de aceptar o rechazar H0 cuando se utiliza un valor P en forma prctica se observa si la


cantidad est muy cercana o no a 0.

Valores de P muy cercanos a 0 se rechaza la hiptesis nula y valores lejanos a 0 se acepta H0.

Una vez realizado esto con el valor P que arroja la mquina se concluye respecto a H1 y se
concluye la prueba.

0.000__ Cercano a 0

0.____ Lejano a 0

ANOVA

ANOVA
Predictor Coef SE Coef T P
Constant 3.5284 0.9994 3.53 0.004
Publicidad 0.8397 0.1419 5.92 0
PIB 1.441 0.736 1.96 0.074

Prueba:

0 : = 2 =

0 : = 2 =

+
Normal Probability Plot of the Residuals
(response is No. de Pasajeros)
99

95
90

80
70
Percent

60
50
40
30
20

10

1
-2 -1 0 1 2
Residual

Aparentemente los puntos corren sobre la lnea

Residuals Versus the Fitted Values


(response is No. de Pasajeros)
2.0

1.5

1.0
Residual

0.5

0.0

-0.5

-1.0

15.0 17.5 20.0 22.5 25.0


Fitted Value

Aparentemente los residuos estn dispersos en forma aleatoria alrededor de ei=0

Etapas de la RLM

1.- Obtener el modelo

= 0 + 1 1 + 2 2 +

2.- Evaluar el modelo a travs de (s)


2 2

Validar el modelo obtenido:

-A travs del anlisis de varianza ANOVA. Prueba del modelo como un todo y pruebas
individuales de los coeficientes.

-A travs del anlisis de residuales

En caso de no validarse el modelo, se deben elegir otras variables de regresin (elementos que
afecten al resultado) y volver a aplicar el procedimiento entero.

3.- Utilizar el modelo

Una aplicacin del modelo obtenido y validado es calcular un intervalo de prediccin de (y) para
ciertos valores de 1 y 2 , con cierta confianza

Se obtendra mediante:

0 ()0 ( )1 0
2

0 es una matriz de una sola columna formada con los valores dados para 1 y 2 y cuyo primer
elemento es 1 y 0 es la matriz transpuesta de x0 y la matriz ( )1 es la inversa de ( ).

Ejemplo.-

Obtener un intervalo de prediccin de y del 95% de confianza cuando 1 = 9.5 (miles de pesos)
y 2 = 2.41 (en millones de dlares) del PIB

(9.5,2.41) = 3.53 + 0.84(9.5) + 1.44(2.41) = 14.9804

Con 1= .95, = 0.05, 2 = 0.025; entonces 0.25, = 2.179

Con u=n-k-1=15-2-1=12

Con S=0.8217

1
0 = [ 9.5 ]
2.41

0 = [1 9.5 2.41]

1.4815 0.0098 0.4811


= ( ) 1 = ( )1 = [0.0098 0.0300 0.1355]
0.4811 0.1355 0.8081
0 ( )1 0 = 0.1828 = 0.4156

Finalmente el intervalo sera

14.9804 (2.179) (0.8217) (0.4156)

=15.7245253

LS=14.2362747

Interpretacin:

Si se invierten 9.5 miles de pesos en publicidad y el PIB es de 2.41 billones de dlares en un mes se
puede esperar que en esta aerolnea viajen entre 14236 y 15724 pasajeros con una confianza
certeza de 95%.

Matrices en Excel

También podría gustarte