Está en la página 1de 10

Regresin Mltiple

El modelo de regresin mltiple


La relacin entre 1 variable dependiente y 2 o ms
variables independientes es una funcin lineal

Estadstica II
Gerardo Heckmann

Constante
Poblacional

Pendientes Poblacionales

Error
Aleatorio

Yi = 0 + 1X1i + 2 X2i +L+ k Xki + i


Yi = b0 + b1 X1i + b2 X2i +L+ bk Xki + ei

Regresin Mltiple

Variable dependiente
(Respuesta)

Residuo

Variables Independientes
(Explicativas)

Gerardo Heckmann, FCE - UNC

Modelo de regresin mltiple


poblacional
Modelo bivariante

Plano de respuesta

Modelo de regresin mltiple

Yi = 0 + 1X1i + 2X2i + i

Modelo bivariante

(Y observada)

Plano de respuesta

Yi = b0 + b1X1i + b2X2i + ei
(Y observada)

b0

ei

X2
X1

X2
X1

(X1i,X2i)

(X1i, X2i)

Y|X = 0 + 1X1i + 2X2i

^
Yi = b0 + b1X1i + b2X2i

Plano de regresin muestral


Gerardo Heckmann, FCE - UNC

Gerardo Heckmann, FCE - UNC

Comparacin entre el modelo


simple y el mltiple


Comparacin entre el modelo


simple y el mltiple: ejemplo

Los coeficientes en el modelo simple


registran el impacto de la variable
independiente ms los impactos de otras
variables que estn correlacionadas con
ella y con la variable dependiente.
En una regresin mltiple los coeficientes
captan el efecto separado de algunas de
esas otras variables.

Gerardo Heckmann, FCE - UNC

Gerardo Heckmann

Dos regresiones simples:





C om bustible = 0 + 1 T em peratura
C om bustible = 0 + 1 Aislam iento

Regresin mltiple:


Combustible = 0 + 1 Temp. + 2 Aislam.

Gerardo Heckmann, FCE - UNC

Estadstica II, Cat. E

Regresin Mltiple

Interpretacin de los coeficientes


estimados

Ecuacin de regresin mltiple




Muy complicado
hacerla a mano!

Pendientes (bi)


Ouch!


Modelo de regresin mltiple :


Ejemplo
Desarrollar un modelo para
estimar el combustible utilizado
por una familia en el mes de
Julio, en base a la temperatura
y grado de aislamiento de la
vivienda.

El valor promedio estimado de Y cuando todas las


Xi = 0

Gerardo Heckmann, FCE - UNC

Ecuacin de regresin mltiple


muestral: ejemplo

0
Comb. Temp( F) Aislam.
1041,00
4
3
1378,00
-3
3
621,00
4
10
155,00
23
6
356,00
18
6
874,00
1
6
1389,00
-13
6
1139,00
-13
10
901,00
-5
10
458,00
17
3
117,00
18
10
768,00
5
6
1669,00
-6
3
1223,00
3
3
201,00
14
10

Gerardo Heckmann, FCE - UNC

las variables constantes (ceteris paribus)


Ejemplo: si b1 = -2, se espera que el consumo de
combustible (Y) decrezca en 2 litros, galones o la
unidad de medida que se use, por cada grado que
suba la temperatura (X1), manteniendo constante
la superficie de aislamiento (X2)

La constante (b0)


Gerardo Heckmann, FCE - UNC

bi mide el cambio promedio estimado en Y por


cada cambio unitario en Xi manteniendo el resto de

Yi = b0 + b1 X 1i + b2 X 2 i + L + bk X ki
Salida Excel

Intercepcin
Temp
Aislam.

Yi = 1463.8 37.2 X 1i 75.5 X 2i


Por cada incremento de 1 grado en la
temperatura, la cantidad promedio
esperada de consumo de combustible
cae 37.2 litros, manteniendo constante
la aislamiento.

Por cada increm. de 1 grado en el


nivel de aislamiento, el consumo
esperado prom. de combustible
cae 75.5 ltrs., manteniendo
constante la temperatura.

Gerardo Heckmann, FCE - UNC

10

Diagramas de Venn y poder


explicativo de la regresin

Regresin Mltiple en Excel

Variaciones en
Temp no
usadas para
explicar
variaciones en
Combustible

Combustible

Temp

Microsoft Excel
Worksheet

(SCR)
Gerardo Heckmann, FCE - UNC

Gerardo Heckmann

Coeficientes
1463,751566
-37,19250591
-75,51974302

11

Gerardo Heckmann, FCE - UNC

Variaciones en
Combustible
explicadas por
el trmino de
error (SCE)
Variaciones en
Combustible
explicadas por Temp
o variaciones en
Temp usadas en
explicar variaciones
en Combustible
12

Estadstica II, Cat. E

Regresin Mltiple

Diagramas de Venn y poder


explicativo de la regresin

Diagramas de Venn y poder


explicativo de la regresin

(continua)

Comb.

Variaciones NO
explicadas por
Temp ni por
Comb.
Aislam.
(SCE)

r2 =

Temp

Temp

SCR
SCR+SCE

Gerardo Heckmann, FCE - UNC

Aislam.
13

Gerardo Heckmann, FCE - UNC

Coeficiente de determinacin
Mltiple


14

Diagramas de Venn y poder


explicativo de la regresin

Proporcin de la variacin total en Y


explicada por todas las variables X al mismo
tiempo.
SCR Variacin Explicada
2


rYk12L =

SCT

Sobreposicin
variacin tanto
en Temp como en
Aislam. Usadas
para explicar la
variacin en
Comb. Pero NO
en la estimacin
de 1 ni de 2

Comb.

rY212 =

Variacin Total

Temp


Nunca decrece cuando se agrega una nueva


variable X al modelo


Aislam.

Desventaja al comparar modelos

Gerardo Heckmann, FCE - UNC

15

Proporcin de la variacin en Y explicada por


todas las variables X adjustado por el nmero
de variables X usadas




Gerardo Heckmann

16

Salida Excel

Penaliza el excesivo uso de variables


independientes
2
Es menor que rY 1 2L k
til para comparaciones entre modelos

Gerardo Heckmann, FCE - UNC

Gerardo Heckmann, FCE - UNC

Reg ressio n S tatistics


M ultiple R
0.982654757
R S quare
0.965610371
A djus ted R S quare
0.959878766
S tandard E rror
26.01378323
O bs ervations
15

n 1

2
radj
= 1 (1 rY212L k )
n k 1

SCR
SCR + SCE

Coeficiente de Determinacin
Mltiple

Coeficiente de Determinacin
Ajustado


rY2,12 =

SCR
SCT

r2 Ajustado
 refleja el nmero
de variables
explicativas y el
tamao de la muestra
 Es menor que el r2

17

Gerardo Heckmann, FCE - UNC

18

Estadstica II, Cat. E

Regresin Mltiple

Interpretacin del Coeficiente de


Determinacin Mltiple
rY2,12 =

Testeo de Significacin Global

SCR
=.9656
SCT

El 96.56% de la variacin total en Comb. Puede


ser explicado por las diferentes Temp. y niveles de
Aislam.




Muestra si hay relacin lineal entre todas las


variables X al mismo tiempo y Y
Usa el test F
Hiptesis:


2
adj

r = .9599

El 95.99% de la varianza total en Comb. puede


ser explicada por por las diferentes Temp. y
niveles de Aislam. despus de ajustar por nmero
de variables explicativas y tamao de la muestra

Gerardo Heckmann, FCE - UNC



19

H0: 1 = 2 = = k = 0 (no hay relacin lineal)


H1: al menos un i 0 ( al menos una variable
independiente afecta a Y )

La hiptesis nula es una afirmacin muy fuerte.


Casi siempre se rechaza la hiptesis nula.

Gerardo Heckmann, FCE - UNC

20

Testeo de Significacin Global


Salida Excel: Ejemplo

Testeo de Significacin Global


(contina)


ANOVA

Test F:


df
Regression
Residual
Total

CMR

F =

CME

SS
MS
F
Significance F
2 228014.6 114007.3 168.4712
1.65411E-09
12 8120.603 676.7169
14 236135.2

p = 2, nmero de
variables explicativas


F tiene p g.l. en el numerador y (n-p-1) en el


denominador

Gerardo Heckmann, FCE - UNC

CMR
= F (observado)
CME
21

Gerardo Heckmann, FCE - UNC

Testeo de Significacin Global


Solucin del Ejemplo
H0: 1 = 2 = = p = 0
H1: Al menos un i 0
= .05

168.47

(Salida Excel)

g.l. = 2 y 12

Decisin:
Rech. con = 0.05

Valor Crtico:

3.89

Gerardo Heckmann, FCE - UNC

Gerardo Heckmann

Muetra si existe una relacin lineal entre Xi y Y


Usa la prueba t
Hiptesis:



Conclusin:
= 0.05

22

Test de Significacin:
Variables Individuales

Valor Observado:

F =

p value
n-1

H0: i = 0 (no hay relacin lineal)


H1: i 0 (hay relacin lineal entre Xi yY )

Hay evidencia de que al


menos una variable
independiente afecta a Y
23

Gerardo Heckmann, FCE - UNC

24

Estadstica II, Cat. E

Regresin Mltiple

Prueba t
Salida de Excel: Ejemplo

Prueba t : Solucin del Ejemplo


Tiene la temperatura un efecto significativo sobre el
consumo mensual de combustible para calefaccin?
Prueba con = 0.05.

Valor Observ. de t
para X1 (Temperatura)
Intercept
X Variable 1
X Variable 2

Coefficients Standard Error


562.1510092
21.09310433
-5.436580588
0.336216167
-20.01232067
2.342505227

b
t= i
Sbi

H0: 1 = 0

t Stat
26.65093769
-16.16989642
-8.543127434

g.l. = 12

Valores Crticos:

Valor observ. de t para


X2 (Aislam.)

Rech. H 0

Rech. H 0

.025

.025

-2.1788

Gerardo Heckmann, FCE - UNC

25

Provea un intervalo de confianza del 95% para la


pendiente poblacional 1 (el efecto de la temperatura en el
consumo de combustible).

Sea Xk la variable independiente de inters

SSR ( X k | Todas
all others
except
X k )Xk)
las dems,
excepto
= SSR ( all ) SSR ( all
others
except
X k ) Xk)
Todas
las dems,
excepto


Mide la contribucin de Xk en la explicacin de la


variacin total de Y (SST)

Gerardo Heckmann, FCE - UNC

Coeficiente de
determinacin Parcial de X k

Contribucin de una variable


Independiente X k


De la tabla ANOVA de
la regresin:

Yi = b0 + b1 X 1i + b2 X 2i + b3 X 3i

Yi = b0 + b2 X 2i + b3 X 3i

Mide la contribucin de X 1 para explicar la SST


Gerardo Heckmann, FCE - UNC

Gerardo Heckmann

rYk2 allTodas
=
las otras
others
Todas
las otras)
SSR ( X k | all
others
)

Y X ) SSR ( X and
= SSR ( X 1 , X 2 and
3
2 Y X3 )

De la tabla ANOVA de la
regresin:

26

Lower 95% Upper 95%


516.1930837 608.108935
-6.169132673 -4.7040285
-25.11620102 -14.90844

Y X3 )
SSR ( X 1 | X 2 and

Contribucin de cada
variable Independiente X k

b1 t n p 1 S b1

-6.169 1 -4.704
El consumo estimado de combustible se reduce entre 4.7 y
6.17 litros por cada grado adicional de temperatura.

0 2.1788

Conclusin:
Hay evidencias de un
efecto significativo de
la temperatura en el
consumo de comb.

Gerardo Heckmann, FCE - UNC

Intervalo de Confianza para la


pendiente

Coefficients
562.151009
Intercept
X Variable 1 -5.4365806
X Variable 2 -20.012321

Valor observado:
t = -16.1699
Decisin:
Rech. H0 con = 0.05

H1: 1 0

SST SSR ( all ) + SSR ( X k | all


others
Todas
las otras)
)


Mide la proporcin de variacin de la variable


dependiente que es explicada por Xk
mientras se controlan (se mantienen
constantes) las dems variables
independientes

Gerardo Heckmann, FCE - UNC

Estadstica II, Cat. E

Regresin Mltiple

Coeficiente de
determinacin Parcial de X k

En Diagramas de Venn

(continuacin)

Ejemplo: Modelo de dos variables Independientes

rY21 2 =

rY21 2 =

SSR ( X 1 | X 2 )

Comb

SSR ( X 1 | X 2 )
SST SSR ( X 1 , X 2 ) + SSR ( X 1 | X 2 )

SSR( X1 | X2 )
SST SSR( X1, X2 ) + SSR( X1 | X2 )

Temp
Aislam.
Gerardo Heckmann, FCE - UNC

Gerardo Heckmann, FCE - UNC

Contribucin de un subconjunto
de variables Independientes


Sea Xs el subconjunto de variables


independientes de inters


Contribucin de un subconjunto
de variables Independientes
Sea que Xs represente a X1 y X3
Y X |X )
SSR ( X 1 and
3
2

Todas
las otras
salvoX
Xss))
SSR ( X s | all
others
except

Y X 3 ) SSR ( X 2 )
= SSR ( X 1 , X 2 and

= SSR ( all ) SSR ( all


others
except
Todas
las otras
salvoXXs))


Mide la contribucin del subconjunto xs en la


explicacin de la SST

De la tabla ANOVA de la
regresin:

Yi = b0 + b1 X1i + b2 X 2i + b3 X 3i
Gerardo Heckmann, FCE - UNC

De la tabla
ANOVA de la
regresin:
= b + bforX
Yregression
i

2i

Gerardo Heckmann, FCE - UNC

Testeo de Porciones del Modelo

Testeo de Porciones del Modelo


(continuacin)

Examina la contribucin de un subconjunto Xs


de variables explicativas a la relacin con Y
Hiptesis Nula:


Las variables en el subconjunto no contribuyen a


mejorar significativamente al modelo cuando todas
las otras variables son includas




Siempre una zona de rechazo


Requiere la comparacin de dos regresiones



Una regresin incluye todo


La otra regresin incluye todo excepto la porcin a
ser testeada

Hiptesis Alternativa:


Al menos una variable es significativa

Gerardo Heckmann, FCE - UNC

Gerardo Heckmann

Gerardo Heckmann, FCE - UNC

Estadstica II, Cat. E

Regresin Mltiple

Tests F Parcial para la contribucin


de un subconjunto de variables X


Hiptesis:


H0 : las Variables Xs no mejoran significativamente


al modelo dadas todas las dems vbles includas
H1 : las Variables Xs mejoran significativamente el
modelo dadas todas las dems vbles includas

H0 : la Variable Xj no mejora significativamente al


modelo dadas todas las dems vbles includas
H1 : la Variable Xj mejora significativamente el
modelo dadas todas las dems vbles includas

Estadstico de Prueba:

Todas
las otras)/m
SSR ( X s | all
others
)/m
F=
MSE ( all )

Hiptesis:

Estadstico de Prueba:

Tests F Parcial para la contribucin


de una variable X

F=

con df = m y (n-p-1)
m = # de variables en el subconjunto Xs

Todas
las otras)
SSR ( X s | all
others
)/m
MSE ( all )

con df = 1 y (n-p-1)
m=1




Gerardo Heckmann, FCE - UNC

Testeo de Porciones del Modelo:


Ejemplo

Testeo de Porciones del Modelo:


Ejemplo
Probar con = .05 si
la variable temperatura
promedio mejora el
modelo cuando la
variable aislamiento es
includa.

H0: X1 (temperatura) no
mejora el modelo cuando
X2 (aislamiento) es includ
ANOVA

(Para X1 y X2)

ANOVA

Regression
Residual
Total

SS
MS
228014.6263 114007.313
8120.603016 676.716918
236135.2293

SS
Regression 51076.47
Residual
185058.8
Total
236135.2

Conclusin: Rechazar H0; X1 mejora el modelo

Necesitamos hacer esto para


una variable?

(Para X2)

SSR ( X 1 | X 2 ) ( 228, 015 51, 076 )


=
= 261.47
MSE ( X 1 , X 2 )
676.717

2002 Prentice-Hall, Inc.


Gerardo Heckmann, FCE - UNC

El test F para la inclusin de una sola


variable despus que todas las dems
han sido incldas en el modelo es
IDENTICO al test t para la pendiente
de esa variable
La nica razn para hacer el test F
es la necesidad de probar hiptesis
de varias variables juntas

Valor Critico = 4.75

H1: X1 mejora el modelo

F=

= .05, gl = 1 y 12

Modelos con Variables Dummy










Variable Categrica explicativa (variable


dummy) con dos o ms niveles:
S o No, on u off, hombre o mujer,
Codificadas como 0 1
Solo las ordenadas son distintas
Supone iguales pendientes entre categoras
El nmero de variables dummy necesarias es
(nmero de niveles - 1)
El modelo de regresin tiene la misma forma:
Yi = 0 + 1 X 1i + 2 X 2i + + k X ki + i

Gerardo Heckmann, FCE - UNC

Gerardo Heckmann

42

Estadstica II, Cat. E

Regresin Mltiple

Modelos con variables Dummy


(con 2 niveles)

Modelos con variables Dummy


(con 2 niveles)
(continuacin)

Y (Valor tasado)

Dado: Yi = b0 + b1 X1i + b2 X 2i

Misma
Pendiente

Y = Valor tasado para una casa


X1 =

Mtrs2

de la casa

X2 = Calidad del vecindario =

0 indeseable
1 deseable

Deseable (X2 = 1)
Yi = b0 + b1X1i + b2 (1) = (b0 + b2 ) + b1X1i
Indeseable (X2 = 0)
Yi = b0 + b1 X1i + b2 (0) = b0 + b1 X1i

Diferentes
ordenadas

X1 (Mtrs2)
43

Gerardo Heckmann, FCE - UNC

Ejemplo:

Dado:

Yi = b0 + b1 X 1i + b2 X 2 i = 20 + 5 X 1i + 6 X 2i

Y = Valor tasado para una casa

Y : Salario anual graduados


X 1 : Promedio X 2 :

X1 = Mtrs2 de la casa

0 Mujer

Estilo de la casa2 = una planta, dos plantas,


en condominio (3 niveles, necesito 2
Dummies)
1 una planta
1 dos plantas
X 2 0 si no lo es
X 2 0 si no lo es

1 Varn

En promedio, los graduados varones estn


ganando $6 mil ms que una mujer graduada,
con el mismo Promedio.
Gerardo Heckmann, FCE - UNC

45

Gerardo Heckmann, FCE - UNC

Dado
modelo
estimado:
Givenelthe
Estimated
Model:

Yi = 20.43 + 0.045 X 1i + 18.84 X 2 i + 23.53 X 3i


For Split-level
= 1) :
( X 2 =1):
Para
Una Planta (X2
Yi = 20.43 + 0.045 X 1i + 18.84
For
( X 3 = 1X3=1:
):
ParaRanch
Dos Plantas
Yi = 20.43 + 0.045 X 1i + 23.53

Gerardo Heckmann, FCE - UNC

Gerardo Heckmann

46

Modelo de Regresin con


interaccin

Interpretacin de los coeficientes de


las variables Dummy (con 3 niveles)

44

Modelos con variables Dummy


(con 3 niveles)

Interpretacin del coeficiente de la


variable Dummy (con 2 niveles)

For Condo:
Para
Condominio:
Y = 20.43 + 0.045 X

b0

Mismas
Pendientes

Gerardo Heckmann, FCE - UNC

b1

b0 + b2

Con los mismos Mtrs2, una


casa de una plantas tendr un
valor tasado promedio de
$18.84 mil ms que una en
condominio.
Con los mismos mtrs2, una casa
de dos plantas tendr un valor
tasado promedio $23.53 mil
ms que una en Condominio.

Hipotetiza la interaccin entre un par de


variables X


La respuesta a una variable X varia a diferentes


niveles de la otra variable X

Contiene trminos de producto cruzado


 Yi = 0 + 1 X 1i + 2 X 2 i + 3 X 1i X 2 i + i
Puede ser combinado con otros modelos


Por ejemplo, con el modelo de variables Dummy

1i
47

Gerardo Heckmann, FCE - UNC

48

Estadstica II, Cat. E

Regresin Mltiple

Efecto de Interaccin


Ejemplo de Interaccin

Dado:
 Yi = 0 + 1 X 1i + 2 X 2 i + 3 X 1i X 2 i + i
Sin trmino de interaccin el efecto de X1 enY
es medido por 1
Con trmino de interaccin, el efecto de X1
sobre Y es medido por 1 + 3 X2
El efecto cambia a medida que X2 sube

Y = 1 + 2X1 + 3X2 + 4X1X2


Y = 1 + 2X1 + 3(1) + 4X1(1) = 4 + 6X1

12
8
Y = 1 + 2X1 + 3(0) + 4X1(0) = 1 + 2X1

4
0
0

0.5

1.5

X1

El efecto (pendiente) de X1 en Y depende del valor de X2


Gerardo Heckmann, FCE - UNC

49

Hoja de clculo para el modelo


de regresin con interaccin
Case, i

Yi

X1i

X2i

X1i X2i

1
2
3
4
:

1
4
1
3
:

1
8
3
5
:

3
5
2
6
:

3
40
6
30
:

50

Interpretacin cuando hay ms


de tres niveles
Y = 0 + 1MALE + 2 MARRIED + 3DIVORCED
+ 4 MALE MARRIED + 5 MALE DIVORCED
MALE = 0 si mujer y 1 si varn
MARRIED = 1 si casado; 0 si no
DIVORCED = 1 si divorciado; 0 si no
MALEMARRIED = 1 si varn casado; 0 dems casos
= (MALE multiplicado por MARRIED)
MALEDIVORCED = 1 si varn divorciado; 0 dems
= (MALE multiplicado por DIVORCED)

Multiplicar X1 por X2 para obtener X1X2.


Correr la regresin con Y, X1, X2 , X1X2
Gerardo Heckmann, FCE - UNC

Gerardo Heckmann, FCE - UNC

51

Interpretacin cuando hay ms


de tres niveles

Gerardo Heckmann, FCE - UNC

52

Interpretacin de Resultados

(continuacin)

Y = 0 + 1MALE + 2 MARRIED + 3DIVORCED

FEMALE
Single: 0
Married: 0 + 2
Divorced: 0 + 3

+ 4 MALE MARRIED + 5 MALE DIVORCED


SINGLE

FEMALE 0
MALE

Gerardo Heckmann, FCE - UNC

Gerardo Heckmann

MARRIED

DIVORCED

0 + 2

0 + 3

MALE
Diferencia
1
Single: 0 + 1
1 + 4
Married: 0 + 1 + 2 + 4
Divorced: 0 + 1 + 3 + 5 1 + 5

Efectos princip.: MALE, MARRIED y DIVORCED

0 + 1
+ 2 + 4 + 3 + 5

0 + 1 0 + 1

Interacciones : MALEMARRIED y
MALEDIVORCED
53

Gerardo Heckmann, FCE - UNC

54

Estadstica II, Cat. E

Regresin Mltiple

10

Evaluacin de la presencia
de Interaccin


Hipotetizada la presencia de interaccin entre


pares de variables independientes
Contiene trminos producto

Yi = 0 + 1 X 1i + 2 X 2 i + 3 X 1i X 2 i + i


Hiptesis:



H0: 3 = 0 (no hay interaccin entre X1 y X2)


H1: 3 0 (X1 interacta con X2)

Gerardo Heckmann, FCE - UNC

Gerardo Heckmann

55

Estadstica II, Cat. E

También podría gustarte