Está en la página 1de 37

REGRESIÓN LINEAL

MÚLTIPLE

ESTADÍSTICA II

Unidad III
Regresión Lineal
El análisis de regresión lineal presupone
la existencia de una relación funcional
del tipo lineal en sus parámetros entre
una variable respuesta y una o más
variables predictoras.

2
Regresión Lineal
Objetivos Principales
• Modelar la relación entre la respuesta
observada y la o las variables
predictoras bajo la suposición de una
relación lineal.

• Inferir eficientemente sobre los


valores esperados de la respuesta para
distintos niveles de la o las regresoras
3
Regresión Lineal Múltiple

Yij = 0 + 1 X1 +2 X2 + …..+ k Xk + ij

donde:
Yij = observación de la variable dependiente
X1, X2,...,Xk = variables regresoras o independientes
0 = parámetro desconocido que representa la ordenada
al origen
1, ...,k = parámetros desconocidos que representan las
tasa de cambio en Y frente al cambio unitario de X1,...,Xk
respectivamente
ij = término de error aleatorio
Supuestos del modelo de muestreo ideal 4
Regresión Lineal Múltiple
Expresión matricial
Y  Xβ  ε
Yn  Vector de observaciones de la respuesta

x nk 1 Matriz conteniendo valores de regresoras


más una columna de unos
β k 1 Vector de coeficientes de regresión

εn  Vector de términos de error


2
Supuestos del MMI ε  NMV (0, Σ   I n )
5
Regresión Lineal Múltiple
Expresión matricial
Y  Xβ  ε Modelo Poblacional

 y1   1 x11 x12 ... x1k   β0   ε1 


y  1 x x22 ... x2 k  β  ε 
  
2 21
    2
1
  ... ... ... ... ...     
       
 n  n1  1 xn1
y xn 2 ... xnk  nk 1  k  k 1 εn  n1
β

E (Y)  Xβ Ecuación Poblacional

Yˆ  Xβˆ Ecuación Estimada

6
Algunas propiedades
E (Y )  Xβ
ˆ
Mínimos cuadrados estima E ( Y ) con Xβ
donde ˆ  ( XX) 1 XY

    
 E ˆ0 0


 ˆ
E β̂  
     
E 1 1 β̂ con distribución normal
    
 
 
 E ˆk 
 
 k 
 c00 c01 c02 ... c0 k 
c ... c1k 
  
Cov βˆ   2  X ' X   2   10
1

 ...
c11 c12
... ... ... ... 
 
 ck 0 ck 1 c k 2 ... ckk 

7
Prueba de significancia de la
regresión
Contraste de Hipótesis:
H0: 1= 2 =...= k =0
H1: j  0 al menos para una j

Donde el Estadístico de prueba

F0 
SC Re g k

CM Re g
 '

βˆ ' X' Y   yi 2 n k 
 
SCError n  k  1 CMError Y Y  βˆ ' X' Y n  k  1

Decisión: criterio del valor “p”

Rechazar H0 si p<

Siendo p la probabilidad que el estadístico de prueba tome el


valor hallado o uno más extremo aún, siendo H0 verdadera. 8
Pruebas individuales
Contraste de Hipótesis:
H0: j=0
H1: j  0
ˆ j ˆ j
Donde el Estadístico de prueba T  
S S c jj
ˆ
j
tiene distribución t n k 1
ˆ
cjj es el elemento de ( XX) que corresponde a  j
1

SCError Y ' Y  βˆ ' X' Y


S  CMError  
n  ( k  1)
n  (k  1)
y la estimación de
la varianza del error.
Regla de decisión
• Criterio del Valor “p”

Rechazar H0 si p < 

• Características del estadístico T:

Rechazar H0 si T 1
ˆ j
T
Siendo S ˆ
j

Variables regresoras con valor absoluto de T mayores a 1 no debieran eliminarse


del análisis. Esto produce una disminución importante de R 2.

10
Coeficiente de determinación
R2 mide la proporción de la variación en Y que es
explicada por la relación con X.

Se calcula como el cociente entre la suma de cuadrados


del modelo y la suma de cuadrados total

2
R 
SC Re g

 ( ˆ
y i  y ) 2 ˆ
β
 '
' '
X Y   y i 2
n
SCTotal  ( yi  y ) 2
Y Y   yi 2 n

11
Coeficiente de determinación
R2 Ajustado

R  1  1  R
2
Aj
2
n  1 n  k  1
Al contrario que el R2, el R2 ajustado puede decrecer
al aumentar el número de regresoras, indicando que
estas no producen un aporte a la mejora del modelo

12
Diagnóstico y control de supuestos

¿Se verifica el cumplimiento de los supuestos?

¿Existen valores atípicos?

¿Son todas las observaciones influyentes en la


determinación de los coeficientes de regresión?

¿Puede el modelo ser mejorado con alguna


transformación sobre la variable dependiente y/o sobre
la variable regresora?

13
Errores aleatorios y residuos
Los residuos son utilizados como herramienta de
diagnóstico
  Y  E (Y X )
e  Y  Yˆ
- Modelo RLS - Modelo RLM
  Y   0  1 X    Y   0  1 X 1  ...   k X k 

e  Y  ˆ0  ˆ1 X  
e  Y  ˆ0  ˆ1 X 1  ...  ˆk X k 

14
Verificación gráfica de supuestos
•Residuos versus predichos: permite testear
aleatoriedad, E()=0 , Var( )=y normalidad.

•QQ-plots e histogramas de residuos: permite


testear ajuste a la distribución normal.

•Residuos versus tiempo: permite testear el supuesto


de independencia.

•Residuos versus una predictora : permite detectar


malas especificaciones del modelo y presencia de valores
atípicos o influyentes.
15
Prueba de hipótesis sobre los
supuestos
• Prueba de Shapiro-Wilks
H0: Los errores tienen distribución normal

• Prueba de correlación de rangos de Spearman


H0: Los errores tienen varianza homogénea

Detección de patrones en función del tiempo


Prueba de Rachas
• H0: Los errores son aleatorios

Prueba de Durbin-Watson (no correlación lineal de los residuos)


• H0: =0 versus H1: 0

16
Metodología en RLM

17
Metodología en RLM
• Análisis exploratorio
• Identificación del modelo
• Estimación de parámetros del modelo
• Control de supuestos
• Construcción de intervalos de confianza para
coeficientes de regresión
• Contraste de hipótesis sobre coeficientes
•Ajustes del modelo
•Utilización del modelo para hacer predicciones
18
Regresión Lineal Múltiple
Ejemplo
Una agencia lleva a cabo investigaciones acerca de
actitudes y conductas del consumidor para diversas
empresas. Un cliente pidió una investigación sobre las
características de consumidores que se puedan usar
para predecir la cantidad que pagan los usuarios con
tarjeta de crédito. Se reunieron datos sobre una
muestra de 50 consumidores (Archivo Familias).
Ingreso anual (en miles de $),
Tamaño de la familia
Pago anual con tarjeta de crédito (en $),
Zona de la ciudad en la que reside: n (norte), s (sur)
19
Análisis exploratorio
• Indagar acerca de la existencia de relación entre la
variable dependiente y las variables explicativas y de
las explicativas entre sí.
Análisis de relaciones entre variables cuantitativas

Cantidad pagada

Ingreso

Tamaño
20
Análisis exploratorio
• Indagar acerca de la existencia de relación entre la
variable dependiente y las variables explicativas y de
las explicativas entre sí.

Cantidad pagada vs Ingreso (particionado por Zona) Cantidad pagada vs Tamaño flía (particionado por Zona)

5812 5812

Cantidad pagada
Cantidad pagada

4788 4788

3764 3764

2740 2740

1716 1716
19 32 44 57 69 1 2 4 6 7
Ingreso Tamaño

Zona Norte Zona Norte


Zona Sur Zona Sur
Zona Norte_suavizada Cantidad pagada-n_suavizada
Zona Sur_suavizada Cantidad pagada-s_suavizada21
Identificación del modelo
• A partir del análisis preliminar decidir acerca de las
variables a incluir en el modelo
Análisis de regresión lineal
Variable N R² R² Aj ECMP AIC BIC
Cantidad pagada 50 0,89 0,88 138956,25 728,49 741,88

Coeficientes de regresión y estadísticos asociados


Coef Est. E.E. LI(95%) LS(95%) T p-valor
const 1539,67 270,97 993,57 2085,76 5,68 <0,0001
Ingreso 21,29 7,18 6,83 35,76 2,97 0,0048
Tamaño 355,05 36,36 281,78 428,33 9,77 <0,0001
Zona 868,42 420,62 20,72 1716,12 2,06 0,0449
ZonaxIng -7,24 9,35 -26,08 11,60 -0,77 0,4429
ZonaxTam 24,69 55,38 -86,92 136,29 0,45 0,6579

Cuadro de Análisis de la Varianza (SC tipo III)


F.V. SC gl CM F p-valor
Modelo 37994628,48 5 7598925,70 71,07 <0,0001
Ingreso 941253,81 1 941253,81 8,80 0,0048
Tamaño 10195956,37 1 10195956,37 95,36 <0,0001
Zona 455771,51 1 455771,51 4,26 0,0449
ZonaxIng 64107,88 1 64107,88 0,60 0,4429
ZonaxTam 21249,23 1 21249,23 0,20 0,6579
Error 4704520,34 44 106920,92
Total 42699148,82 49

22
Análisis gráfico de supuestos
• Residuos vs Predichos: permiten testear los
supuestos de

•E()=0 • Var( )=y normalidad.


Residuos vs Predichos Residuos Estudentizados vs Predichos

811,69 2,96 3

Res. estudentizados_Cantidad pagada


RDUO_Cantidad pagada

325,19 1,32

-161,32 -0,33

-647,82 -1,98

5
-1134,33
-3,63
2301,16 3227,80 4154,43 5081,06 6007,70 2309,61 3221,00 4132,39 5043,77 5955,16
PRED_Cantidad pagada Predichos

23
Supuestos de Normalidad
• Recursos gráficos
Q-Q plot
Histograma

Cuantiles observados(RE_Cantidad pagada)


3
Ajuste: Normal(0,004,1,021) 2,49 n= 50 r= 0,984 (RE_Cantidad pagada)
0,44

1,04
0,33
frecuencia relativa

-0,41
0,22

-1,85
0,11

5
-3,30
0,00 -3,30 -1,85 -0,41 1,04 2,49
-3,88 -2,72 -1,57 -0,41 0,75 1,91 3,07
Cuantiles de una Normal(0,0037705,1,0206)
RE_Cantidad pagada

• Prueba de Hipótesis
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(Unilateral D)
RE_Cantidad pagada 50 3,8E-03 1,01 0,99 0,9794

24
Adecuación del modelo
• Se corre un nuevo modelo eliminando las variables cuyos
coeficientes no son significativamente distintos de cero y se
analizan nuevamente los supuestos.
Análisis de regresión lineal
Variable N R² R² Aj ECMP AIC BIC
Cantidad pagada 50 0,89 0,88 123591,24 725,29 734,85
 
 
Coeficientes de regresión y estadísticos asociados
Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows
const 1645,87 173,63 1296,37 1995,36 9,48 <0,0001
Ingreso 17,24 4,49 8,20 26,28 3,84 0,0004 17,45
Tamaño 363,94 26,93 309,74 418,14 13,52 <0,0001 181,80
Zona 647,75 127,84 390,43 905,08 5,07 <0,0001 28,15
 
 
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 37918818,74 3 12639606,25 121,63 <0,0001
Ingreso 1532241,16 1 1532241,16 14,74 0,0004
Tamaño 18982604,76 1 18982604,76 182,67 <0,0001
Zona 2668063,07 1 2668063,07 25,67 <0,0001
Error 4780330,08 46 103920,22
Total 42699148,82 49
 

25
Control supuestos Nuevo
Modelo
• Residuos vs Predicho permite analizar los
supuestos de: E()=0, Var( )=y normalidad
Residuos Estudentizados vs Predichos

2,96 3
Res. estudentizados_Cantidad pagada

1,32

-0,33

-1,98

5
-3,63
2309,61 3221,00 4132,39 5043,77 5955,16
Predichos
• Prueba Formal de Normalidad
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(Unilateral D)
RE_Cantidad pagada 50 2,8E-03 1,01 0,99 0,9786

26
Diagnóstico y control de supuestos
¿Existen valores atípicos?
¿Son todas las observaciones influyentes en la
determinación de los coeficientes de regresión?
Valores Atípicos Valores Influeyentes
Datos con un valor atípico Datos con una observación influyente

78 132

62 123

45 114
Y

29 105

12 96
1 2 4 5 6 7 24 40 57 73
X X 27
Diagnóstico y control de supuestos
¿Se verifica el cumplimiento de los supuestos?
Errores aleatorios y residuos
  Y  E (Y X )
e  Y  Yˆ
- Modelo RLS - Modelo RLM
  Y   0  1 X    Y   0  1 X 1  ...   k X k 

e  Y  ˆ0  ˆ1 X  
e  Y  ˆ0  ˆ1 X 1  ...  ˆk X k 
Los residuos son utilizados como herramienta de
diagnóstico
28
Residuos estudentizados

Yi  Yˆi
Para estandarizar los
residuos basta dividirlos ei
por su desviación RE  
estándar, ya que su SY Yˆ S 1  hii
media es cero.
•En Regresión Lineal Simple los hii
El leverage, hii, permite
observar y cuantificar cuan 1
hii  
x
i  x 2

 
2
lejos una observación se n xi  x
encuentra de las n-1
observaciones restantes. • En Regresión Lineal Múltiple los hii
son los elementos diagonales de la
matriz H, donde H=X(X'X)-1X’, con X
matriz de regresoras.
29
Valores atípicos e influyentes
•Cualquier observación con un residual estandarizado menor
que -2 o mayor que +2 se considera un valor atípico.
•Cuando los errores tienen distribución normal, los residuales
estandarizados deben estar fuera de estos límites
aproximadamente el 5% de los casos.

•Las observaciones con alto leverage son valores influyentes,


pero pueden ser buenos si mantienen la tendencia.
•Un leverage es grande si supera su media=2(k+1)/n.
•Es útil graficar leverage vs. X o leverage vs. Predichos para
detectar valores con leverage alto.

30
Distancia de Cook
Esta medida combina los valores atípicos con los
valores influyentes.

2
 e
Cooki   i
 S 2
1  h 



 hii

 1
ii 

 1 h  k 1
 ii 

Permite medir la influencia de la i-ésima observación


en la ecuación de regresión hallada.

31
Distancia de Cook

•Grandes valores de esta medida indican


observaciones cuya eliminación tiene gran influencia
sobre los valores predichos.
•Como punto de corte para determinar si un dato es
influyente se pueden usar los cuantiles 0.50 de una
F con k y n-k gl.
•Una forma simplificada es tomar como cota
máxima para el cuantil el valor 1.

32
Valores Atípicos e Influyentes
Los valores 3 y 5 son valores atípicos porque están a más de 2
desviaciones de la media.
Caso CantPag RDUO RE REE PRED LEVE COOK
1 4016 -300,46 -0,95 -0,95 4316,46 0,04 0,01
2 3159 268,02 0,85 0,85 2890,98 0,05 0,01
3 5100 798,91 2,66 2,87 4301,09 0,14 0,28
4 4742 -233,37 -0,75 -0,74 4975,37 0,06 0,01 El valor 11 es un valor
5 1864 -1044,22 -3,33 -3,77 2908,22 0,05 0,15 influyente porque posee un
6 4070 100,24 0,32 0,32 3969,76 0,06 0 leverage alto
7
8
2731 83,27
3348 -363,15
0,27
-1,18
0,27
-1,18
2647,73 0,08 0
3711,15 0,08 0,03 hii  2
k  1  0,16
9 4764 -123,29 -0,4 -0,39 4887,29 0,07 0 n
10 4110 -154,74 -0,49 -0,49 4264,74 0,04 0
11 4208 391,54 1,35 1,37 3816,46 0,19 0,11
12 4219 289,8 0,94 0,94 3929,2 0,08 0,02
13 2477 1,68 0,01 0,01 2475,32 0,08 0
Sin embargo ninguno de ellos son valores influyentes para la
ecuación hallada. Distancia de Cook menor a 1.
Análisis gráfico de valores
atípicos e influyentes
• Leverage • Distancia de Cook: identifica las
es alto si hii  2
k  1  0,16 observaciones influyentes para el modelo
n obtenido.
es alto si D>1
Leverage vs Casos Distancias de Cook vs Casos

0,20 11 0,29 3
DCook=0,28
hii=0,19
Leverage_Cantidad pagada

DCook_Cantidad pagada
0,16 0,21

0,12 0,14 DCook=0,15

0,08 0,06

0,04 -0,01
-1,45 12,03 25,50 38,98 52,45
-1,45 12,03 25,50 38,98 52,45
Caso
Caso

34
Ecuación Estimada de Regresión
Yˆ  1645,87  17,24  Ingreso  363,94  Tamaño  647,75  Zona
Donde: Yˆ representa la estimación de la cantidad promedio gastada en
tarjeta de crédito
0 si la familia reside en el sur de la ciudad
Zona  
1 si la familia reside en el norte de la ciudad

Los coeficentes de las variables explicativas numéricas representan el


cambio esperado en Y correspondiente a un cambio unitario en X i , cuando
las demás variables independientes se mantienen constantes.
El coeficiente de la variable cualitativa indica la diferencia entre el gasto
promedio en tarjeta de crédito para familias residentes en la zona norte y en
la zona sur
Yˆ  1645,87  17,24  Ingreso  363,94  Tamaño .
Yˆ  1645,87  647,75  17,24  Ingreso  363,94  Tamaño .
35
Coeficiente de determinación
R2 mide la proporción de la variación en Y que es
explicada por la relación con las X.

Se calcula como el cociente entre la suma de cuadrados


del modelo y la suma de cuadrados total

2 SC Re g
R   0,89
SCTotal

36
Intervalos de confianza
y de predicción
 
Para estimar E(Y|X=x0) Para predecir Y en X=x0
`'
 
' 1 `' ' 1
 
C  yˆ  t  s x 0  X X  x 0  E (Y \ x 0 )  yˆ  t  s x 0  X X  x 0   1  

 
 
C  yˆ 0  t  s 1  x`'0  X' X
1
 
 x 0  Y0  yˆ 0  t  s 1  x`'0  X' X
1
 x0   1  
 
Ingreso Tamaño Zona CantPag PRED ICON(LI) ICON(LS) IPRE (LI) IPRE (LS)
54 3 n 4016 4316,46 4182,97 4449,95 3653,98 4978,94
30 2 s 3159 2890,98 2742,97 3038,99 2225,42 3556,54
32 4 n 5100 4301,09 4062,57 4539,61 3609,75 4992,43
50 5 n 4742 4975,37 4817,94 5132,81 4307,66 5643,09
35 2 s            
31 2 s 1864 2908,22 2761,12 3055,32 2242,87 3573,57
55 2 n 4070 3969,76 3813,18 4126,35 3302,25 4637,28
37 1 s 2731 2647,73 2462,04 2833,42 1972,79 3322,67

37

También podría gustarte