Regresion Lineal Multiple

REGRESIÓN LINEAL
MÚLTIPLE
ESTADÍSTICA II
Unidad III
Regresión Lineal
El análisis de regresión lineal presupone
la existencia de una relación funcional
del tipo lineal en sus parámetros entre
una variable respuesta y una o más
variables predictoras.
2
Regresión Lineal
Objetivos Principales
• Modelar la relación entre la respuesta
observada y la o las variables
predictoras bajo la suposición de una
relación lineal.
• Inferir eficientemente sobre los

valores esperados de la respuesta para
distintos niveles de la o las regresoras
3
Regresión Lineal Múltiple
Yij = 0 + 1 X1 +2 X2 + …..+ k Xk + ij
donde:
Yij = observación de la variable dependiente
X1, X2,...,Xk = variables regresoras o independientes
0 = parámetro desconocido que representa la ordenada
al origen
1, ...,k = parámetros desconocidos que representan las
tasa de cambio en Y frente al cambio unitario de X1,...,Xk
respectivamente
ij = término de error aleatorio
Supuestos del modelo de muestreo ideal 4
Expresión matricial
Y  Xβ  ε
Yn  Vector de observaciones de la respuesta
x nk 1 Matriz conteniendo valores de regresoras

más una columna de unos
β k 1 Vector de coeficientes de regresión
εn  Vector de términos de error

2
Supuestos del MMI ε  NMV (0, Σ   I n )
5
Expresión matricial
Y  Xβ  ε Modelo Poblacional
 y1   1 x11 x12 ... x1k   β0   ε1 

y  1 x x22 ... x2 k  β  ε 
  
2 21
    2
1
  ... ... ... ... ...     
       
 n  n1  1 xn1
y xn 2 ... xnk  nk 1  k  k 1 εn  n1
β
E (Y)  Xβ Ecuación Poblacional
Yˆ  Xβˆ Ecuación Estimada
6
Algunas propiedades
E (Y )  Xβ
ˆ
Mínimos cuadrados estima E ( Y ) con Xβ
donde ˆ  ( XX) 1 XY
    
 E ˆ0 0

 ˆ
E β̂  
     
E 1 1 β̂ con distribución normal
    
 
 
 E ˆk 
 
 k 
 c00 c01 c02 ... c0 k 
c ... c1k 
  
Cov βˆ   2  X ' X   2   10
1
 ...
c11 c12
... ... ... ... 
 
 ck 0 ck 1 c k 2 ... ckk 
7
Prueba de significancia de la
regresión
Contraste de Hipótesis:
H0: 1= 2 =...= k =0
H1: j  0 al menos para una j
Donde el Estadístico de prueba
F0 
SC Re g k

CM Re g
 '

βˆ ' X' Y   yi 2 n k 
 
SCError n  k  1 CMError Y Y  βˆ ' X' Y n  k  1
Decisión: criterio del valor “p”
Rechazar H0 si p<
Siendo p la probabilidad que el estadístico de prueba tome el

valor hallado o uno más extremo aún, siendo H0 verdadera. 8
Pruebas individuales
Contraste de Hipótesis:
H0: j=0
H1: j  0
ˆ j ˆ j
Donde el Estadístico de prueba T  
S S c jj
ˆ
j
tiene distribución t n k 1
ˆ
cjj es el elemento de ( XX) que corresponde a  j
1
SCError Y ' Y  βˆ ' X' Y

S  CMError  
n  ( k  1)
n  (k  1)
y la estimación de
la varianza del error.
Regla de decisión
• Criterio del Valor “p”
Rechazar H0 si p < 
• Características del estadístico T:
Rechazar H0 si T 1
ˆ j
T
Siendo S ˆ
j
Variables regresoras con valor absoluto de T mayores a 1 no debieran eliminarse

del análisis. Esto produce una disminución importante de R 2.
10
Coeficiente de determinación
R2 mide la proporción de la variación en Y que es
explicada por la relación con X.
Se calcula como el cociente entre la suma de cuadrados

del modelo y la suma de cuadrados total
2
R 
SC Re g

 ( ˆ
y i  y ) 2 ˆ
β
 '
' '
X Y   y i 2
n
SCTotal  ( yi  y ) 2
Y Y   yi 2 n
11
R2 Ajustado
R  1  1  R
2
Aj
2
n  1 n  k  1
Al contrario que el R2, el R2 ajustado puede decrecer
al aumentar el número de regresoras, indicando que
estas no producen un aporte a la mejora del modelo
12
Diagnóstico y control de supuestos
¿Se verifica el cumplimiento de los supuestos?
¿Existen valores atípicos?
¿Son todas las observaciones influyentes en la

determinación de los coeficientes de regresión?
¿Puede el modelo ser mejorado con alguna

transformación sobre la variable dependiente y/o sobre
la variable regresora?
13
Errores aleatorios y residuos
Los residuos son utilizados como herramienta de
diagnóstico
  Y  E (Y X )
e  Y  Yˆ
- Modelo RLS - Modelo RLM
  Y   0  1 X    Y   0  1 X 1  ...   k X k 

e  Y  ˆ0  ˆ1 X  
e  Y  ˆ0  ˆ1 X 1  ...  ˆk X k 
14
Verificación gráfica de supuestos
•Residuos versus predichos: permite testear
aleatoriedad, E()=0 , Var( )=y normalidad.
•QQ-plots e histogramas de residuos: permite

testear ajuste a la distribución normal.
•Residuos versus tiempo: permite testear el supuesto

de independencia.
•Residuos versus una predictora : permite detectar

malas especificaciones del modelo y presencia de valores
atípicos o influyentes.
15
Prueba de hipótesis sobre los
supuestos
• Prueba de Shapiro-Wilks
H0: Los errores tienen distribución normal
• Prueba de correlación de rangos de Spearman

H0: Los errores tienen varianza homogénea
Detección de patrones en función del tiempo

Prueba de Rachas
• H0: Los errores son aleatorios
Prueba de Durbin-Watson (no correlación lineal de los residuos)

• H0: =0 versus H1: 0
16
Metodología en RLM
17
Metodología en RLM
• Análisis exploratorio
• Identificación del modelo
• Estimación de parámetros del modelo
• Control de supuestos
• Construcción de intervalos de confianza para
coeficientes de regresión
• Contraste de hipótesis sobre coeficientes
•Ajustes del modelo
•Utilización del modelo para hacer predicciones
18
Ejemplo
Una agencia lleva a cabo investigaciones acerca de
actitudes y conductas del consumidor para diversas
empresas. Un cliente pidió una investigación sobre las
características de consumidores que se puedan usar
para predecir la cantidad que pagan los usuarios con
tarjeta de crédito. Se reunieron datos sobre una
muestra de 50 consumidores (Archivo Familias).
Ingreso anual (en miles de $),
Tamaño de la familia
Pago anual con tarjeta de crédito (en $),
Zona de la ciudad en la que reside: n (norte), s (sur)
19
Análisis exploratorio
• Indagar acerca de la existencia de relación entre la
variable dependiente y las variables explicativas y de
las explicativas entre sí.
Análisis de relaciones entre variables cuantitativas
Cantidad pagada
Ingreso
Tamaño
20
Análisis exploratorio
• Indagar acerca de la existencia de relación entre la
variable dependiente y las variables explicativas y de
las explicativas entre sí.
Cantidad pagada vs Ingreso (particionado por Zona) Cantidad pagada vs Tamaño flía (particionado por Zona)
5812 5812
Cantidad pagada
Cantidad pagada
4788 4788
3764 3764
2740 2740
1716 1716
19 32 44 57 69 1 2 4 6 7
Ingreso Tamaño
Zona Norte Zona Norte

Zona Sur Zona Sur
Zona Norte_suavizada Cantidad pagada-n_suavizada
Zona Sur_suavizada Cantidad pagada-s_suavizada21
Identificación del modelo
• A partir del análisis preliminar decidir acerca de las
variables a incluir en el modelo
Análisis de regresión lineal
Variable N R² R² Aj ECMP AIC BIC
Cantidad pagada 50 0,89 0,88 138956,25 728,49 741,88
Coeficientes de regresión y estadísticos asociados

Coef Est. E.E. LI(95%) LS(95%) T p-valor
const 1539,67 270,97 993,57 2085,76 5,68 <0,0001
Ingreso 21,29 7,18 6,83 35,76 2,97 0,0048
Tamaño 355,05 36,36 281,78 428,33 9,77 <0,0001
Zona 868,42 420,62 20,72 1716,12 2,06 0,0449
ZonaxIng -7,24 9,35 -26,08 11,60 -0,77 0,4429
ZonaxTam 24,69 55,38 -86,92 136,29 0,45 0,6579
Cuadro de Análisis de la Varianza (SC tipo III)

F.V. SC gl CM F p-valor
Modelo 37994628,48 5 7598925,70 71,07 <0,0001
Ingreso 941253,81 1 941253,81 8,80 0,0048
Tamaño 10195956,37 1 10195956,37 95,36 <0,0001
Zona 455771,51 1 455771,51 4,26 0,0449
ZonaxIng 64107,88 1 64107,88 0,60 0,4429
ZonaxTam 21249,23 1 21249,23 0,20 0,6579
Error 4704520,34 44 106920,92
Total 42699148,82 49
22
Análisis gráfico de supuestos
• Residuos vs Predichos: permiten testear los
supuestos de
•E()=0 • Var( )=y normalidad.

Residuos vs Predichos Residuos Estudentizados vs Predichos
811,69 2,96 3
Res. estudentizados_Cantidad pagada

RDUO_Cantidad pagada
325,19 1,32
-161,32 -0,33
-647,82 -1,98
5
-1134,33
-3,63
2301,16 3227,80 4154,43 5081,06 6007,70 2309,61 3221,00 4132,39 5043,77 5955,16
PRED_Cantidad pagada Predichos
23
Supuestos de Normalidad
• Recursos gráficos
Q-Q plot
Histograma
Cuantiles observados(RE_Cantidad pagada)

3
Ajuste: Normal(0,004,1,021) 2,49 n= 50 r= 0,984 (RE_Cantidad pagada)
0,44
1,04
0,33
frecuencia relativa
-0,41
0,22
-1,85
0,11
5
-3,30
0,00 -3,30 -1,85 -0,41 1,04 2,49
-3,88 -2,72 -1,57 -0,41 0,75 1,91 3,07
Cuantiles de una Normal(0,0037705,1,0206)
RE_Cantidad pagada
• Prueba de Hipótesis
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(Unilateral D)
RE_Cantidad pagada 50 3,8E-03 1,01 0,99 0,9794
24
Adecuación del modelo
• Se corre un nuevo modelo eliminando las variables cuyos
coeficientes no son significativamente distintos de cero y se
analizan nuevamente los supuestos.
Análisis de regresión lineal
Variable N R² R² Aj ECMP AIC BIC
Cantidad pagada 50 0,89 0,88 123591,24 725,29 734,85

Coeficientes de regresión y estadísticos asociados
Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows
const 1645,87 173,63 1296,37 1995,36 9,48 <0,0001
Ingreso 17,24 4,49 8,20 26,28 3,84 0,0004 17,45
Tamaño 363,94 26,93 309,74 418,14 13,52 <0,0001 181,80
Zona 647,75 127,84 390,43 905,08 5,07 <0,0001 28,15

Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 37918818,74 3 12639606,25 121,63 <0,0001
Ingreso 1532241,16 1 1532241,16 14,74 0,0004
Tamaño 18982604,76 1 18982604,76 182,67 <0,0001
Zona 2668063,07 1 2668063,07 25,67 <0,0001
Error 4780330,08 46 103920,22
Total 42699148,82 49

25
Control supuestos Nuevo
Modelo
• Residuos vs Predicho permite analizar los
supuestos de: E()=0, Var( )=y normalidad
Residuos Estudentizados vs Predichos
2,96 3
Res. estudentizados_Cantidad pagada
1,32
-0,33
-1,98
5
-3,63
2309,61 3221,00 4132,39 5043,77 5955,16
Predichos
• Prueba Formal de Normalidad
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(Unilateral D)
RE_Cantidad pagada 50 2,8E-03 1,01 0,99 0,9786
26
¿Existen valores atípicos?
¿Son todas las observaciones influyentes en la
determinación de los coeficientes de regresión?
Valores Atípicos Valores Influeyentes
Datos con un valor atípico Datos con una observación influyente
78 132
62 123
45 114
Y
29 105
12 96
1 2 4 5 6 7 24 40 57 73
X X 27
¿Se verifica el cumplimiento de los supuestos?
Errores aleatorios y residuos
  Y  E (Y X )
e  Y  Yˆ
- Modelo RLS - Modelo RLM
  Y   0  1 X    Y   0  1 X 1  ...   k X k 

e  Y  ˆ0  ˆ1 X  
e  Y  ˆ0  ˆ1 X 1  ...  ˆk X k 
Los residuos son utilizados como herramienta de
diagnóstico
28
Residuos estudentizados
Yi  Yˆi
Para estandarizar los
residuos basta dividirlos ei
por su desviación RE  
estándar, ya que su SY Yˆ S 1  hii
media es cero.
•En Regresión Lineal Simple los hii
El leverage, hii, permite
observar y cuantificar cuan 1
hii  
x
i  x 2
 
2
lejos una observación se n xi  x
encuentra de las n-1
observaciones restantes. • En Regresión Lineal Múltiple los hii
son los elementos diagonales de la
matriz H, donde H=X(X'X)-1X’, con X
matriz de regresoras.
29
Valores atípicos e influyentes
•Cualquier observación con un residual estandarizado menor
que -2 o mayor que +2 se considera un valor atípico.
•Cuando los errores tienen distribución normal, los residuales
estandarizados deben estar fuera de estos límites
aproximadamente el 5% de los casos.
•Las observaciones con alto leverage son valores influyentes,

pero pueden ser buenos si mantienen la tendencia.
•Un leverage es grande si supera su media=2(k+1)/n.
•Es útil graficar leverage vs. X o leverage vs. Predichos para
detectar valores con leverage alto.
30
Distancia de Cook
Esta medida combina los valores atípicos con los
valores influyentes.
2
 e
Cooki   i
 S 2
1  h 



 hii

 1
ii 

 1 h  k 1
 ii 
Permite medir la influencia de la i-ésima observación

en la ecuación de regresión hallada.
31
Distancia de Cook
•Grandes valores de esta medida indican

observaciones cuya eliminación tiene gran influencia
sobre los valores predichos.
•Como punto de corte para determinar si un dato es
influyente se pueden usar los cuantiles 0.50 de una
F con k y n-k gl.
•Una forma simplificada es tomar como cota
máxima para el cuantil el valor 1.
32
Valores Atípicos e Influyentes
Los valores 3 y 5 son valores atípicos porque están a más de 2
desviaciones de la media.
Caso CantPag RDUO RE REE PRED LEVE COOK
1 4016 -300,46 -0,95 -0,95 4316,46 0,04 0,01
2 3159 268,02 0,85 0,85 2890,98 0,05 0,01
3 5100 798,91 2,66 2,87 4301,09 0,14 0,28
4 4742 -233,37 -0,75 -0,74 4975,37 0,06 0,01 El valor 11 es un valor
5 1864 -1044,22 -3,33 -3,77 2908,22 0,05 0,15 influyente porque posee un
6 4070 100,24 0,32 0,32 3969,76 0,06 0 leverage alto
7
8
2731 83,27
3348 -363,15
0,27
-1,18
0,27
-1,18
2647,73 0,08 0
3711,15 0,08 0,03 hii  2
k  1  0,16
9 4764 -123,29 -0,4 -0,39 4887,29 0,07 0 n
10 4110 -154,74 -0,49 -0,49 4264,74 0,04 0
11 4208 391,54 1,35 1,37 3816,46 0,19 0,11
12 4219 289,8 0,94 0,94 3929,2 0,08 0,02
13 2477 1,68 0,01 0,01 2475,32 0,08 0
Sin embargo ninguno de ellos son valores influyentes para la
ecuación hallada. Distancia de Cook menor a 1.
Análisis gráfico de valores
atípicos e influyentes
• Leverage • Distancia de Cook: identifica las
es alto si hii  2
k  1  0,16 observaciones influyentes para el modelo
n obtenido.
es alto si D>1
Leverage vs Casos Distancias de Cook vs Casos
0,20 11 0,29 3
DCook=0,28
hii=0,19
Leverage_Cantidad pagada
DCook_Cantidad pagada
0,16 0,21
0,12 0,14 DCook=0,15
0,08 0,06
0,04 -0,01
-1,45 12,03 25,50 38,98 52,45
-1,45 12,03 25,50 38,98 52,45
Caso
Caso
34
Ecuación Estimada de Regresión
Yˆ  1645,87  17,24  Ingreso  363,94  Tamaño  647,75  Zona
Donde: Yˆ representa la estimación de la cantidad promedio gastada en
tarjeta de crédito
0 si la familia reside en el sur de la ciudad
Zona  
1 si la familia reside en el norte de la ciudad
Los coeficentes de las variables explicativas numéricas representan el

cambio esperado en Y correspondiente a un cambio unitario en X i , cuando
las demás variables independientes se mantienen constantes.
El coeficiente de la variable cualitativa indica la diferencia entre el gasto
promedio en tarjeta de crédito para familias residentes en la zona norte y en
la zona sur
Yˆ  1645,87  17,24  Ingreso  363,94  Tamaño .
Yˆ  1645,87  647,75  17,24  Ingreso  363,94  Tamaño .
35
R2 mide la proporción de la variación en Y que es
explicada por la relación con las X.
Se calcula como el cociente entre la suma de cuadrados

del modelo y la suma de cuadrados total
2 SC Re g
R   0,89
SCTotal
36
Intervalos de confianza
y de predicción

Para estimar E(Y|X=x0) Para predecir Y en X=x0
`'
 
' 1 `' ' 1
 
C  yˆ  t  s x 0  X X  x 0  E (Y \ x 0 )  yˆ  t  s x 0  X X  x 0   1  

 
 
C  yˆ 0  t  s 1  x`'0  X' X
1
 
 x 0  Y0  yˆ 0  t  s 1  x`'0  X' X
1
 x0   1  
 
Ingreso Tamaño Zona CantPag PRED ICON(LI) ICON(LS) IPRE (LI) IPRE (LS)
54 3 n 4016 4316,46 4182,97 4449,95 3653,98 4978,94
30 2 s 3159 2890,98 2742,97 3038,99 2225,42 3556,54
32 4 n 5100 4301,09 4062,57 4539,61 3609,75 4992,43
50 5 n 4742 4975,37 4817,94 5132,81 4307,66 5643,09
35 2 s
31 2 s 1864 2908,22 2761,12 3055,32 2242,87 3573,57
55 2 n 4070 3969,76 3813,18 4126,35 3302,25 4637,28
37 1 s 2731 2647,73 2462,04 2833,42 1972,79 3322,67
37

Regresion Lineal Multiple

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresion Lineal Multiple

Cargado por

Copyright:

Formatos disponibles

REGRESIÓN LINEAL

• Inferir eficientemente sobre los

Yij = 0 + 1 X1 +2 X2 + …..+ k Xk + ij

x nk 1 Matriz conteniendo valores de regresoras

εn  Vector de términos de error

 y1   1 x11 x12 ... x1k   β0   ε1 

E (Y)  Xβ Ecuación Poblacional

Yˆ  Xβˆ Ecuación Estimada

Donde el Estadístico de prueba

Decisión: criterio del valor “p”

Siendo p la probabilidad que el estadístico de prueba tome el

SCError Y ' Y  βˆ ' X' Y

• Características del estadístico T:

Variables regresoras con valor absoluto de T mayores a 1 no debieran eliminarse

Se calcula como el cociente entre la suma de cuadrados

¿Se verifica el cumplimiento de los supuestos?

¿Existen valores atípicos?

¿Son todas las observaciones influyentes en la

¿Puede el modelo ser mejorado con alguna

•QQ-plots e histogramas de residuos: permite

•Residuos versus tiempo: permite testear el supuesto

•Residuos versus una predictora : permite detectar

• Prueba de correlación de rangos de Spearman

Detección de patrones en función del tiempo

Prueba de Durbin-Watson (no correlación lineal de los residuos)

Zona Norte Zona Norte

Coeficientes de regresión y estadísticos asociados

Cuadro de Análisis de la Varianza (SC tipo III)

•E()=0 • Var( )=y normalidad.

Res. estudentizados_Cantidad pagada

Cuantiles observados(RE_Cantidad pagada)

•Las observaciones con alto leverage son valores influyentes,

Permite medir la influencia de la i-ésima observación

•Grandes valores de esta medida indican

0,12 0,14 DCook=0,15

Los coeficentes de las variables explicativas numéricas representan el

Se calcula como el cociente entre la suma de cuadrados

También podría gustarte