Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MÚLTIPLE
ESTADÍSTICA II
Unidad III
Regresión Lineal
El análisis de regresión lineal presupone
la existencia de una relación funcional
del tipo lineal en sus parámetros entre
una variable respuesta y una o más
variables predictoras.
2
Regresión Lineal
Objetivos Principales
• Modelar la relación entre la respuesta
observada y la o las variables
predictoras bajo la suposición de una
relación lineal.
donde:
Yij = observación de la variable dependiente
X1, X2,...,Xk = variables regresoras o independientes
0 = parámetro desconocido que representa la ordenada
al origen
1, ...,k = parámetros desconocidos que representan las
tasa de cambio en Y frente al cambio unitario de X1,...,Xk
respectivamente
ij = término de error aleatorio
Supuestos del modelo de muestreo ideal 4
Regresión Lineal Múltiple
Expresión matricial
Y Xβ ε
Yn Vector de observaciones de la respuesta
6
Algunas propiedades
E (Y ) Xβ
ˆ
Mínimos cuadrados estima E ( Y ) con Xβ
donde ˆ ( XX) 1 XY
E ˆ0 0
ˆ
E β̂
E 1 1 β̂ con distribución normal
E ˆk
k
c00 c01 c02 ... c0 k
c ... c1k
Cov βˆ 2 X ' X 2 10
1
...
c11 c12
... ... ... ...
ck 0 ck 1 c k 2 ... ckk
7
Prueba de significancia de la
regresión
Contraste de Hipótesis:
H0: 1= 2 =...= k =0
H1: j 0 al menos para una j
F0
SC Re g k
CM Re g
'
βˆ ' X' Y yi 2 n k
SCError n k 1 CMError Y Y βˆ ' X' Y n k 1
Rechazar H0 si p<
Rechazar H0 si p <
Rechazar H0 si T 1
ˆ j
T
Siendo S ˆ
j
10
Coeficiente de determinación
R2 mide la proporción de la variación en Y que es
explicada por la relación con X.
2
R
SC Re g
( ˆ
y i y ) 2 ˆ
β
'
' '
X Y y i 2
n
SCTotal ( yi y ) 2
Y Y yi 2 n
11
Coeficiente de determinación
R2 Ajustado
R 1 1 R
2
Aj
2
n 1 n k 1
Al contrario que el R2, el R2 ajustado puede decrecer
al aumentar el número de regresoras, indicando que
estas no producen un aporte a la mejora del modelo
12
Diagnóstico y control de supuestos
13
Errores aleatorios y residuos
Los residuos son utilizados como herramienta de
diagnóstico
Y E (Y X )
e Y Yˆ
- Modelo RLS - Modelo RLM
Y 0 1 X Y 0 1 X 1 ... k X k
e Y ˆ0 ˆ1 X
e Y ˆ0 ˆ1 X 1 ... ˆk X k
14
Verificación gráfica de supuestos
•Residuos versus predichos: permite testear
aleatoriedad, E()=0 , Var( )=y normalidad.
16
Metodología en RLM
17
Metodología en RLM
• Análisis exploratorio
• Identificación del modelo
• Estimación de parámetros del modelo
• Control de supuestos
• Construcción de intervalos de confianza para
coeficientes de regresión
• Contraste de hipótesis sobre coeficientes
•Ajustes del modelo
•Utilización del modelo para hacer predicciones
18
Regresión Lineal Múltiple
Ejemplo
Una agencia lleva a cabo investigaciones acerca de
actitudes y conductas del consumidor para diversas
empresas. Un cliente pidió una investigación sobre las
características de consumidores que se puedan usar
para predecir la cantidad que pagan los usuarios con
tarjeta de crédito. Se reunieron datos sobre una
muestra de 50 consumidores (Archivo Familias).
Ingreso anual (en miles de $),
Tamaño de la familia
Pago anual con tarjeta de crédito (en $),
Zona de la ciudad en la que reside: n (norte), s (sur)
19
Análisis exploratorio
• Indagar acerca de la existencia de relación entre la
variable dependiente y las variables explicativas y de
las explicativas entre sí.
Análisis de relaciones entre variables cuantitativas
Cantidad pagada
Ingreso
Tamaño
20
Análisis exploratorio
• Indagar acerca de la existencia de relación entre la
variable dependiente y las variables explicativas y de
las explicativas entre sí.
Cantidad pagada vs Ingreso (particionado por Zona) Cantidad pagada vs Tamaño flía (particionado por Zona)
5812 5812
Cantidad pagada
Cantidad pagada
4788 4788
3764 3764
2740 2740
1716 1716
19 32 44 57 69 1 2 4 6 7
Ingreso Tamaño
22
Análisis gráfico de supuestos
• Residuos vs Predichos: permiten testear los
supuestos de
811,69 2,96 3
325,19 1,32
-161,32 -0,33
-647,82 -1,98
5
-1134,33
-3,63
2301,16 3227,80 4154,43 5081,06 6007,70 2309,61 3221,00 4132,39 5043,77 5955,16
PRED_Cantidad pagada Predichos
23
Supuestos de Normalidad
• Recursos gráficos
Q-Q plot
Histograma
1,04
0,33
frecuencia relativa
-0,41
0,22
-1,85
0,11
5
-3,30
0,00 -3,30 -1,85 -0,41 1,04 2,49
-3,88 -2,72 -1,57 -0,41 0,75 1,91 3,07
Cuantiles de una Normal(0,0037705,1,0206)
RE_Cantidad pagada
• Prueba de Hipótesis
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(Unilateral D)
RE_Cantidad pagada 50 3,8E-03 1,01 0,99 0,9794
24
Adecuación del modelo
• Se corre un nuevo modelo eliminando las variables cuyos
coeficientes no son significativamente distintos de cero y se
analizan nuevamente los supuestos.
Análisis de regresión lineal
Variable N R² R² Aj ECMP AIC BIC
Cantidad pagada 50 0,89 0,88 123591,24 725,29 734,85
Coeficientes de regresión y estadísticos asociados
Coef Est. E.E. LI(95%) LS(95%) T p-valor CpMallows
const 1645,87 173,63 1296,37 1995,36 9,48 <0,0001
Ingreso 17,24 4,49 8,20 26,28 3,84 0,0004 17,45
Tamaño 363,94 26,93 309,74 418,14 13,52 <0,0001 181,80
Zona 647,75 127,84 390,43 905,08 5,07 <0,0001 28,15
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 37918818,74 3 12639606,25 121,63 <0,0001
Ingreso 1532241,16 1 1532241,16 14,74 0,0004
Tamaño 18982604,76 1 18982604,76 182,67 <0,0001
Zona 2668063,07 1 2668063,07 25,67 <0,0001
Error 4780330,08 46 103920,22
Total 42699148,82 49
25
Control supuestos Nuevo
Modelo
• Residuos vs Predicho permite analizar los
supuestos de: E()=0, Var( )=y normalidad
Residuos Estudentizados vs Predichos
2,96 3
Res. estudentizados_Cantidad pagada
1,32
-0,33
-1,98
5
-3,63
2309,61 3221,00 4132,39 5043,77 5955,16
Predichos
• Prueba Formal de Normalidad
Shapiro-Wilks (modificado)
Variable n Media D.E. W* p(Unilateral D)
RE_Cantidad pagada 50 2,8E-03 1,01 0,99 0,9786
26
Diagnóstico y control de supuestos
¿Existen valores atípicos?
¿Son todas las observaciones influyentes en la
determinación de los coeficientes de regresión?
Valores Atípicos Valores Influeyentes
Datos con un valor atípico Datos con una observación influyente
78 132
62 123
45 114
Y
29 105
12 96
1 2 4 5 6 7 24 40 57 73
X X 27
Diagnóstico y control de supuestos
¿Se verifica el cumplimiento de los supuestos?
Errores aleatorios y residuos
Y E (Y X )
e Y Yˆ
- Modelo RLS - Modelo RLM
Y 0 1 X Y 0 1 X 1 ... k X k
e Y ˆ0 ˆ1 X
e Y ˆ0 ˆ1 X 1 ... ˆk X k
Los residuos son utilizados como herramienta de
diagnóstico
28
Residuos estudentizados
Yi Yˆi
Para estandarizar los
residuos basta dividirlos ei
por su desviación RE
estándar, ya que su SY Yˆ S 1 hii
media es cero.
•En Regresión Lineal Simple los hii
El leverage, hii, permite
observar y cuantificar cuan 1
hii
x
i x 2
2
lejos una observación se n xi x
encuentra de las n-1
observaciones restantes. • En Regresión Lineal Múltiple los hii
son los elementos diagonales de la
matriz H, donde H=X(X'X)-1X’, con X
matriz de regresoras.
29
Valores atípicos e influyentes
•Cualquier observación con un residual estandarizado menor
que -2 o mayor que +2 se considera un valor atípico.
•Cuando los errores tienen distribución normal, los residuales
estandarizados deben estar fuera de estos límites
aproximadamente el 5% de los casos.
30
Distancia de Cook
Esta medida combina los valores atípicos con los
valores influyentes.
2
e
Cooki i
S 2
1 h
hii
1
ii
1 h k 1
ii
31
Distancia de Cook
32
Valores Atípicos e Influyentes
Los valores 3 y 5 son valores atípicos porque están a más de 2
desviaciones de la media.
Caso CantPag RDUO RE REE PRED LEVE COOK
1 4016 -300,46 -0,95 -0,95 4316,46 0,04 0,01
2 3159 268,02 0,85 0,85 2890,98 0,05 0,01
3 5100 798,91 2,66 2,87 4301,09 0,14 0,28
4 4742 -233,37 -0,75 -0,74 4975,37 0,06 0,01 El valor 11 es un valor
5 1864 -1044,22 -3,33 -3,77 2908,22 0,05 0,15 influyente porque posee un
6 4070 100,24 0,32 0,32 3969,76 0,06 0 leverage alto
7
8
2731 83,27
3348 -363,15
0,27
-1,18
0,27
-1,18
2647,73 0,08 0
3711,15 0,08 0,03 hii 2
k 1 0,16
9 4764 -123,29 -0,4 -0,39 4887,29 0,07 0 n
10 4110 -154,74 -0,49 -0,49 4264,74 0,04 0
11 4208 391,54 1,35 1,37 3816,46 0,19 0,11
12 4219 289,8 0,94 0,94 3929,2 0,08 0,02
13 2477 1,68 0,01 0,01 2475,32 0,08 0
Sin embargo ninguno de ellos son valores influyentes para la
ecuación hallada. Distancia de Cook menor a 1.
Análisis gráfico de valores
atípicos e influyentes
• Leverage • Distancia de Cook: identifica las
es alto si hii 2
k 1 0,16 observaciones influyentes para el modelo
n obtenido.
es alto si D>1
Leverage vs Casos Distancias de Cook vs Casos
0,20 11 0,29 3
DCook=0,28
hii=0,19
Leverage_Cantidad pagada
DCook_Cantidad pagada
0,16 0,21
0,08 0,06
0,04 -0,01
-1,45 12,03 25,50 38,98 52,45
-1,45 12,03 25,50 38,98 52,45
Caso
Caso
34
Ecuación Estimada de Regresión
Yˆ 1645,87 17,24 Ingreso 363,94 Tamaño 647,75 Zona
Donde: Yˆ representa la estimación de la cantidad promedio gastada en
tarjeta de crédito
0 si la familia reside en el sur de la ciudad
Zona
1 si la familia reside en el norte de la ciudad
2 SC Re g
R 0,89
SCTotal
36
Intervalos de confianza
y de predicción
Para estimar E(Y|X=x0) Para predecir Y en X=x0
`'
' 1 `' ' 1
C yˆ t s x 0 X X x 0 E (Y \ x 0 ) yˆ t s x 0 X X x 0 1
C yˆ 0 t s 1 x`'0 X' X
1
x 0 Y0 yˆ 0 t s 1 x`'0 X' X
1
x0 1
Ingreso Tamaño Zona CantPag PRED ICON(LI) ICON(LS) IPRE (LI) IPRE (LS)
54 3 n 4016 4316,46 4182,97 4449,95 3653,98 4978,94
30 2 s 3159 2890,98 2742,97 3038,99 2225,42 3556,54
32 4 n 5100 4301,09 4062,57 4539,61 3609,75 4992,43
50 5 n 4742 4975,37 4817,94 5132,81 4307,66 5643,09
35 2 s
31 2 s 1864 2908,22 2761,12 3055,32 2242,87 3573,57
55 2 n 4070 3969,76 3813,18 4126,35 3302,25 4637,28
37 1 s 2731 2647,73 2462,04 2833,42 1972,79 3322,67
37