Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Múltiple
Bibliografía:
• Montgomery, Peck y Vining. “Introducción al Análisis de Regresión
Lineal”. (Cap. 2)
Ejemplo: edad y presión arterial
200
180
160
140
120
100
80
60
40
20
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75
Silvia N. Pérez 2
Para qué sirve el análisis de regresión?
a) Describir la relación entre X e Y
Silvia N. Pérez 3
El modelo de Regresión Lineal Simple
Y 0 1 X
Considerando observaciones (xi,yi) para i=1,…n
yi 0 1 xi i
Silvia N. Pérez 4
Interpretación de los coeficientes de regresión
estimados
Silvia N. Pérez 5
Estimación de la línea de regresión usando Mínimos
Cuadrados
n n
Se debe minimizar e
i 1
2
i = i 0 1i
( y x ) 2
i 1
n
1
S x2 S xx ( xi x) 2
n i 1
ei yi yi i - ésimo residual
Silvia N. Pérez 7
Propiedades de los residuales
b) . e x
i 1
i i 0
c) . e y
i 1
i i 0
Silvia N. Pérez 8
Estimación de la varianza del error
n n
2
( yi yi ) 2
i
e 2
s MC s2 i 1
i 1
n2 n2
Silvia N. Pérez 9
Suposiciones del modelo
1. linealidad
2. regresores no estocásticos
3. E(i)=0 y Var(i)=s2
4. i no correlacionados
5. i Normales
Silvia N. Pérez 10
Ejemplo 1:
Una empresa está interesada en estudiar la relación que existe entre
las ventas y los gastos incurridos en publicidad, ambos en millones de
euros. Para ello, se tomaron datos de ambas variables en base a los
cuales se ajustó un modelo de regresión simple.
Los resultados dados por Infostat se muestran a continuación:
Silvia N. Pérez 11
Escribir un modelo de regresión lineal que
sirva para explicar las ventas obtenidas por
esta empresa en función del gasto en
publicidad.
Interprete el significado del coeficiente de la
variable dependiente.
Silvia N. Pérez 12
Distribución de los estimadores Mínimos Cuadrados
de la regresión
a) Los estimadores de los coeficientes son insesgados.
Es decir,
E (0 ) 0 y E (1 ) 1
b) La varianza de 1 es s2
Sxx
y la varianza de es 1 x2
0
s (
2
)
n n.Sxx
Silvia N. Pérez 13
Inferencia en Regresion Lineal Simple
Para hacer inferencia acerca de los parámetros usamos que, bajo los
supuestos del modelo,
1 0
~ t( n 2) y ~ t( n 2)
s 1 x 2
s
nSxx n n.Sxx
Silvia N. Pérez 14
Inferencia acerca de la pendiente y el intercepto
usando la prueba t.
s s
( 1 t( n2, /2) , 1 t( n2, /2) )
nSxx nSxx
Silvia N. Pérez 15
Intervalo de confianza para el intercepto 0
1 x2 1 x2
( 0 t( n2, /2) s , 0 t( n2, /2) s )
n nSxx n nSxx
Silvia N. Pérez 16
Pruebas de hipótesis para la pendiente 1
Ha: 0 1
Silvia N. Pérez 17
Intervalos de Confianza para el valor medio de Y e
Intervalo de Predicción
1 ( x x ) 2
Un intervalo de confianza para el Yˆ0 t(1 /2,n 2) s 0
valor medio de Y dado que X = x0 n nS xx
esta dado por:
1 ( x x ) 2
n nS xx
para el valor predicho de Y dado que
X = x0 es de la forma:
Silvia N. Pérez 18
Gráfica de la Línea de Ajuste
Recta de regresión
Y=-.600.858+5738.89X
R2 = .895
600
500 Regresión
Y
95% Intervalo
de confianza
95% Intervalo
400 de predicción
Silvia N. Pérez 19
Descomposición de la suma de cuadrados total
i
( y
i 1
y ) 2
i i i
( y y
i 1
) 2
( y y
i 1
) 2
Silvia N. Pérez 20
El Coeficiente de Determinación 2
R
Silvia N. Pérez 21
Conjuntos de datos X-Y de Anscombe
Silvia N. Pérez 22
Valores calculados sobre cada conjunto de datos
Como R^2= 0,67 en todos los casos (=r^2 de Pearson por ser RLS),
¿podría pensarse que el modelo RLS es adecuado?
VER LOS GRÁFICOS!!!
Estos datos los plantea Anscombe para mostrar la importancia de
“mirar” los datos. (Ver cita bibliog de Anscombe)
Silvia N. Pérez 23
Conjuntos de datos X-Y de Anscombe
Diag rama d e Dis p ers ió n - Gru p o 1 Di agrama de Di pers i ón - Grupo 2
1200 12
10
1000
8
Y
800
Y
6
600
4
400 2
2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16
X X
12 12
10 10
Y
Y
8 8
6 6
4 4
2 4 6 8 10 12 14 16 5 10 15 20
X X
Silvia N. Pérez 24
Ejemplo 1 (cont):
Silvia N. Pérez 25
Coeficientes de regresión y estadísticos asociados
Coef Est. E.E. LI(95%) LS(95%) T p-valor
const 28,11 27,19 -29,84 86,07 1,03 0,3175
Gasto 0,52 0,08 0,35 0,68 6,80 <0,0001
-------------------------------------------------------------------------------------------------------
------------
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 13766,71 1 13766,71 46,23 <0,0001
Gasto 13766,71 1 13766,71 46,23 <0,0001
Error 4467,29 15 297,82
Total 18234,00 16
Silvia N. Pérez 26
El modelo de regresión lineal múltiple
El modelo de regresión lineal múltiple con p variables predictoras y
basado en n observaciones está dado por:
en forma matricial :
Y Xβ
donde
y1 1 x11 x12 . . x1 p 0 1
y 1 x x22 . . x2 p 1 2
2 21
. . . . . . . . .
. . . . . . . . .
yn 1 xn1 xn 2 . . xnp p n
Silvia N. Pérez 27
Observaciones:
Silvia N. Pérez 28
Suposiciones del modelo
1. Linealidad
2. E()= 0
3. Var()=s2In
4. Los errores no están correlacionados
5. El vector se distribuye Normal (0, s2In)
Donde:
es un vector columna aleatorio de dimensión n.
In es la matriz identidad de orden n.
Silvia N. Pérez 29
Estimación del vector de parámetros por
Cuadrados Mínimos (MCO)
Se tiene que minimizar la suma de cuadrados de los errores.
n
i 1
Haciendo operaciones con los vectores y matrices
βˆ (X' X) 1 X' Y
Silvia N. Pérez 30
Modelo ajustado
Y Xβˆ
e YY
Silvia N. Pérez 31
Estimación de la varianza del error
n
SSE ( yi y i ) 2 ei2 e ' e
i 1 i
Silvia N. Pérez 32
Propiedades de los estimadores MCO
β es insesgado, o sea E (β) β, esto
. es E ( )
j j
.Var (β) s 2
( X'X) 1
, en particular Var ( j ) s 2
C jj
Silvia N. Pérez 33
Coeficiente de determinación
El coeficiente de determinación se define:
n
SSR i
( ˆ
y y ) 2
SSE
R2 i 1
n
1
i
SST SST
( y y ) 2
i 1
Indica proporción de variabilidad explicada por el modelo
Problema: aumenta siempre que agregamos regresores.
2
SSE (n p 1) s n 1
Raj 2 1 1 1 (1 R 2 )
SST (n 1) SST (n 1) n p 1
Silvia N. Pérez 34
Inferencia sobre los parámetros
Podemos hacer diferentes pruebas de hipótesis:
Silvia N. Pérez 35
Prueba de hipótesis acerca de un coeficiente
de regresión individual
Ho: i = 0
Ha: i 0
Silvia N. Pérez 36
Prueba de significancia de la regresión.
Ho: 1=2=…=p=0
Ha: al menos uno de los coeficientes
es distinto de cero.
MSR SSreg / p
F
MSE SSres / (n p 1)
Un valor grande de F indica rechazar H0 ( la regresión es
significativa).
Silvia N. Pérez 37
Tabla de Análisis de Varianza
____________________________________________________
Fuente de Suma de Grados de Cuadrados F
Variación Cuadrados libertad Medios
____________________________________________________
Regresión SSR p MSR=SSR/p MSR/MSE
Error SSE n-p-1 MSE=SSE/n-p-1
Total SST n-1
____________________________________________________
Silvia N. Pérez 38
Verificando los supuestos
Recordemos que el modelo RLM supone:
1. La relación v.respuesta versus regresoras es
(aprox) lineal
2. La media de los errores es 0
Silvia N. Pérez 39
Verificando los supuestos (cont)
Queremos detectar violaciones de estos supuestos graficando
los residuales del modelo versus los predichos.
Para que sean visibles más claramente, se acostumbra ver los
residuales ‘escalados’ o estandarizados.
Silvia N. Pérez 40
Plot de residuales para chequear linealidad y atípicos
Silvia N. Pérez 41
Análisis de Residuales
Silvia N. Pérez 42
Análisis de Residuales
Histograma de Residuales: También permite cotejar normalidad.
Box-plots de residuales
Plot de Residuales versus los valores predichos : Se usa para detectar
si hay datos anormales, cuando hay datos que caen bastantes
alejados, tanto en el sentido vertical como horizontal.
También sirve para ver si la varianza es constante.
Plot de Residuales versus el índice de la observación: Es más
específico para detectar cuál observación es un dato anormal. Si
se usan residuales estandarizados, entonces un dato con residual
más allá de 2 ó -2 es considerado un "outlier" en el sentido
vertical.
Silvia N. Pérez 43
Gráficos de residuales vs predichos
Gráfico de dispersión
4
Regresión Residuo tipificado
-1
-2
-3
-3 -2 -1 0 1 2 3 4
Silvia N. Pérez 44
Ejemplo:
El precio de venta una propiedad esta determinado por si reune las
caracteristicas buscadas por potenciales compradores. Es por
esto que se busca ajustar un modelo de regresion lineal que
relacione el precio de venta con las siguientes variables
Y: Precio de la casa en cientos de dólares.
X1: Impuestos en cientos de dólares
X2: Numero de baños
X3: Tamaño del Lote
X4: Cantidad de metros cuadrados
X5: Numero de garages
X6: Cantidad de años que tiene la propiedad
X7: Numero de hogares a leña
Silvia N. Pérez 45
Regresión de Y sobre las X`s
Análisis de regresión lineal
Variable N R² R² Aj
Y 24 0,84 0,77
Coeficientes de regresión y estadísticos asociados
Coef Est. E.E. LI(95%) LS(95%) T p-valor
const 13,41 4,28 4,34 22,47 3,13 0,0064
X1 1,75 0,83 6,2E-04 3,50 2,12 0,0499
X2 6,80 4,02 -1,72 15,31 1,69 0,1102
X3 0,17 0,48 -0,85 1,18 0,35 0,7300
X4 1,07 3,97 -7,34 9,49 0,27 0,7902
X5 1,41 1,20 -1,12 3,95 1,18 0,2548
X6 -0,07 0,06 -0,19 0,05 -1,32 0,2065
X7 1,99 1,60 -1,40 5,38 1,24 0,2315
Silvia N. Pérez 46
Título
2,34
Res. estudentizados_Y
1,29
0,23
-0,82
-1,87
25,22 30,06 34,91 39,76 44,61
Predichos
Silvia N. Pérez 47
Multicolinealidad
c X
j
j j co
Silvia N. Pérez 48
Fuentes de multicolinealidad
Silvia N. Pérez 49
Detectando multicolinealidad
Consideremos el modelo escalado y centrado
Y * *1 X *1 *2 X *2 .... * p X * p
xij x j yi y
xij * ; yi *
s jj s yy
Silvia N. Pérez 50
Ecuaciones normales
Quedan
( X `* X *)β* X `*Y *
donde
1 r12 . . r1 p
r 1
. . r2 p
21
X `* X * . . . . .
. . . . .
rp1 rp 2 . . 1
rij representa la correlación entre Xi y Xj
Silvia N. Pérez 51
Efectos de multicolinealidad
Los estimadores de los coeficientes tienen grandes desvíos,
lo cual afecta inferencia y predicción.
Es poco acertado dar la interpretación usual a los coeficientes
de la regresión ajustada (por ejemplo dan con signo contrario
al esperado).
Los valores estimados para los coeficientes son sensibles a
pequeños cambios en los datos o a quitar/agregar alguna
variable.
Los coeficientes estimados pueden dar muy grandes en valor
absoluto.
Silvia N. Pérez 52
Factor de inflación de la varianza
1
VIFj C *
jj 2
1-R j
Los VIF son los elementos que están en la diagonal de la matriz C.
R 2j es el coef de determinación en la regresión de Xj versus las
restantes regresoras. Si es cercano a 1 entonces el VIF (o FIV) de
ese coeficiente es grande y consecuentemente es grande la
varianza.
El VIF representa el incremento en la varianza debido a la presencia
de multicolinealidad.
Equivalentemente, se puede mirar el índice de tolerancia = 1/VIFi
Silvia N. Pérez 53