Está en la página 1de 53

Regresión Lineal Simple y

Múltiple

Bibliografía:
• Montgomery, Peck y Vining. “Introducción al Análisis de Regresión
Lineal”. (Cap. 2)
Ejemplo: edad y presión arterial

tensión arterial vs edad

200
180
160
140
120
100
80
60
40
20
0
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75

Silvia N. Pérez 2
Para qué sirve el análisis de regresión?
a) Describir la relación entre X e Y

b) Predecir valores de Y a partir de X

c) Probar hipótesis acerca de los parámetros del


modelo (i.e.: cómo afecta un cambio en X a la Y)
d) Es la base de modelos más sofisticados
(regresión logística, regresión de suavizado, etc.)

Silvia N. Pérez 3
El modelo de Regresión Lineal Simple

Y  0  1 X  
Considerando observaciones (xi,yi) para i=1,…n

yi  0  1 xi   i

Donde i es un error aleatorio con media 0 y varianza s2

Silvia N. Pérez 4
Interpretación de los coeficientes de regresión
estimados

La pendiente indica el cambio promedio en la variable de


respuesta cuando la variable predictora aumenta en una unidad
adicional.

El intercepto indica el valor promedio de la variable de


respuesta cuando la variable predictora vale 0.

Silvia N. Pérez 5
Estimación de la línea de regresión usando Mínimos
Cuadrados

n n
Se debe minimizar e
i 1
2
i =  i 0 1i
( y     x ) 2

i 1

de donde sale que


n n n
n xi yi   xi  yi S xy
ˆ1  i 1 i 1 i 1 O equivalentemente ˆ
1 
n n
n xi2  ( xi )2
S xx
i 1 i 1

Se deduce también que


ˆ0  y  ˆ1 x
Silvia N. Pérez 6
donde
1 n
S xy  Cov.muestral   ( xi  x)( yi  y )
n i 1

n
1
S x2  S xx   ( xi  x) 2
n i 1

ei  yi  yi  i - ésimo residual

Silvia N. Pérez 7
Propiedades de los residuales

Los residuales son las desviaciones de los valores


observados de la variables de respuesta con respecto
a la línea de regresión.
n
a) . e
i 1
i 0
n

b) . e x
i 1
i i 0

c) . e y
i 1
i i 0

Silvia N. Pérez 8
Estimación de la varianza del error

Un estimador insesgado de s es:


2

n n

2
 ( yi  yi ) 2
i
e 2

s MC  s2  i 1
 i 1

n2 n2

s2 es también llamado el cuadrado medio del error


residual (MSE) y s el error típico de la estimación.

Silvia N. Pérez 9
Suposiciones del modelo

1. linealidad
2. regresores no estocásticos
3. E(i)=0 y Var(i)=s2
4. i no correlacionados
5. i Normales

Silvia N. Pérez 10
Ejemplo 1:
Una empresa está interesada en estudiar la relación que existe entre
las ventas y los gastos incurridos en publicidad, ambos en millones de
euros. Para ello, se tomaron datos de ambas variables en base a los
cuales se ajustó un modelo de regresión simple.
Los resultados dados por Infostat se muestran a continuación:

Coeficientes de regresión y estadísticos asociados


Coef Est. E.E. LI(95%) LS(95%) T p-valor
const 28,11 27,19 -29,84 86,07 1,03 0,3175
Gasto 0,52 0,08 0,35 0,68 6,80 <0,0001

Silvia N. Pérez 11
 Escribir un modelo de regresión lineal que
sirva para explicar las ventas obtenidas por
esta empresa en función del gasto en
publicidad.
 Interprete el significado del coeficiente de la
variable dependiente.

Silvia N. Pérez 12
Distribución de los estimadores Mínimos Cuadrados
de la regresión
a) Los estimadores de los coeficientes son insesgados.
Es decir,
E (0 )  0 y E (1 )  1

b) La varianza de 1 es s2
Sxx

y la varianza de  es 1 x2
0
s ( 
2
)
n n.Sxx

Silvia N. Pérez 13
Inferencia en Regresion Lineal Simple

 Pruebas de hipótesis e intervalos de confianza acerca de los


coeficientes de regresión del modelo de regresión poblacional.

 Intervalos de confianza para un valor predicho y para el valor


medio de la variable de respuesta

Para hacer inferencia acerca de los parámetros usamos que, bajo los
supuestos del modelo,

1 0
~ t( n 2) y ~ t( n 2)
s 1 x 2
s 
nSxx n n.Sxx

Silvia N. Pérez 14
Inferencia acerca de la pendiente y el intercepto
usando la prueba t.

Un intervalo de confianza para la pendiente


poblacional 1 es de la forma:

s s
( 1  t( n2, /2) , 1  t( n2, /2) )
nSxx nSxx

Donde  representa el nivel de significación.

Silvia N. Pérez 15
Intervalo de confianza para el intercepto  0

Un intervalo de confianza para el intercepto  de la linea de


0

regresión poblacional es de la forma:

1 x2 1 x2
( 0  t( n2, /2) s  , 0  t( n2, /2) s  )
n nSxx n nSxx

Silvia N. Pérez 16
Pruebas de hipótesis para la pendiente 1

Usamos el mismo estadístico de prueba t para ensayar


las hipótesis
Ho:  =0 1

Ha:  0 1

Un “p-value” cercano a cero sugiere rechazar la hipótesis nula.

Silvia N. Pérez 17
Intervalos de Confianza para el valor medio de Y e
Intervalo de Predicción

Se busca es establecer un intervalo de Yˆo  ˆ  ˆX o


confianza para la media asumiendo
que la relación entre X e Y es lineal.

1 ( x  x ) 2
Un intervalo de confianza para el Yˆ0  t(1 /2,n 2) s  0
valor medio de Y dado que X = x0 n nS xx
esta dado por:

1 ( x  x ) 2

Un intervalo de predicción Yˆ0  t(1 /2,n 2) s 1   0

n nS xx
para el valor predicho de Y dado que
X = x0 es de la forma:

Silvia N. Pérez 18
Gráfica de la Línea de Ajuste
Recta de regresión
Y=-.600.858+5738.89X
R2 = .895
600

500 Regresión
Y

95% Intervalo
de confianza
95% Intervalo
400 de predicción

0.18 0.19 0.20


X

Silvia N. Pérez 19
Descomposición de la suma de cuadrados total

La desviación de un valor observado con respecto a


la media se puede escribir como:
 
( yi  y )  ( yi  yi )  ( yi  y )
n n n

 i
( y
i 1
 y ) 2
  i i  i
( y  y
i 1
) 2
 ( y  y
i 1
) 2

SST = SSE + SSR

Silvia N. Pérez 20
El Coeficiente de Determinación 2
R

Mide la fuerza de la relación entre X e Y (la mejor recta


posible no tiene porqué ser buena)
SSR SSE
R 
2
 1
SST SST

Se puede interpretar como la porción de variación total que


está explicada por la regresión.
Además, si r es el coeficiente de correlación muestral,
Sxy
R r2 2
donde r
SxxSyy

Silvia N. Pérez 21
Conjuntos de datos X-Y de Anscombe

Grupo 1 Grupo 2 Grupo 3 Grupo 4


x y x y x y x y
10 8.04 10 9.14 10 7.46 8 6.58

8 6.95 8 8.14 8 6.77 8 5.76

13 7.58 13 8.74 13 12.7 8 7.71

9 8.81 9 8.77 9 47.1 8 8.84

11 8.33 11 9.26 11 17.8 8 8.47

14 9.96 14 8.10 14 18.8 8 7.04

6 7.24 6 6.13 6 46.0 8 5.25

4 4.26 4 3.10 4 85.3 19 12.5

12 10.84 12 9.13 12 98.1 8 5.5

7 4.82 7 7.26 7 56.4 8 67.9

5 5.68 5 4.74 5 25.73 8 16.89

Silvia N. Pérez 22
Valores calculados sobre cada conjunto de datos

Grupo 1 Grupo 2 Grupo 3 Grupo 4


9 9 9 9
X X X X
y 7.50 y 7.50 y 7.50 y 7.50

R2 0.67 R2 0.67 R2 0.67 R2 0.67

̂ 3.00 ̂ 3.00 ̂ 3.00 ̂ 3.00

ˆ 0.50 ˆ 0.50 ˆ 0.50 ˆ 0.50

Como R^2= 0,67 en todos los casos (=r^2 de Pearson por ser RLS),
¿podría pensarse que el modelo RLS es adecuado?
VER LOS GRÁFICOS!!!
Estos datos los plantea Anscombe para mostrar la importancia de
“mirar” los datos. (Ver cita bibliog de Anscombe)

Silvia N. Pérez 23
Conjuntos de datos X-Y de Anscombe
Diag rama d e Dis p ers ió n - Gru p o 1 Di agrama de Di pers i ón - Grupo 2
1200 12

10
1000

8
Y

800

Y
6

600
4

400 2
2 4 6 8 10 12 14 16 2 4 6 8 10 12 14 16

X X

Di agrama de Di s pers i ón - Grupo 3 Diag rama d e Dip sersió n - Gru p o 4


14 14

12 12

10 10

Y
Y

8 8

6 6

4 4
2 4 6 8 10 12 14 16 5 10 15 20

X X

Silvia N. Pérez 24
Ejemplo 1 (cont):

 ¿Considera que el modelo obtenido sirve para ajustar


los datos propuestos? Porqué?
 ¿Cuál es la proporción de variabilidad explicada por la
regresión?
 ¿Cuál es el volumen de ventas pronosticado para un
gasto en publicidad de 320 millones de euros?

Silvia N. Pérez 25
Coeficientes de regresión y estadísticos asociados
Coef Est. E.E. LI(95%) LS(95%) T p-valor
const 28,11 27,19 -29,84 86,07 1,03 0,3175
Gasto 0,52 0,08 0,35 0,68 6,80 <0,0001
-------------------------------------------------------------------------------------------------------
------------
Cuadro de Análisis de la Varianza (SC tipo III)
F.V. SC gl CM F p-valor
Modelo 13766,71 1 13766,71 46,23 <0,0001
Gasto 13766,71 1 13766,71 46,23 <0,0001
Error 4467,29 15 297,82
Total 18234,00 16

Silvia N. Pérez 26
El modelo de regresión lineal múltiple
El modelo de regresión lineal múltiple con p variables predictoras y
basado en n observaciones está dado por:

yi  o  1 xi1  2 xi 2  ...... p xip   i para i = 1,2,…,n

en forma matricial :
Y  Xβ  
donde
 y1  1 x11 x12 . . x1 p    0   1 
 y  1 x x22 . . x2 p   1   2 
 2  21
 
 .   . . . . . .  .  . 
      
 .  . . . . . .  .   . 
 yn  1 xn1 xn 2 . . xnp    p   n 

Silvia N. Pérez 27
Observaciones:

 El coeficiente de regresión poblacional j, con j=1,…p, se llama también


“parcial” dado que indica el cambio esperado en la variable de respuesta Y
cuando la variable predictora Xj cambia en una unidad adicional asumiendo
que las otras variables predictoras permanecen constantes.
 El modelo de regresión “lineal” requiere linealidad en los parámetros (’s)
no necesariamente en los regresores. Entonces un modelo polinomial es un
caso de modelo de regresión lineal, por ejemplo.

Silvia N. Pérez 28
Suposiciones del modelo
1. Linealidad
2. E()= 0
3. Var()=s2In
4. Los errores no están correlacionados
5. El vector  se distribuye Normal (0, s2In)

Donde:
  es un vector columna aleatorio de dimensión n.
 In es la matriz identidad de orden n.

Silvia N. Pérez 29
Estimación del vector de parámetros  por
Cuadrados Mínimos (MCO)
Se tiene que minimizar la suma de cuadrados de los errores.
n

 i   '  (Y  Xβ) '(Y  Xβ)


 2

i 1
Haciendo operaciones con los vectores y matrices

Y'Y  β'X'Y  Y'Xβ  β'X ' Xβ  Y'Y  2β'X'Y  β'X'Xβ


Derivando con respecto a  e igualando a cero se obtiene el sistema
de ecuaciones normales
X' Xβ  X' Y

Los estimadores de  son la solución de estas ecuaciones:

βˆ  (X' X) 1 X' Y

Silvia N. Pérez 30
Modelo ajustado

El modelo de regresión ajustado es

Y  Xβˆ

Y los residuales correspondientes pueden también


escribirse en un vector

e  YY

Silvia N. Pérez 31
Estimación de la varianza del error

Como en el modelo RLS, la suma de cuadrados de los


residuales nos permite estimar la varianza del error, esto es:

n
SSE   ( yi  y i ) 2   ei2  e ' e
i 1 i

y se tiene un estimador insesgado de la varianza de error:


SSE
s  2
 MSE (cuadrado medio residual)
n p
( hay p coeficientes)

Silvia N. Pérez 32
Propiedades de los estimadores MCO

 β es insesgado, o sea E (β)  β, esto
. es E ( )  
j j

.Var (β)  s 2
( X'X) 1
, en particular Var (  j )  s 2
C jj

Donde Cjj es el elemento correspondiente en la inversa


de (X`X)

Silvia N. Pérez 33
Coeficiente de determinación
 El coeficiente de determinación se define:
n

SSR  i
( ˆ
y  y ) 2
SSE
R2   i 1
n
 1
 i
SST SST
( y  y ) 2

i 1
Indica proporción de variabilidad explicada por el modelo
Problema: aumenta siempre que agregamos regresores.

 El coeficiente de determinación ajustado es más adecuado ya que sólo


aumenta si disminuye el cuadrado medio resid. respecto del total.

2
SSE (n  p  1) s n 1
Raj 2  1   1  1 (1  R 2 )
SST (n  1) SST (n  1) n  p 1

Silvia N. Pérez 34
Inferencia sobre los parámetros
Podemos hacer diferentes pruebas de hipótesis:

 Probar si un coeficiente particular del modelo es = 0.


 Probar si es significativa la regresión, esto es si hay relación
lineal entre la v. respuesta y las regresoras.
 etc

Silvia N. Pérez 35
Prueba de hipótesis acerca de un coeficiente
de regresión individual
 Ho: i = 0
 Ha: i  0

La prueba estadística es la prueba t:


i i
 tn  p 1
se( i ) 2
s Cii
Donde, Cii es el i-ésimo elemento de la diagonal de (X’X)-1.

Con IC: se rechaza H0 si el IC de este coeficiente no contiene a 0.

Silvia N. Pérez 36
Prueba de significancia de la regresión.

Ho: 1=2=…=p=0
Ha: al menos uno de los coeficientes
es distinto de cero.

Esto corresponde al test F de la tabla de ANOVA y corresponde a


ensayar la hipótesis “la regresión es significativa”.

MSR SSreg / p
F 
MSE SSres / (n  p  1)
Un valor grande de F indica rechazar H0 ( la regresión es
significativa).

Silvia N. Pérez 37
Tabla de Análisis de Varianza

____________________________________________________
Fuente de Suma de Grados de Cuadrados F
Variación Cuadrados libertad Medios
____________________________________________________
Regresión SSR p MSR=SSR/p MSR/MSE
Error SSE n-p-1 MSE=SSE/n-p-1
Total SST n-1
____________________________________________________

Silvia N. Pérez 38
Verificando los supuestos
Recordemos que el modelo RLM supone:
1. La relación v.respuesta versus regresoras es
(aprox) lineal
2. La media de los errores  es 0

3. La Var() es constante e igual a s^2

4.Los errores  se distribuyen de modo Normal

Queremos detectar violaciones de estos supuestos


a partir del análisis de los residuales del modelo.

Silvia N. Pérez 39
Verificando los supuestos (cont)
Queremos detectar violaciones de estos supuestos graficando
los residuales del modelo versus los predichos.
Para que sean visibles más claramente, se acostumbra ver los
residuales ‘escalados’ o estandarizados.

Silvia N. Pérez 40
Plot de residuales para chequear linealidad y atípicos

Graficamos resid estandarizados o estudentizados versus predichos para


chequear estos supuestos. En los siguientes gráficos se ven indicios de (1)
modelo no adecuado; (2) falta de linealidad; (3) no homogeneidad de
varianzas

Silvia N. Pérez 41
Análisis de Residuales

Los residuales pueden pensarse como los errores observados


suponiendo que el modelo es correcto. Permiten evaluar si las
suposiciones del modelo se cumplen y explorar el porqué de un
mal ajuste del modelo. Podemos ver:

Si la distribución de los errores es normal y sin “outliers”.


Si la varianza de los errores es constante y si se requieren
transformaciones de las variables.
Si la relación entre las variables es efectivamente lineal o
presenta algún otro patrón.
Si hay dependencia de los errores (errores correlacionados).

Silvia N. Pérez 42
Análisis de Residuales
Histograma de Residuales: También permite cotejar normalidad.
Box-plots de residuales
Plot de Residuales versus los valores predichos : Se usa para detectar
si hay datos anormales, cuando hay datos que caen bastantes
alejados, tanto en el sentido vertical como horizontal.
También sirve para ver si la varianza es constante.
Plot de Residuales versus el índice de la observación: Es más
específico para detectar cuál observación es un dato anormal. Si
se usan residuales estandarizados, entonces un dato con residual
más allá de 2 ó -2 es considerado un "outlier" en el sentido
vertical.

Silvia N. Pérez 43
Gráficos de residuales vs predichos
Gráfico de dispersión

Variable dependiente: estrés total

4
Regresión Residuo tipificado

-1

-2

-3

-3 -2 -1 0 1 2 3 4

Regresión Valor pronosticado tipificado

El primer gráfico muestra un comportamiento adecuado de los residuos. El


segundo muestra que no hay homogeneidad de varianzas.

Silvia N. Pérez 44
Ejemplo:
El precio de venta una propiedad esta determinado por si reune las
caracteristicas buscadas por potenciales compradores. Es por
esto que se busca ajustar un modelo de regresion lineal que
relacione el precio de venta con las siguientes variables
Y: Precio de la casa en cientos de dólares.
X1: Impuestos en cientos de dólares
X2: Numero de baños
X3: Tamaño del Lote
X4: Cantidad de metros cuadrados
X5: Numero de garages
X6: Cantidad de años que tiene la propiedad
X7: Numero de hogares a leña

Silvia N. Pérez 45
Regresión de Y sobre las X`s
Análisis de regresión lineal
Variable N R² R² Aj
Y 24 0,84 0,77
Coeficientes de regresión y estadísticos asociados
Coef Est. E.E. LI(95%) LS(95%) T p-valor
const 13,41 4,28 4,34 22,47 3,13 0,0064
X1 1,75 0,83 6,2E-04 3,50 2,12 0,0499
X2 6,80 4,02 -1,72 15,31 1,69 0,1102
X3 0,17 0,48 -0,85 1,18 0,35 0,7300
X4 1,07 3,97 -7,34 9,49 0,27 0,7902
X5 1,41 1,20 -1,12 3,95 1,18 0,2548
X6 -0,07 0,06 -0,19 0,05 -1,32 0,2065
X7 1,99 1,60 -1,40 5,38 1,24 0,2315
Silvia N. Pérez 46
Título

2,34
Res. estudentizados_Y

1,29

0,23

-0,82

-1,87
25,22 30,06 34,91 39,76 44,61
Predichos

Silvia N. Pérez 47
Multicolinealidad

Un conjunto de predictoras X1, X2,….Xp son colineales si existen


constantes co,c1,…..cp, tales que vale

c X
j
j j  co

Cuando se da esta relación exacta, diremos que el modelo está


mal especificado.
Cuando hay dependencias (casi) lineales entre los regresores se
dice que existe un problema de multicolinealidad.

Silvia N. Pérez 48
Fuentes de multicolinealidad

 El método de recolección de datos.


 Restricciones en el modelo o en la población.
 Sobredefinición del modelo

Silvia N. Pérez 49
Detectando multicolinealidad
Consideremos el modelo escalado y centrado

Y *   *1 X *1   *2 X *2 .... * p X * p 
xij  x j yi  y
xij *  ; yi * 
s jj s yy

Si X* tiene columnas dependientes, entonces X también


las tiene. La recíproca no vale.

Silvia N. Pérez 50
Ecuaciones normales
Quedan
( X `* X *)β*  X `*Y *
donde
1 r12 . . r1 p 
r 1 
. . r2 p 
 21
X `* X *   . . . . . 
 
 . . . . . 
 rp1 rp 2 . . 1 

rij representa la correlación entre Xi y Xj

Silvia N. Pérez 51
Efectos de multicolinealidad
 Los estimadores de los coeficientes tienen grandes desvíos,
lo cual afecta inferencia y predicción.
 Es poco acertado dar la interpretación usual a los coeficientes
de la regresión ajustada (por ejemplo dan con signo contrario
al esperado).
 Los valores estimados para los coeficientes son sensibles a
pequeños cambios en los datos o a quitar/agregar alguna
variable.
 Los coeficientes estimados pueden dar muy grandes en valor
absoluto.

Silvia N. Pérez 52
Factor de inflación de la varianza
1
VIFj  C *
jj  2
1-R j
Los VIF son los elementos que están en la diagonal de la matriz C.
R 2j es el coef de determinación en la regresión de Xj versus las
restantes regresoras. Si es cercano a 1 entonces el VIF (o FIV) de
ese coeficiente es grande y consecuentemente es grande la
varianza.
El VIF representa el incremento en la varianza debido a la presencia
de multicolinealidad.
Equivalentemente, se puede mirar el índice de tolerancia = 1/VIFi

Silvia N. Pérez 53

También podría gustarte