Está en la página 1de 21

12.

Regresion lineal
Estadstica
Ingeniera Inform
atica

Curso 2009-2010

Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

1 / 21

Contenidos

Introduccion

Modelo de Regresion Lineal Simple


Estimacion de los parametros del modelo
Propiedades de los estimadores
Intervalos de confianza
Contrastes de hipotesis

Analisis de la varianza

Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

2 / 21

Introducci
on

Modelos de Regresion:
Estudian la relacion estocastica (cuantitativa) entre
una variable de interes Y (respuesta o dependiente), y
un conjunto de variables explicativas (X1 , ..., Xn ) (regresoras o
independientes)
Posibles situaciones:
Existe una relacion funcional entre ellas: el conocimiento de las
variables regresoras determina completamente el valor que toma la
variable respuesta.
No existe ninguna relaci
on entre la variable respuesta y las variables
regresoras: el conocimiento de estas no proporciona ninguna
informacion sobre el compartamiento de la otra, son independientes.
Caso intermedio: existe una relaci
on estadstica entre la variable
respuesta y las variables regresoras: el conocimiento de estas permiten
predecir con mayor o menor exactitud el valor de la variable respuesta.
Es el caso mas habitual. Su estudio corresponde a los Modelos de
Regresion.
Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

3 / 21

Introducci
on

Modelo:
Y = g (X1 , ..., Xn ) + 
donde la funcion g es desconocida, y  es el error de observacion, una
variable aleatoria de media cero.
Objetivo b
asico: estimar la funci
on de regresi
on, g , y el modelo
probabilstico que sigue el error aleatorio (f , F , P...) a partir del
conocimiento de una muestra aleatoria de las variables en estudio.
Una vez estimadas se puede:
tener una idea general del comportamiento de la variable respuesta en
funcion de las regresoras,
estimar y predecir el valor de la variable respuesta de un individuo del
que se conocen los valores de las variables regresoras,
calcular un intervalo de predicci
on del mismo...
Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

4 / 21

Modelo de Regresi
on Lineal Simple

Modelo de Regresion Lineal Simple


Modelo mas sencillo: estudia la relaci
on lineal entre la variable respuesta Y
y una variable regresora X , a partir de una muestra (X1 , Y1 , ..., Xn , Yn )
que sigue el siguiente modelo lineal:
Yi = Xi + + i

i = 1, ..., n

donde se supone que se verifican las hip


otesis del modelo:
los errores tienen media cero: E [i ] = 0 i = 1, ..., n.
Consecuentemente, E [Yi ] = Xi + i = 1, ..., n
la varianza del error es constante: V (i ) = 2 , i = 1, ..., n
(homocedasticidad). Consecuentemente, V (Yi ) = 2 , i = 1, ..., n
la distribucion del error es normal, N(0, ). Consecuentemente,
Yi N(Xi + , )
los errores son independientes: cov (i , j ) = 0. Consecuentemente, las
observaciones Yi tambien lo son.
Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

5 / 21

Modelo de Regresi
on Lineal Simple

Ejemplo

3
2
Y
1
0

X : dosis de un analgesico (en mg); Y : n


umero de horas de alivio del dolor.
Se estudia la posible relaci
on lineal entre X e Y en 50 pacientes:

0.0

0.2

0.4

0.6

0.8

1.0

1.2

0.0

0.2

0.4

0.6

0.8

1.0

1.2

0
2

0.0

0.1

0.2

Residuos

0.3

1.1

Residuos

Estadstica (Aurora Torrente)

1.2

1.3

1.4

1.5

1.6

1.7

Valores predichos

12. Regresi
on lineal

Curso 2009-2010

6 / 21

Modelo de Regresi
on Lineal Simple

Estimaci
on de los par
ametros del modelo

Estimacion de los parametros del modelo

En el modelo de regresion lineal simple hay tres parametros que se deben


estimar: los coeficientes de la recta de regresi
on, y , y la varianza de la
distribucion normal 2 .

Metodos:
metodo de maxima verosimilitud
metodo de mnimos cuadrados

Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

7 / 21

Modelo de Regresi
on Lineal Simple

Estimaci
on de los par
ametros del modelo

M
etodo de m
axima verosimilitud
Funcion de densidad:


1
(Yi Xi )2
f (Yi ) = exp
2 2
2
Funcion de verosimilitud:
"
#

n
n
X
1
1

exp 2
l(, , 2 ) =
(Yi Xi )2
2
2
i=1
Para maximizar esta funci
on en funci
on de , y 2 , tomamos logaritmos,
lo cual lleva a:
n
n
1 X
L(, , 2 ) = log 2 log 2 2
(Yi Xi )2
2
2
2
i

derivamos respecto a los tres parametros e igualamos a cero.


Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

8 / 21

Modelo de Regresi
on Lineal Simple

Estimaci
on de los par
ametros del modelo

Obtenemos el sistema de ecuaciones siguiente:


L
1 X
(, , 2 ) = 2
2(Yi Xi ) = 0

2
i

1 X
L
(, , 2 ) = 2
2Xi (Yi Xi ) = 0

2
i

L
n 1
1 X
(Yi Xi )2 = 0
(, , 2 ) = 2 +
2

2
2( 2 )2
i

Al resolverlo obtenemos:

MV =
2

MV

Estadstica (Aurora Torrente)

cov (X , Y )
,
var (X )
Pn

i=1 (Yi

,
MV = Y
X

Pn
2

Xi )
e2
i
= i=1 i
n
n

12. Regresi
on lineal

Curso 2009-2010

9 / 21

Modelo de Regresi
on Lineal Simple

Estimaci
on de los par
ametros del modelo

M
etodo de mnimos cuadrados
Tecnica alternativa de estimaci
on de , y .
Minimizamos la suma de cuadrados
n
n
X
X
2

(Yi
Xi ) =
2i ,
i=1

i=1

que representan las distancias en vertical de


los datos a la recta de regresi
on (residuos).
Observando la funcion de verosimilitud:
"
#

n
n
X
1
1

l(, , 2 ) =
exp 2
(yi xi )2
2
2
i=1

los parametros y aparecen u


nicamente en el exponente (suma de
cuadrados de los residuos) en este caso (normalidad) los estimadores de
y son los mismos seg
un el MVM y el MMC
Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

10 / 21

Modelo de Regresi
on Lineal Simple

Estimaci
on de los par
ametros del modelo

Esta tecnica no proporciona una estimaci


on de 2 , pero se suele utilizar la
varianza residual:
n
X
ei2 

n
i=1
2
2

MC =
=

n2
n 2 MV
donde perdemos dos grados de libertad, porque reescribiendo
L
1 X
(, , 2 ) = 2
2(Yi Xi ) = 0

2
i
L
1 X
(, , 2 ) = 2
2Xi (Yi Xi ) = 0

2
i

en terminos de los residuos y eliminando las constantes, resulta:


X
X
ei = 0,
ei Xi = 0
i

es decir, existen dos ecuaciones de restricci


on entre los n residuos (n 2
valores independientes).
Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

11 / 21

Modelo de Regresi
on Lineal Simple

Propiedades de los estimadores

Propiedades de los estimadores:

Estimadores de 2
2
2
n
MV
(n 2)
MC
=
2n2
2
2
2
2 ]=

MV
no es insesgado para 2 : E [
MV
2
2 ]=

MC
es insesgado para 2 : E [
MC

2
n (n

n2 (n

2)

2) = 2

Nota: la varianza residual tambien se denota como sR2 .

Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

12 / 21

Modelo de Regresi
on Lineal Simple

Propiedades de los estimadores

Propiedades de los estimadores:


Estimador de

2
, 2
n sn;X

es centrado para
se suele denominar coeficiente de regresi
on e indica el
crecimiento (o decrecimiento) de la variable respuesta Y asociado a
un incremento unitario en la variable regresora X .
Como no es conocida:

q tn2

MC
sn;X
Estadstica (Aurora Torrente)

1
n

12. Regresi
on lineal

Curso 2009-2010

13 / 21

Modelo de Regresi
on Lineal Simple

Propiedades de los estimadores

Propiedades de los estimadores:


Estimador de
N

2
,
n

x2
1+ 2
sn;X

!!

es centrado para
indica el valor de la ordenada en la recta de regresion estimada para
X = 0 (no siempre tiene una interpretaci
on practica).
Como no es conocida:

MC
n

Estadstica (Aurora Torrente)


q
1+

tn2

2
sn;X

12. Regresi
on lineal

Curso 2009-2010

14 / 21

Modelo de Regresi
on Lineal Simple

Intervalos de confianza

Intervalos de confianza:
A partir de estos estadsticos se pueden obtener intervalos de confianza de
la varianza poblacional, , y de los coeficientes y :
IC95 % () =

MC

tn2:0,025
sn;X

MC
IC95 % () = tn2:0,025
n

IC95 % () =

Estadstica (Aurora Torrente)

MC
,
+ tn2:0,025
n
sn;X

MC
1 + 2 , + tn2:0,025
n
sn;X

2
2
(n 2)
MC
(n 2)
MC
,
2n2;0,025
2n2;0,975

12. Regresi
on lineal

r !
1
n

s
1+

2
sn;X

Curso 2009-2010

15 / 21

Modelo de Regresi
on Lineal Simple

Contrastes de hip
otesis

Contrastes de hipotesis:

Contraste de regresi
on: contrastar si el modelo es significativo o no, i.e.,
si existe una relacion lineal entre X e Y .

H0 : = 0
H1 : 6= 0
(
R=

Estadstica (Aurora Torrente)

MC
|
| tn2;0,025
sn;X

12. Regresi
on lineal

r )
1
n

Curso 2009-2010

16 / 21

Modelo de Regresi
on Lineal Simple

Contrastes de hip
otesis

Ejemplo:
X : dosis de un analgesico (en mg); Y : n
umero de horas de alivio del dolor.
Se estudia la posible relaci
on lineal entre X e Y en 50 pacientes:

Se estiman los parametros del


modelo

Se deben comprobar las


hip
otesis del modelo (media
cero, normalidad,
homocedasticidad,
independencia)
0.0

0.2

0.4

0.6

0.8

1.0

1.2

Se contrasta el coeficiente de
regresi
on

Datos
Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

17 / 21

Modelo de Regresi
on Lineal Simple

Contrastes de hip
otesis

Estimaciones:
2
x = 2,572, y = 3,410, sn;X
= 0,107, cov (X , Y ) = 0,050

= 0,467; = 2,21, sR2 = 1,168


Modelo:
Y = 0,467X + 2,21
Estadstico del contraste:
t=

n sn;X
= 0,999
sR

Como tn2;0,025 = t48;0,025 = 2,01, no podemos rechazar que no exista una


relacion lineal entre las variables.
El p-valor sera
P(|t48 | > 0,999) = 0,3228
Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

18 / 21

An
alisis de la varianza

Analisis de la varianza (ANOVA)


Estudio de modelos mas generales, del que el modelo de regresion
lineal simple se puede considerar un caso particular.
Consiste en dividir la variabilidad de la respuesta Y en la variabilidad
explicada por el modelo mas la variabilidad no explicada o residual.

SCT =

variabilidad de Y
n
X
(Yi y )2
i=1

variabilidad del modelo

n
X

(Xi + y )2 +

i=1

variabilidad residuos
n
X
ei2
i=1

= SCX + SCR
Contraste:
H0 :
H1 :

E [Y |X = x] =
E [Y |X = x] = X +

Estadstica (Aurora Torrente)

( = 0)
( 6= 0)

12. Regresi
on lineal

Curso 2009-2010

19 / 21

An
alisis de la varianza

Tabla ANOVA
Fuente de
variacion

Suma de
Cuadrados

Grados de
libertad

Cuadrados
medios
(Varianzas)

Modelo

SCX

CMX = SCX /1

Residuos
Total

SCR
SCT

n2
n1

SCR
CMR = n2
= sR2
SCT
CMT = n1 = sn;Y

CMX
sR2

CMX
sigue, bajo H0 una distribuci
on F1;n2 .
sR2
El contraste de la F es un contraste unilateral (rechazamos si
F > F1;n2;0,05 ).
En este modelo proporciona exactamente el mismo resultado que se
obtiene por el contraste de la t relativo al coeficiente de regresion .
donde F =

Estadstica (Aurora Torrente)

12. Regresi
on lineal

Curso 2009-2010

20 / 21

An
alisis de la varianza

ANOVA:
Analysis of Variance Table
Response: Y
Df Sum Sq Mean Sq
X
1
1.147
1.1467
Residuals 48 56.083
1.1684

Estadstica (Aurora Torrente)

F value
0.9814

12. Regresi
on lineal

Pr(>F)
0.3268

Curso 2009-2010

21 / 21

También podría gustarte