Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Modelo de Regresion Simple PDF
Modelo de Regresion Simple PDF
Modelo de regresi
on simple
Tema 3: Regresi
on simple
Introducci
on
Objetivo del modelo de regresi
on simple:
Explicar el comportamiento de una variable cuantitativa de interes
Y (consumo de gasolina de un coche hbrido, temperatura del
agua marina) como funci
on de otra variable cuantitativa X
observable (velocidad del vehculo en ciudad, profundidad a la que
se observa la temperatura del agua).
Y = variable respuesta, end
ogena o dependiente
X = regresor, predictor, variable explicativa, ex
ogena o
independiente
Estudiaremos principalmente el modelo de regresi
on lineal simple,
en el que se expresa Y como funci
on lineal de X .
Tema 3: Regresi
on simple
El modelo
Dise
no fijo y aleatorio
En el dise
no aleatorio tomamos una muestra (x1 , y1 ), . . . , (xn , yn )
de una poblacion (X , Y ) donde X es una variable aleatoria (los
valores observados de X no estan prefijados de antemano).
(X , Y ) =(Estatura en cm,Peso en kg) de un estudiante
universitario elegido al azar.
(X , Y ) =(Nivel de un cierto contaminante,Mortalidad) en una
ciudad elegida al azar.
En este caso el modelo de regresi
on establece una expresion para la
funcion de regresion E (Y |X = x).
Tema 3: Regresi
on simple
Y
3.1
3.6
4.3
4.7
5.5
5.7
5.2
X
1.9
1.9
1.9
2.0
2.0
2.0
2.1
Y
5.0
5.3
5.7
4.4
5.2
5.3
5.4
X
2.1
2.1
2.1
2.2
2.2
2.2
2.2
Y
5.6
5.7
5.8
5.2
5.3
5.6
5.8
X
2.3
2.3
2.3
2.3
2.4
2.4
2.7
Tema 3: Regresi
on simple
Y
5.8
6.2
6.3
6.4
6.4
6.3
6.3
En el dise
no fijo prefijamos unos valores x1 , . . . , xn de la variable
X . Para cada xi tomamos una o varias observaciones de Y .
(X , Y ) =(profundidad en m. del agua marina,temperatura en o C
del agua a esa profundidad)
xi
yi
100
22
200
20
500
12
1000
6
1500
5
2000
4
Tema 3: Regresi
on simple
El modelo de regresi
on lineal simple
Dise
no fijo:
Yi = 0 + 1 xi + Ui
Dise
no aleatorio:
(Y |X = xi ) = 0 + 1 xi + Ui
Tema 3: Regresi
on simple
Hip
otesis b
asicas del modelo:
a) E (Ui ) = 0, para cada i = 1, . . . , n.
b) Var(Ui ) = 2 , para cada i = 1, . . . , n.
c) E (Ui Uj ) = 0 , para todo i 6= j.
d) Ui Normal, para todo i.
Ademas en el dise
no aleatorio supondremos que X1 , . . . , Xn son
independientes.
Hip
otesis equivalentes para dise
no fijo:
Y1 , . . . , Yn son observaciones independientes, con
Yi N(0 + 1 xi , 2 ).
Hip
otesis equivalentes para dise
no aleatorio:
(X1 , Y1 ), . . . , (Xn , Yn ) son independientes, con
Y |X = xi N(0 + 1 xi , 2 ).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
Tema 3: Regresi
on simple
Longitud de la concha
6.5
6
5.5
5
4.5
4
3.5
3
0.5
1.5
2
2.5
Anchura de la concha
Tema 3: Regresi
on simple
Alcalinidad
1
0.8
0.6
0.4
0.2
0
0
20
40
60
80
100
Nivel de mercurio
120
Tema 3: Regresi
on simple
140
9
Alcalinidad
5.9
3.5
116.0
39.4
2.5
19.6
5.2
71.4
26.4
4.8
6.6
16.5
25.4
7.1
128.0
83.7
108.5
61.3
6.4
31.0
7.5
17.3
12.6
7.0
10.5
30.0
Mercurio
1.23
1.33
0.04
0.44
1.20
0.27
0.48
0.19
0.83
0.81
0.71
0.50
0.49
1.16
0.05
0.15
0.19
0.77
1.08
0.98
0.63
0.56
0.41
0.73
0.34
0.59
Lago
Lochloosa
Louisa
Miccasukee
Minneola
Monroe
Newmans
Ocean Pond
Ocheese Pond
Okeechobee
Orange
Panasoffkee
Parker
Placid
Puzzle
Rodman
Rousseau
Sampson
Shipp
Talquin
Tarpon
Tohopekaliga
Trafford
Trout
Tsala Apopka
Weir
Wildcat
Yale
Tema 3: Regresi
on simple
Alcalinidad
55.4
3.9
5.5
6.3
67.0
28.8
5.8
4.5
119.1
25.4
106.5
53.0
8.5
87.6
114.0
97.5
11.8
66.5
16.0
5.0
25.6
81.5
1.2
34.0
15.5
17.3
71.8
Mercurio
0.34
0.84
0.50
0.34
0.28
0.34
0.87
0.56
0.17
0.18
0.19
0.04
0.49
1.10
0.16
0.10
0.48
0.21
0.86
0.52
0.65
0.27
0.94
0.40
0.43
0.25
0.27
10
0.4
0.6
0.8
1
3.2
3.4
3.6
3.8
Tema 3: Regresi
on simple
11
Estimaci
on de los par
ametros del modelo
Sea (x1 , y1 ), . . . , (xn , yn ) la muestra observada de (X , Y ).
Estimamos los parametros 0 y 1 de la recta de regresion
mediante el metodo de mnimos cuadrados. El objetivoPes
minimizar la suma de los residuos al cuadrado VNE = ni=1 ei2 ,
donde ei = yi yi e yi = 0 + 1 xi . Cada residuo ei es la
distancia en vertical entre el (xi , yi ) observado y (xi , yi ).
5
4
3
ei
2
1
(xi,yi)
0
1
1.5
0.5
0.5
x
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
Tema 3: Regresi
on simple
12
i=1
i=1
X
X
X
VNE
= 2
(yi 0 1 xi ) = 0
yi = n0 + 1
xi
0
VNE
= 2
1
n
X
xi (yi 0 1 xi ) = 0
i=1
covxy
xi yi = 0
n
X
xi + 1
n
X
i=1
i=1
donde
i=1
i=1
1X
1X
=
(xi x)(yi y ) =
xi yi xy
n
n
i=1
i=1
1X
1X 2 2
x
vx =
(xi
x )2 =
xi
n
n
Ademas
i=1
i=1
covxy
1 =
vx
Entonces
n
X
y = 0 + 1 x
1X
x =
xi
n
i=1
1X
y =
yi
n
i=1
0 = y 1 x
Tema 3: Regresi
on simple
13
xi2
Longitud de la concha
6.5
6
5.5
5
4.5
4
3.5
3
0.5
1.5
2
2.5
Anchura de la concha
Tema 3: Regresi
on simple
14
Tema 3: Regresi
on simple
15
i=1
sR2
1 X 2
=
ei .
n2
i=1
siendo vy =
1
n
n
X
i=1
(yi y )2 =
1X 2
yi y 2 .
n
i=1
Tema 3: Regresi
on simple
16
Residuos
-0.1540 0.0467
0.1460 0.1467
0.5460 0.2467
-0.9537 -0.5529
-0.1537 -0.4529
-0.0537 -0.1529
-0.1533 0.0471
-0.1525
0.2475
0.3475
0.4475
0.2478
0.1478
-0.4510
sR2 =
vy =
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
sR2 =
Tema 3: Regresi
on simple
17
x2
vx
1
nvx
tn2
IC1 (0 ) =
s
!
2
1
x
0 tn2,/2 sR
1+
n
vx
(n 2)sR2
2n2 IC1 ( 2 ) =
2
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
(n 2)sR2 (n 2)sR2
,
2n2,/2 2n2,1/2
Tema 3: Regresi
on simple
18
Tema 3: Regresi
on simple
19
El contraste de la regresi
on
H0 : 1 = 0 (no hay relaci
on lineal entre X e Y )
H1 : 1 6= 0
A nivel de significacion la regi
on de rechazo de este contraste es
r
1
R = |1 | > tn2,/2 sR
= {0
/ IC1 (1 )}.
nvx
Tema 3: Regresi
on simple
20
n
X
(
yi y )2 = 12 nvx
i=1
n
X
ei2
i=1
Tema 3: Regresi
on simple
21
SC
gl
Varianzas
VE
VE
VNE
VT
n2
n1
sR2
F
F =
VE
sR2
VE
F1,n2
sR2
Tema 3: Regresi
on simple
22
Valores previstos
5.1540 5.5533 5.9525
5.1540 5.5533 5.9525
5.1540 5.5533 5.9525
5.3537 5.7529 5.9525
5.3537 5.7529 6.1522
5.3537 5.7529 6.1522
5.5533 5.7529 6.7510
Tema 3: Regresi
on simple
23
Observaci
on: Contrastar H0 : 1 = 0 frente a H1 : 1 6= 0
significa que, aceptando que existe una relaci
on lineal entre X e Y ,
analizamos si una recta horizontal (1 = 0) representa mejor los
datos que otra de pendiente no nula (1 6= 0). Pero aceptar H0 no
significa que no exista ning
un tipo de relaci
on funcional entre X e
Y , ni que estas sean independientes.
Ejemplo 3.4:
Y = X2 + U,
IC0.90(1)=(0.10,0.29)
0.5
0.5
1
0.5
0
x
0.5
Tema 3: Regresi
on simple
24
n
2
VT
(y
)
v
v
v
y
x y
i=1 i
siendo
covxy
.
rxy =
vx vy
el coeficiente de correlaci
on lineal de Pearson entre x e y .
Si la relacion entre x e y es marcadamente lineal, entonces R 2 y
|rxy | seran muy proximos a 1. Si no existe relaci
on lineal entre las
variables entonces R 2 y rxy seran pr
oximos a cero.
Tema 3: Regresi
on simple
25
Coeficiente de determinaci
determinacin R2
Tema 3: Regresi
on simple
26
47
(n 2)sR2
VNE
=1
.
VT
nvy
Tema 3: Regresi
on simple
27
Estimaci
on y predicci
on
Un modelo de regresion sirve para estimar E (Y |X = x0 ) y para
predecir futuros valores de Y para un valor x0 de X .
Los problemas de estimaci
on y predicci
on son distintos, aunque las
expresiones matematicas que aparecen en su resolucion son casi
iguales. En el primero intentamos obtener un estimador de
E (Y |X = x0 ) = 0 + 1 x0 , que es un n
umero fijo aunque
desconocido.
En el problema de predicci
on de Y0 = Y |X = x0 estamos
interesados en conocer, para un valor x0 fijo de X , el valor
correspondiente de Y . Y |X = x0 es una variable aleatoria.
Al final estimaremos E (Y |X = x0 ) y predeciremos
Y0 = Y |X = x0 mediante el mismo valor, y = 0 + 1 x0 , pero el
error de estimacion y el de predicci
on son distintos.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
Tema 3: Regresi
on simple
28
Estimaci
on de la media condicionada
Queremos estimar E (Y0 ) = E (Y |X = x0 ) = 0 + 1 x0 , el valor
promedio de la respuesta cuando X = x0 .
Un estimador razonable es
y0 = 0 + 1 x0 = y + 1 (x0 x).
Se trata de un estimador centrado: E (
y0 ) = E (Y |X = x0 ).
Ademas
x)2
1 (x0
+
n
n vx
Tema 3: Regresi
on simple
29
Tema 3: Regresi
on simple
30
Longitud de la concha
7
6
5
4
3
Interpolacin
2
0.5 min xi 1
1.5
2
2.5 max x 3
i
Anchura de la concha
Tema 3: Regresi
on simple
31
Predicci
on de la respuesta
En el problema de predicci
on deseamos prever Y0 = (Y |X = x0 ),
la respuesta cuando la variable independiente es igual a x0 .
Si conocieramos E (Y |X = x0 ) podramos utilizar esta esperanza
como prediccion de Y0 = (Y |X = x0 ). Entonces ya tenemos una
primera fuente de error debido a la propia variabilidad de
Y |X = x0 en torno a su media.
Ademas, como E (Y |X = x0 ) es desconocida, la estimamos
mediante y0 = 0 + 1 x0 : segunda fuente de error en la prediccion.
Por tanto, finalmente predecimos Y |X = x0 mediante y0 .
Un intervalo de confianza para la predicci
on de Y |X = x0 es
s
2
1 (x0 x)
IC1 (Y0 ) = y0 tn2,/2 sR 1 + +
.
n
n vx
Tema 3: Regresi
on simple
32
Tema 3: Regresi
on simple
33
Longitud de la concha
7
6
5
4
3
2
0.5
1.5
2
Anchura de la concha
2.5
Tema 3: Regresi
on simple
34
y
8.04
6.95
7.58
8.81
8.33
9.96
7.24
4.26
10.84
4.82
5.68
2
x
10
8
13
9
11
14
6
4
12
7
5
y
9.14
8.14
8.74
8.77
9.26
8.10
6.13
3.10
9.13
7.26
4.74
3
x
10
8
13
9
11
14
6
4
12
7
5
y
7.46
6.77
12.74
7.11
7.81
8.84
6.08
5.39
8.15
6.42
5.73
Tema 3: Regresi
on simple
4
x
8
8
8
8
8
8
8
19
8
8
8
y
6.58
5.76
7.71
8.84
8.47
7.04
5.25
12.50
5.56
7.91
6.89
35
2.0
0.0
Residuo
Residuo
-2
4
10
-2.0
11
CONJUNTO 1 DE DATOS
-4
4
Prediccion
Prediccion
Residuo
Residuo
Prediccion
10
11
CONJUNTO 3 DE DATOS
10
11
12
13
CONJUNTO 2 DE DATOS
-2
6
Prediccion
10
11
CONJUNTO 4 DE DATOS
Tema 3: Regresi
on simple
36
Hip
otesis de linealidad: E (Yi ) = 0 + 1 xi
Establece que, en el rango de valores observados, el valor esperado
de la respuesta Y es una funci
on lineal de la variable independiente
X . Solo tiene sentido contrastar la hip
otesis en dicho rango.
Comprobaremos la linealidad mediante el grafico de dispersion de
Y frente a X y mediante el grafico de los residuos ei frente a los
valores previstos yi .
Ejemplo 3.6:
3.0
.3
.2
2.5
.1
.0
2.0
-.1
1.5
-.2
-.3
Residuos
1.0
.5
0.0
.2
.4
.6
.8
1.0
-.4
-.5
1.0
1.5
2.0
2.5
3.0
3.5
Predicci n
Tema 3: Regresi
on simple
37
Residuo
0.5
0.5
1
3
5
6
Valor previsto de Y
Tema 3: Regresi
on simple
38
Residuo
0.5
0.5
0
0.2
0.4
0.6
Valor previsto de Y
Tema 3: Regresi
on simple
0.8
39
Si no se verifica la hip
otesis de linealidad entonces estaremos
utilizando un modelo inadecuado para describir el valor esperado
de Y en funcion de X . Esto conduce a malas predicciones.
Ejemplo 3.2 (cont.):
Concentracin de mercurio
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0
20
40
60
80 100
Alcalinidad
120
140
Tema 3: Regresi
on simple
40
Hip
otesis de homocedasticidad: Var(Ui ) = 2 para todo i
Si esta hipotesis no se verifica entonces los intervalos de confianza
para 0 y 1 son incorrectos, pues las varianzas de 0 y 1 no
estan bien estimadas.
Para estudiar la posible heterocedasticidad de los datos es u
til
representar los residuos ei frente a las predicciones yi o frente a xi .
As vemos si la variabilidad de los residuos crece o decrece con los
valores de X .
Ademas, si concluimos que las observaciones son heterocedasticas,
el grafico nos sugiere que pauta de variaci
on siguen y alguna
posible transformacion de las variables X e Y que linealice la
relacion.
Tema 3: Regresi
on simple
41
Tema 3: Regresi
on simple
42
Hip
otesis de normalidad: Ui Normal para todo i
Esta hipotesis es necesaria para calcular las distribuciones de i . Si
no se verifica, entonces no son validos ni los intervalos de
confianza para 0 y 1 ni el contraste de la regresion.
Para comprobar la normalidad graficamente utilizamos un
histograma o un diagrama de cajas y un grafico probabilstico
normal o un Q-Q plot de los residuos estandarizados.
ei
siendo
El residuo ei estandarizado se define como ei =
sR 1 hi
1
1
(xi x)2
hi =
1+
1
n
n
vx
una cantidad que mide el efecto palanca del punto (xi , yi ). Los
residuos estandarizados siguen aproximadamente una distribucion
N(0,1).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
Tema 3: Regresi
on simple
43
0.4
0.3
0.2
0.1
Tema 3: Regresi
on simple
44
0.4
0.3
0.2
0.1
0.5
0.5
1.5
Tema 3: Regresi
on simple
2
45
Tema 3: Regresi
on simple
46
Transformaci
on de los datos
Cuando falla la hipotesis de linealidad y quiza tambien la de
homocedasticidad y/o normalidad, una soluci
on sencilla y muy
utilizada es transformar una o las dos variables X e Y .
El objetivo es que se verifiquen las hip
otesis del modelo de
regresion simple para la relaci
on entre las variables transformadas:
con Ui N(0, 2 ),
f (Yi ) = 0 + 1 xi + Ui ,
o bien
f (Yi ) = 0 + 1 g (xi ) + Ui ,
con Ui N(0, 2 ),
o bien
Yi = 0 + 1 g (xi ) + Ui ,
con Ui N(0, 2 ).
Tema 3: Regresi
on simple
47
Tema 3: Regresi
on simple
48
Transformaci
on logartmica:
Si Y ' Ke 1 X , entonces log Y = 0 + 1 X .
35
30
25
20
15
10
0.5
1.5
2.5
3.5
4.5
Tema 3: Regresi
on simple
49
Transformaci
on doble logartmica:
Si Y ' KX 1 entonces log(Y ) ' log K + 1 log X = 0 + 1 log X .
25
1.6
1.4
20
1.2
<1
15
0.8
10
0.6
0.4
1 > 1
0.2
0
0
0.5
1.5
2.5
3.5
4.5
1 > 0
0.2
0.5
1.5
2.5
3.5
4.5
1 < 0
Tema 3: Regresi
on simple
50
Transformaci
on inversa:
1
Si Y ' 0 + , entonces Y ' 0 + 1 X 1 .
X
7
12
0
11
10
0
0.5
1.5
2.5
3.5
4.5
1 < 0
5
0.5
1.5
2.5
3.5
4.5
1 > 0
Tema 3: Regresi
on simple
51
4
K
3.5
2.5
1.5
0.5
0.5
10
12
14
16
18
Tema 3: Regresi
on simple
20
52
log(y)
log(y)
2
3
4
0
2
3
20
40
60
80
100
120
4
0
140
0.6
0.8
log(x)
1.4
1.2
0.8
log(y)
1
1
0.6
0.4
3
0.2
4
0
0.2
0.4
0.6
0.8
1/x
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
0.2
0.4
1/x
Tema 3: Regresi
on simple
53
Residuo estandarizado
Residuos estandarizados
1
0
1
2
2
2
1.5
1
0.5
0
Valor previsto de log(Y)
0.5
2.5
1.5
1
0.5
Valor previsto de log(Y)
Tema 3: Regresi
on simple
54
10
Elefante africano
4000
8
Log(Peso cerebro)
5000
Elefante asitico
3000
2000
Humano
6
4
2
0
1000
2
0
0
2000
4000
6000
Peso cuerpo (en kg)
8000
0
5
Log(Peso cuerpo)
Tema 3: Regresi
on simple
10
55
Ejemplo 3.8: Tasa de paro por sexo en 1999 para los pases de la
Union Europea.
Alemania
Austria
Belgica
Espa
na
Finlandia
Francia
Grecia
Pases Bajos
Mujeres
9.30
4.50
10.70
23.00
10.70
13.30
17.80
4.70
Hombres
8.30
3.30
7.80
11.20
9.80
9.60
7.50
2.30
Irlanda
Italia
Luxemburgo
Portugal
Dinamarca
Reino Unido
Suecia
Mujeres
5.50
15.60
3.30
5.20
6.00
5.30
7.10
Tema 3: Regresi
on simple
Hombres
5.80
8.70
1.70
3.90
4.50
6.70
7.20
56
25
8
6
20
4
Residuo
15
10
2
4
5
2
4
6
8
10
Tasa de paro hombres UE 1999
6
0
12
0.35
5
10
Valor previsto de Y
15
0.06
0.3
0.04
0.25
Residuo
0.2
0.15
0.02
0
0.02
0.1
0.04
0.05
0.06
0
4
6
8
10
Tasa de paro hombres UE 1999
12
0.1
0.2
Valor previsto de 1/Y
Tema 3: Regresi
on simple
0.3
57
Interpretaci
on del coeficiente de regresi
on
En el modelo Y = 0 + 1 x + U el coeficiente 1 representa el
incremento que experimenta la respuesta Y cuando la variable
explicativa x aumenta en una unidad.
En el modelo log Y = 0 + 1 x + U el coeficiente 1 se interpreta
como el incremento relativo o porcentual que experimenta la
respuesta Y cuando la variable x aumenta en una unidad.
Si utilizamos el modelo Y = 0 + 1 log x + U, 1 representa el
incremento de la respuesta Y cuando x aumenta en un 1%.
En el modelo log Y = 0 + 1 log x + U, 1 es aproximadamente el
incremento relativo de y cuando x aumenta en un 1%. Este
modelo es frecuentemente empleado en el contexto economico,
donde a 1 se le denomina elasticidad.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
Tema 3: Regresi
on simple
58