Está en la página 1de 58

Tema 3.

Modelo de regresion simple


Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 1
Introduccion
Objetivo del modelo de regresion simple:
Explicar el comportamiento de una variable cuantitativa de interes
Y (consumo de gasolina de un coche hbrido, temperatura del
agua marina) como funcion de otra variable cuantitativa X
observable (velocidad del vehculo en ciudad, profundidad a la que
se observa la temperatura del agua).
Y = variable respuesta, endogena o dependiente
X = regresor, predictor, variable explicativa, exogena o
independiente
Estudiaremos principalmente el modelo de regresion lineal simple,
en el que se expresa Y como funcion lineal de X.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 2
El modelo
Dise no jo y aleatorio
En el dise no aleatorio tomamos una muestra (x
1
, y
1
), . . . , (x
n
, y
n
)
de una poblacion (X, Y) donde X es una variable aleatoria (los
valores observados de X no estan prejados de antemano).
(X, Y) =(Estatura en cm,Peso en kg) de un estudiante
universitario elegido al azar.
(X, Y) =(Nivel de un cierto contaminante,Mortalidad) en una
ciudad elegida al azar.
En este caso el modelo de regresion establece una expresion para la
funcion de regresion E(Y|X = x).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 3
Ejemplo 3.1: Se desea estudiar la relacion entre la anchura X (en
mm.) y la longitud Y (en mm.) de la concha del Patelloida
pygmaea, una lapa pegada a las rocas a lo largo de las costas
protegidas en el area Indo-Pacca. Se observan los datos:
X Y X Y X Y X Y
0.9 3.1 1.9 5.0 2.1 5.6 2.3 5.8
1.5 3.6 1.9 5.3 2.1 5.7 2.3 6.2
1.6 4.3 1.9 5.7 2.1 5.8 2.3 6.3
1.7 4.7 2.0 4.4 2.2 5.2 2.3 6.4
1.7 5.5 2.0 5.2 2.2 5.3 2.4 6.4
1.8 5.7 2.0 5.3 2.2 5.6 2.4 6.3
1.8 5.2 2.1 5.4 2.2 5.8 2.7 6.3
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 4
En el dise no jo prejamos unos valores x
1
, . . . , x
n
de la variable
X. Para cada x
i
tomamos una o varias observaciones de Y.
(X, Y) =(profundidad en m. del agua marina,temperatura en
o
C
del agua a esa profundidad)
x
i
100 200 500 1000 1500 2000
y
i
22 20 12 6 5 4
El modelo de regresion en este caso establece una expresion para
E(Y
i
), el valor esperado de Y cuando el valor prejado de X es x
i
.
Si todos los x
i
estan a la misma distancia entre s se trata de un
dise no jo equiespaciado.
El tratamiento estadstico de ambos dise nos es parecido, aunque la
notacion sea diferente. A menudo, por simplicidad, utilizaremos la
notacion del dise no jo aunque el dise no del experimento sea
aleatorio.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 5
El modelo de regresion lineal simple
Dise no jo: Dise no aleatorio:
Y
i
=
0
+
1
x
i
+ U
i
(Y|X = x
i
) =
0
+
1
x
i
+ U
i
donde
0
y
1
son respectivamente la ordenada en el origen y la
pendiente de la recta de regresion. U
i
es un termino de
perturbacion o error experimental.
Interpretacion de los parametros de la regresion:

0
representa el valor medio de la respuesta Y cuando la variable
explicativa X vale 0.

1
representa la variacion que experimenta en media la respuesta
Y cuando la variable explicativa X aumenta en una unidad.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 6
Hipotesis basicas del modelo:
a) E(U
i
) = 0, para cada i = 1, . . . , n.
b) Var(U
i
) =
2
, para cada i = 1, . . . , n.
c) E(U
i
U
j
) = 0 , para todo i = j .
d) U
i
Normal, para todo i .
Ademas en el dise no aleatorio supondremos que X
1
, . . . , X
n
son
independientes.
Hipotesis equivalentes para dise no jo:
Y
1
, . . . , Y
n
son observaciones independientes, con
Y
i
N(
0
+
1
x
i
,
2
).
Hipotesis equivalentes para dise no aleatorio:
(X
1
, Y
1
), . . . , (X
n
, Y
n
) son independientes, con
Y|X = x
i
N(
0
+
1
x
i
,
2
).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 7
Las hipotesis basicas se verican mediante analisis de los residuos.
Sin embargo, como la hipotesis de linealidad E(Y
i
) =
0
+
1
x
i
es
fundamental, el primer paso siempre debe ser un analisis graco de
los datos, por ejemplo, un diagrama de dispersion de y frente a x.
Ejemplo 3.1 (cont.):
0.5 1 1.5 2 2.5 3
3
3.5
4
4.5
5
5.5
6
6.5
Anchura de la concha
L
o
n
g
i
t
u
d

d
e

l
a

c
o
n
c
h
a
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 8
Ejemplo 3.2: En 1990 y 1991 se examinaron percas y muestras de
agua de 53 lagos de Florida para estudiar los factores ambientales
relacionados con la contaminacion por mercurio que exhiben dichos
peces. En las muestras se midio, por ej., la alcalinidad del agua
(mg/l de carbonato calcico). El diagrama de dispersion representa
los valores medios de alcalinidad frente a la concentracion media
de mercurio (pp. por millon) para los 53 lagos.
0 20 40 60 80 100 120 140
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Nivel de mercurio
A
l
c
a
l
i
n
i
d
a
d
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 9
Ejemplo 3.2 (cont.):
Lago Alcalinidad Mercurio Lago Alcalinidad Mercurio
Alligator 5.9 1.23 Lochloosa 55.4 0.34
Annie 3.5 1.33 Louisa 3.9 0.84
Apopka 116.0 0.04 Miccasukee 5.5 0.50
Blue Cypress 39.4 0.44 Minneola 6.3 0.34
Brick 2.5 1.20 Monroe 67.0 0.28
Bryant 19.6 0.27 Newmans 28.8 0.34
Cherry 5.2 0.48 Ocean Pond 5.8 0.87
Crescent 71.4 0.19 Ocheese Pond 4.5 0.56
Deer Point 26.4 0.83 Okeechobee 119.1 0.17
Dias 4.8 0.81 Orange 25.4 0.18
Dorr 6.6 0.71 Panasokee 106.5 0.19
Down 16.5 0.50 Parker 53.0 0.04
Eaton 25.4 0.49 Placid 8.5 0.49
East Tohopekaliga 7.1 1.16 Puzzle 87.6 1.10
Farm-13 128.0 0.05 Rodman 114.0 0.16
George 83.7 0.15 Rousseau 97.5 0.10
Grin 108.5 0.19 Sampson 11.8 0.48
Harney 61.3 0.77 Shipp 66.5 0.21
Hart 6.4 1.08 Talquin 16.0 0.86
Hatchineha 31.0 0.98 Tarpon 5.0 0.52
Iamonia 7.5 0.63 Tohopekaliga 25.6 0.65
Istokpoga 17.3 0.56 Traord 81.5 0.27
Jackson 12.6 0.41 Trout 1.2 0.94
Josephine 7.0 0.73 Tsala Apopka 34.0 0.40
Kingsley 10.5 0.34 Weir 15.5 0.43
Kissimmee 30.0 0.59 Wildcat 17.3 0.25
Yale 71.8 0.27
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 10
Ejemplo 3.3 (cont.):
3.2 3.4 3.6 3.8 4
1
0.8
0.6
0.4
0.2
0
x
y
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 11
Estimacion de los parametros del modelo
Sea (x
1
, y
1
), . . . , (x
n
, y
n
) la muestra observada de (X, Y).
Estimamos los parametros
0
y
1
de la recta de regresion
mediante el metodo de mnimos cuadrados. El objetivo es
minimizar la suma de los residuos al cuadrado VNE =

n
i =1
e
2
i
,
donde e
i
= y
i
y
i
e y
i
=

0
+

1
x
i
. Cada residuo e
i
es la
distancia en vertical entre el (x
i
, y
i
) observado y (x
i
, y
i
).
1.5 1 0.5 0 0.5 1
1
0
1
2
3
4
5
x
y
(x
i
,y
i
)
e
i
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 12
VNE

0
= 2
n

i =1
(y
i

1
x
i
) = 0
n

i =1
y
i
= n

0
+

1
n

i =1
x
i
VNE

1
= 2
n

i =1
x
i
(y
i

1
x
i
) = 0
n

i =1
x
i
y
i
=

0
n

i =1
x
i
+

1
n

i =1
x
2
i
Entonces

1
=
cov
xy
v
x
donde
cov
xy
=
1
n
n

i =1
(x
i
x)(y
i
y) =
1
n
n

i =1
x
i
y
i
x y
v
x
=
1
n
n

i =1
(x
i
x)
2
=
1
n
n

i =1
x
2
i
x
2
x =
1
n
n

i =1
x
i
y =
1
n
n

i =1
y
i
Ademas y =

0
+

1
x

0
= y

1
x
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 13
Ejemplo 3.1 (cont.):
0.5 1 1.5 2 2.5 3
3
3.5
4
4.5
5
5.5
6
6.5
Anchura de la concha
L
o
n
g
i
t
u
d

d
e

l
a

c
o
n
c
h
a
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 14
Otra expresion de la recta de regresion es el modelo en
desviaciones a la media
y y =

1
(x x).
Su utilizacion es recomendable cuando
0
no es interpretable.
Ejemplo 3.1 (cont.):
El modelo en desviaciones a la media nos recuerda que la relacion
lineal entre X e Y se debe estudiar solo en un entorno de ( x, y).
No debemos extrapolar las conclusiones extradas de la regresion
fuera del rango de las observaciones utilizadas para construir el
modelo.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 15
Los residuos e
i
, i = 1, . . . , n, tienen n 2 grados de libertad, pues
verican las ecuaciones de restriccion
n

i =1
e
i
= 0
n

i =1
e
i
x
i
= 0.
Denimos la varianza residual como
s
2
R
=
1
n 2
n

i =1
e
2
i
.
Mide la variabilidad de los datos (x
i
, y
i
), i = 1, . . . , n, respecto a la
recta de regresion estimada.
Observacion: Se verica que
n

i =1
e
2
i
= n(v
y

2
1
v
x
),
siendo v
y
=
1
n
n

i =1
(y
i
y)
2
=
1
n
n

i =1
y
2
i
y
2
.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 16
Ejemplo 3.1 (cont.):
Residuos
-0.0577 -0.1540 0.0467 -0.1525
-0.7555 0.1460 0.1467 0.2475
-0.2551 0.5460 0.2467 0.3475
-0.0548 -0.9537 -0.5529 0.4475
0.7452 -0.1537 -0.4529 0.2478
0.7456 -0.0537 -0.1529 0.1478
0.2456 -0.1533 0.0471 -0.4510
s
2
R
=
v
y
= s
2
R
=
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 17
Inferencia sobre los parametros del modelo
Propiedades de los estimadores de los parametros
Bajo la hipotesis de normalidad

1
s
R
_
1
nv
x
t
n2
IC
1
(
1
) =
_

1
t
n2,/2
s
R
_
1
nv
x
_

0
s
R
_
1
n
_
1 +
x
2
v
x
_
t
n2
IC
1
(
0
) =
_

0
t
n2,/2
s
R

1
n
_
1 +
x
2
v
x
_
_
(n 2)s
2
R

2

2
n2
IC
1
(
2
) =
_
(n 2)s
2
R

2
n2,/2
,
(n 2)s
2
R

2
n2,1/2
_
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 18
Ejemplo 3.1 (cont.):
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 19
El contraste de la regresion
H
0
:
1
= 0 (no hay relacion lineal entre X e Y)
H
1
:
1
= 0
A nivel de signicacion la region de rechazo de este contraste es
R =
_
|

1
| > t
n2,/2
s
R
_
1
nv
x
_
= {0 / IC
1
(
1
)}.
Ejemplo 3.1 (cont.):
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 20
Planteemos este mismo contraste desde un punto de vista que
relaciona la regresion y analisis de la varianza.
La variabilidad total de Y viene dada por
VT =
n

i =1
(y
i
y)
2
= n v
y
= VE + VNE,
donde VE y VNE son independientes,
VE =
n

i =1
( y
i
y)
2
=

2
1
nv
x
denota la variabilidad explicada por el modelo de regresion lineal y
VNE =
n

i =1
e
2
i
denota la variabilidad residual.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 21
Tabla ADEVA para regresion lineal simple:
FV SC gl Varianzas F
Explicada por
regresor
VE 1 VE F =
VE
s
2
R
Residual VNE n 2 s
2
R
Total VT n 1
Si H
0
:
1
= 0 es cierta tenemos que
F =
VE
s
2
R
F
1,n2
Por tanto, la region de rechazo de H
0
:
1
= 0 a nivel de
signicacion es
R = {F > F
1,n2,
}.
Observacion: Esta region de rechazo y la de la pagina 20 son
equivalentes.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 22
Ejemplo 3.1 (cont.):
Valores previstos
3.1577 5.1540 5.5533 5.9525
4.3555 5.1540 5.5533 5.9525
4.5551 5.1540 5.5533 5.9525
4.7548 5.3537 5.7529 5.9525
4.7548 5.3537 5.7529 6.1522
4.9544 5.3537 5.7529 6.1522
4.9544 5.5533 5.7529 6.7510
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 23
Observacion: Contrastar H
0
:
1
= 0 frente a H
1
:
1
= 0
signica que, aceptando que existe una relacion lineal entre X e Y,
analizamos si una recta horizontal (
1
= 0) representa mejor los
datos que otra de pendiente no nula (
1
= 0). Pero aceptar H
0
no
signica que no exista ning un tipo de relacion funcional entre X e
Y, ni que estas sean independientes.
Ejemplo 3.4:
1 0.5 0 0.5 1
0.5
0
0.5
1
x
y
Y = X
2
+ U, IC
0.90
(
1
)=(0.10,0.29)
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 24
Los coecientes de correlacion y determinacion
Para evaluar el grado de ajuste de una recta de regresion podemos
utilizar el coeciente de determinacion
R
2
=
VE
VT
=

n
i =1
( y
i
y)
2

n
i =1
(y
i
y)
2
=

2
1
v
x
v
y
=
_
cov
xy

v
x
v
y
_
2
= (r
xy
)
2
,
siendo
r
xy
=
cov
xy

v
x
v
y
.
el coeciente de correlacion lineal de Pearson entre x e y.
Si la relacion entre x e y es marcadamente lineal, entonces R
2
y
|r
xy
| seran muy proximos a 1. Si no existe relacion lineal entre las
variables entonces R
2
y r
xy
seran proximos a cero.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 25
46
Coeficiente de determinaci Coeficiente de determinaci n n R R
2 2
Valoracin de cunto se ajustan los puntos a la recta
El El COEFICIENTE DE DETERMINACI COEFICIENTE DE DETERMINACI N N es la proporci es la proporci n de n de
variabilidad explicada por la regresi variabilidad explicada por la regresi n n
R R
2 2
= SCE /SCT = SCE /SCT
En REGRESI REGRESI N SIMPLE N SIMPLE el COEFICIENTE DE DETERMINACI COEFICIENTE DE DETERMINACI N N coincide
con el COEFICIENTE DE CORRELACI COEFICIENTE DE CORRELACI N AL CUADRADO N AL CUADRADO
R =
47
Coeficiente de determinaci Coeficiente de determinaci n n R R
2 2
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 26
Ejemplo 3.1 (cont.):
Observemos tambien que
R
2
= 1
VNE
VT
= 1
(n 2)s
2
R
nv
y
.
La ventaja del coeciente de determinacion frente al coeciente de
correlacion es que la denicion de R
2
es perfectamente
generalizable a cualquier modelo lineal. Esto es muy util en el
contexto de regresion m ultiple (Tema 4).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 27
Estimacion y prediccion
Un modelo de regresion sirve para estimar E(Y|X = x
0
) y para
predecir futuros valores de Y para un valor x
0
de X.
Los problemas de estimacion y prediccion son distintos, aunque las
expresiones matematicas que aparecen en su resolucion son casi
iguales. En el primero intentamos obtener un estimador de
E(Y|X = x
0
) =
0
+
1
x
0
, que es un n umero jo aunque
desconocido.
En el problema de prediccion de Y
0
= Y|X = x
0
estamos
interesados en conocer, para un valor x
0
jo de X, el valor
correspondiente de Y. Y|X = x
0
es una variable aleatoria.
Al nal estimaremos E(Y|X = x
0
) y predeciremos
Y
0
= Y|X = x
0
mediante el mismo valor, y =

0
+

1
x
0
, pero el
error de estimacion y el de prediccion son distintos.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 28
Estimacion de la media condicionada
Queremos estimar E(Y
0
) = E(Y|X = x
0
) =
0
+
1
x
0
, el valor
promedio de la respuesta cuando X = x
0
.
Un estimador razonable es
y
0
=

0
+

1
x
0
= y +

1
(x
0
x).
Se trata de un estimador centrado: E( y
0
) = E(Y|X = x
0
).
Ademas
IC
1
(E(Y
0
)) =
_
_
y
0
t
n2,/2
s
R

1
n
+
(x
0
x)
2
n v
x
_
_
.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 29
Ejemplo 3.1 (cont.): Estimar la longitud esperada de la concha
de Patelloida pygmaea cuando la anchura es de 1.4 mm. Calcular
un intervalo de conanza al 90% para la estimacion.
Estimar la longitud esperada de la concha de Patelloida pygmaea
cuando la anchura es de 2.0 mm. Calcular un intervalo de
conanza al 90% para la estimacion.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 30
Ejemplo 3.1 (cont.):
0.5 1 1.5 2 2.5 3
2
3
4
5
6
7
Anchura de la concha
L
o
n
g
i
t
u
d

d
e

l
a

c
o
n
c
h
a
Banda de confianza al 90% para E(Y|X=x
0
)
min x
i
max x
i
Interpolacin
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 31
Prediccion de la respuesta
En el problema de prediccion deseamos prever Y
0
= (Y|X = x
0
),
la respuesta cuando la variable independiente es igual a x
0
.
Si conocieramos E(Y|X = x
0
) podramos utilizar esta esperanza
como prediccion de Y
0
= (Y|X = x
0
). Entonces ya tenemos una
primera fuente de error debido a la propia variabilidad de
Y|X = x
0
en torno a su media.
Ademas, como E(Y|X = x
0
) es desconocida, la estimamos
mediante y
0
=

0
+

1
x
0
: segunda fuente de error en la prediccion.
Por tanto, nalmente predecimos Y|X = x
0
mediante y
0
.
Un intervalo de conanza para la prediccion de Y|X = x
0
es
IC
1
(Y
0
) =
_
_
y
0
t
n2,/2
s
R

1 +
1
n
+
(x
0
x)
2
n v
x
_
_
.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 32
Ejemplo 3.1 (cont.): Predecir la longitud de la concha de
Patelloida pygmaea cuando la anchura es de 1.4 mm. Calcular un
intervalo de conanza al 90% para la prediccion.
Predecir la longitud de la concha de Patelloida pygmaea cuando la
anchura es de 2.0 mm. Calcular un intervalo de conanza al 90%
para la prediccion.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 33
Ejemplo 3.1 (cont.):
0.5 1 1.5 2 2.5 3
2
3
4
5
6
7
Anchura de la concha
L
o
n
g
i
t
u
d

d
e

l
a

c
o
n
c
h
a
Bandas de confianza al 90% para E(Y|X=x
0
) y para Y|X=x
0

Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 34
Diagnosis del modelo
Vericamos las hipotesis basicas del modelo mediante analisis de
los residuos.
Ejemplo 3.5 (Anscombe 1973): Cuatro conjuntos de datos
1
x y
10 8.04
8 6.95
13 7.58
9 8.81
11 8.33
14 9.96
6 7.24
4 4.26
12 10.84
7 4.82
5 5.68
2
x y
10 9.14
8 8.14
13 8.74
9 8.77
11 9.26
14 8.10
6 6.13
4 3.10
12 9.13
7 7.26
5 4.74
3
x y
10 7.46
8 6.77
13 12.74
9 7.11
11 7.81
14 8.84
6 6.08
4 5.39
12 8.15
7 6.42
5 5.73
4
x y
8 6.58
8 5.76
8 7.71
8 8.84
8 8.47
8 7.04
8 5.25
19 12.50
8 5.56
8 7.91
8 6.89
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 35
La recta de regresion lineal de Y sobre X es en los cuatro casos
y = 3 + 0.5x. Tambien son iguales la VE, la VNE, s
2
R
= 1.52, el
estadstico t del contraste H
0
:
1
= 0 y la correlacion. Parece que
las cuatro situaciones son identicas. Pero al estudiar el graco de
los residuos e
i
frente a los valores previstos y
i
Prediccion CONJUNTO 1 DE DATOS
11 10 9 8 7 6 5 4
R
e
s
i
d
u
o
2
0
-2
Prediccion CONJUNTO 2 DE DATOS
11 10 9 8 7 6 5 4
R
e
s
i
d
u
o
2.0
0.0
-2.0
Prediccion CONJUNTO 3 DE DATOS
11 10 9 8 7 6 5 4
R
e
s
i
d
u
o
4
0
-4
Prediccion CONJUNTO 4 DE DATOS
13 12 11 10 9 8 7 6
R
e
s
i
d
u
o
2
0
-2
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 36
Hipotesis de linealidad: E(Y
i
) =
0
+
1
x
i
Establece que, en el rango de valores observados, el valor esperado
de la respuesta Y es una funcion lineal de la variable independiente
X. Solo tiene sentido contrastar la hipotesis en dicho rango.
Comprobaremos la linealidad mediante el graco de dispersion de
Y frente a X y mediante el graco de los residuos e
i
frente a los
valores previstos y
i
.
Ejemplo 3.6:
X
1.0 .8 .6 .4 .2 0.0
y
3.0
2.5
2.0
1.5
1.0
.5
Predicci n
3.5 3.0 2.5 2.0 1.5 1.0
R
e
s
i
d
u
o
s
.3
.2
.1
.0
-.1
-.2
-.3
-.4
-.5
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 37
Ejemplo 3.1 (cont.):
3 4 5 6 7
1
0.5
0
0.5
1
Valor previsto de Y
R
e
s
i
d
u
o
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 38
Ejemplo 3.2 (cont.): Regresion de Y = Nivel de contaminacion
por mercurio de un pez del lago sobre X = Alcalinidad del lago
0 0.2 0.4 0.6 0.8
0.5
0
0.5
1
Valor previsto de Y
R
e
s
i
d
u
o
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 39
Si no se verica la hipotesis de linealidad entonces estaremos
utilizando un modelo inadecuado para describir el valor esperado
de Y en funcion de X. Esto conduce a malas predicciones.
Ejemplo 3.2 (cont.):
0 20 40 60 80 100 120 140
0
0.2
0.4
0.6
0.8
1
1.2
1.4
Alcalinidad
C
o
n
c
e
n
t
r
a
c
i

n

d
e

m
e
r
c
u
r
i
o
Una solucion habitual a la ausencia de linealidad es transformar la
variable X mediante una funcion g y/o la variable Y mediante una
funcion f de manera que entre g(X) y f (Y) s sea razonable
suponer una relacion lineal.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 40
Hipotesis de homocedasticidad: Var(U
i
) =
2
para todo i
Si esta hipotesis no se verica entonces los intervalos de conanza
para
0
y
1
son incorrectos, pues las varianzas de

0
y

1
no
estan bien estimadas.
Para estudiar la posible heterocedasticidad de los datos es util
representar los residuos e
i
frente a las predicciones y
i
o frente a x
i
.
As vemos si la variabilidad de los residuos crece o decrece con los
valores de X.
Ademas, si concluimos que las observaciones son heterocedasticas,
el graco nos sugiere que pauta de variacion siguen y alguna
posible transformacion de las variables X e Y que linealice la
relacion.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 41
22
Grfico de los residuos e
i
En abcisas los valores
de x
i
(edades en aos)
En ordenadas los
residuos e
i
sin tipificar
es este un valor anmalo?
23
RESIDUOS RESIDUOS VALORES PRONOSTICADOS VALORES PRONOSTICADOS
se cumplen las hip se cumplen las hip tesis del modelo? tesis del modelo?
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 42
Hipotesis de normalidad: U
i
Normal para todo i
Esta hipotesis es necesaria para calcular las distribuciones de

i
. Si
no se verica, entonces no son validos ni los intervalos de
conanza para
0
y
1
ni el contraste de la regresion.
Para comprobar la normalidad gracamente utilizamos un
histograma o un diagrama de cajas y un graco probabilstico
normal o un Q-Q plot de los residuos estandarizados.
El residuo e
i
estandarizado se dene como e
i
=
e
i
s
R

1 h
i
siendo
1
n
h
i
=
1
n
_
1 +
(x
i
x)
2
v
x
_
1
una cantidad que mide el efecto palanca del punto (x
i
, y
i
). Los
residuos estandarizados siguen aproximadamente una distribucion
N(0,1).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 43
Ejemplo 3.1 (cont.): Histograma de los residuos estandarizados y
densidad N(0,1)
2 1 0 1
0
0.1
0.2
0.3
0.4
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 44
Ejemplo 3.2 (cont.): Histograma de los residuos estandarizados y
densidad N(0,1)
1 0.5 0 0.5 1 1.5 2
0
0.1
0.2
0.3
0.4
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 45
Tambien podemos hacer un contraste (como el de
Kolmogorov-Smirnov) de la bondad de ajuste de los residuos
estandarizados a la distribucion gaussiana.
El problema para utilizar este tipo de contrastes es que los residuos
no son observaciones independientes, aunque si n es grande esto se
puede obviar.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 46
Transformacion de los datos
Cuando falla la hipotesis de linealidad y quiza tambien la de
homocedasticidad y/o normalidad, una solucion sencilla y muy
utilizada es transformar una o las dos variables X e Y.
El objetivo es que se veriquen las hipotesis del modelo de
regresion simple para la relacion entre las variables transformadas:
f (Y
i
) =
0
+
1
x
i
+ U
i
, con U
i
N(0,
2
),
o bien
f (Y
i
) =
0
+
1
g(x
i
) + U
i
, con U
i
N(0,
2
),
o bien
Y
i
=
0
+
1
g(x
i
) + U
i
, con U
i
N(0,
2
).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 47
Para decidir si transformamos X, Y o ambas variables, tendremos
en cuenta si solo falla la hipotesis de linealidad o, por el contrario,
las residuos dejan de vericar alguna de las otras hipotesis.
Si solo falla la linealidad, conviene transformar solo X porque esto
no afecta a las propiedades de las perturbaciones. En cambio, si
los residuos muestran heterocedasticidad o no normalidad,
conviene transformar al menos Y para intentar resolver todos los
problemas simultaneamente.
A continuacion presentamos algunos ejemplos de relaciones no
lineales, pero linealizables.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 48
Transformacion logartmica:
Si Y Ke

1
X
, entonces log Y =
0
+
1
X.
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
5
0
5
10
15
20
25
30
35
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 49
Transformacion doble logartmica:
Si Y KX

1
entonces log(Y) log K +
1
log X =
0
+
1
log X.
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
5
0
5
10
15
20
25

1
< 1

1
> 1
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0.2
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6

1
> 0
1
< 0
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 50
Transformacion inversa:
Si Y
0
+

1
X
, entonces Y
0
+
1
X
1
.
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
0
1
2
3
4
5
6
7

0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
5
6
7
8
9
10
11
12

1
< 0
1
> 0
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 51
Si Y Ke

1
X
, con
1
> 0, entonces log Y =
0
+
1
X
1
.
0 2 4 6 8 10 12 14 16 18 20
0.5
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
K
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 52
Ejemplo 3.2 (cont.):
0 20 40 60 80 100 120 140
4
3
2
1
0
1
x
l
o
g
(
y
)
0 1 2 3 4 5
4
3
2
1
0
1
log(x)
l
o
g
(
y
)
0 0.2 0.4 0.6 0.8 1
4
3
2
1
0
1
1/x
l
o
g
(
y
)
0 0.2 0.4 0.6 0.8 1
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1/x
y
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 53
Ejemplo 3.2 (cont.):
2 1.5 1 0.5 0 0.5
2
1
0
1
2
Valor previsto de log(Y)
R
e
s
i
d
u
o
s

e
s
t
a
n
d
a
r
i
z
a
d
o
s
Regresion de log(Y) sobre log(X)
2.5 2 1.5 1 0.5 0
2
1
0
1
2
Valor previsto de log(Y)
R
e
s
i
d
u
o

e
s
t
a
n
d
a
r
i
z
a
d
o
Regresin de log(Y) frente a X
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 54
Ejemplo 3.7: Peso del cerebro (en g) en funcion del peso corporal
(en kg) para 62 especies de mamferos (Fuente: Allison &
Sacchetti 1976, Science)
0 2000 4000 6000 8000
0
1000
2000
3000
4000
5000
6000
Peso cuerpo (en kg)
P
e
s
o

c
e
r
e
b
r
o

(
e
n

g
)
Elefante africano
Elefante asitico
Humano
5 0 5 10
2
0
2
4
6
8
10
Log(Peso cuerpo)
L
o
g
(
P
e
s
o

c
e
r
e
b
r
o
)
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 55
Ejemplo 3.8: Tasa de paro por sexo en 1999 para los pases de la
Union Europea.
Mujeres Hombres Mujeres Hombres
Alemania 9.30 8.30 Irlanda 5.50 5.80
Austria 4.50 3.30 Italia 15.60 8.70
Belgica 10.70 7.80 Luxemburgo 3.30 1.70
Espa na 23.00 11.20 Portugal 5.20 3.90
Finlandia 10.70 9.80 Dinamarca 6.00 4.50
Francia 13.30 9.60 Reino Unido 5.30 6.70
Grecia 17.80 7.50 Suecia 7.10 7.20
Pases Bajos 4.70 2.30
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 56
Ejemplo 3.8 (cont.): 1/Y = 0.2975 0.0236X
2 4 6 8 10 12
5
10
15
20
25
Tasa de paro hombres UE 1999
T
a
s
a

d
e

p
a
r
o

m
u
j
e
r
e
s

U
E

1
9
9
9
0 5 10 15
6
4
2
0
2
4
6
8
Valor previsto de Y
R
e
s
i
d
u
o
2 4 6 8 10 12
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
Tasa de paro hombres UE 1999
1
/
(
T
a
s
a

d
e

p
a
r
o

m
u
j
e
r
e
s

U
E

1
9
9
9
)
0 0.1 0.2 0.3
0.06
0.04
0.02
0
0.02
0.04
0.06
Valor previsto de 1/Y
R
e
s
i
d
u
o
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 57
Interpretacion del coeciente de regresion
En el modelo Y =
0
+
1
x + U el coeciente
1
representa el
incremento que experimenta la respuesta Y cuando la variable
explicativa x aumenta en una unidad.
En el modelo log Y =
0
+
1
x + U el coeciente
1
se interpreta
como el incremento relativo o porcentual que experimenta la
respuesta Y cuando la variable x aumenta en una unidad.
Si utilizamos el modelo Y =
0
+
1
log x + U,
1
representa el
incremento de la respuesta Y cuando x aumenta en un 1%.
En el modelo log Y =
0
+
1
log x +U,
1
es aproximadamente el
incremento relativo de y cuando x aumenta en un 1%. Este
modelo es frecuentemente empleado en el contexto economico,
donde a
1
se le denomina elasticidad.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo Tema 3: Regresion simple 58

También podría gustarte