Está en la página 1de 58

Tema 3.

Modelo de regresi
on simple

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

Introducci
on
Objetivo del modelo de regresi
on simple:
Explicar el comportamiento de una variable cuantitativa de interes
Y (consumo de gasolina de un coche hbrido, temperatura del
agua marina) como funci
on de otra variable cuantitativa X
observable (velocidad del vehculo en ciudad, profundidad a la que
se observa la temperatura del agua).
Y = variable respuesta, end
ogena o dependiente
X = regresor, predictor, variable explicativa, ex
ogena o
independiente
Estudiaremos principalmente el modelo de regresi
on lineal simple,
en el que se expresa Y como funci
on lineal de X .

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

El modelo

Dise
no fijo y aleatorio
En el dise
no aleatorio tomamos una muestra (x1 , y1 ), . . . , (xn , yn )
de una poblacion (X , Y ) donde X es una variable aleatoria (los
valores observados de X no estan prefijados de antemano).
(X , Y ) =(Estatura en cm,Peso en kg) de un estudiante
universitario elegido al azar.
(X , Y ) =(Nivel de un cierto contaminante,Mortalidad) en una
ciudad elegida al azar.
En este caso el modelo de regresi
on establece una expresion para la
funcion de regresion E (Y |X = x).

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

Ejemplo 3.1: Se desea estudiar la relaci


on entre la anchura X (en
mm.) y la longitud Y (en mm.) de la concha del Patelloida
pygmaea, una lapa pegada a las rocas a lo largo de las costas
protegidas en el area Indo-Pacfica. Se observan los datos:
X
0.9
1.5
1.6
1.7
1.7
1.8
1.8

Y
3.1
3.6
4.3
4.7
5.5
5.7
5.2

X
1.9
1.9
1.9
2.0
2.0
2.0
2.1

Y
5.0
5.3
5.7
4.4
5.2
5.3
5.4

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

X
2.1
2.1
2.1
2.2
2.2
2.2
2.2

Y
5.6
5.7
5.8
5.2
5.3
5.6
5.8

X
2.3
2.3
2.3
2.3
2.4
2.4
2.7

Tema 3: Regresi
on simple

Y
5.8
6.2
6.3
6.4
6.4
6.3
6.3

En el dise
no fijo prefijamos unos valores x1 , . . . , xn de la variable
X . Para cada xi tomamos una o varias observaciones de Y .
(X , Y ) =(profundidad en m. del agua marina,temperatura en o C
del agua a esa profundidad)
xi
yi

100
22

200
20

500
12

1000
6

1500
5

2000
4

El modelo de regresion en este caso establece una expresion para


E (Yi ), el valor esperado de Y cuando el valor prefijado de X es xi .
Si todos los xi estan a la misma distancia entre s se trata de un
dise
no fijo equiespaciado.
El tratamiento estadstico de ambos dise
nos es parecido, aunque la
notacion sea diferente. A menudo, por simplicidad, utilizaremos la
notacion del dise
no fijo aunque el dise
no del experimento sea
aleatorio.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

El modelo de regresi
on lineal simple
Dise
no fijo:
Yi = 0 + 1 xi + Ui

Dise
no aleatorio:
(Y |X = xi ) = 0 + 1 xi + Ui

donde 0 y 1 son respectivamente la ordenada en el origen y la


pendiente de la recta de regresi
on. Ui es un termino de
perturbacion o error experimental.
Interpretaci
on de los par
ametros de la regresi
on:
0 representa el valor medio de la respuesta Y cuando la variable
explicativa X vale 0.
1 representa la variaci
on que experimenta en media la respuesta
Y cuando la variable explicativa X aumenta en una unidad.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

Hip
otesis b
asicas del modelo:
a) E (Ui ) = 0, para cada i = 1, . . . , n.
b) Var(Ui ) = 2 , para cada i = 1, . . . , n.
c) E (Ui Uj ) = 0 , para todo i 6= j.
d) Ui Normal, para todo i.
Ademas en el dise
no aleatorio supondremos que X1 , . . . , Xn son
independientes.
Hip
otesis equivalentes para dise
no fijo:
Y1 , . . . , Yn son observaciones independientes, con
Yi N(0 + 1 xi , 2 ).
Hip
otesis equivalentes para dise
no aleatorio:
(X1 , Y1 ), . . . , (Xn , Yn ) son independientes, con
Y |X = xi N(0 + 1 xi , 2 ).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

Las hipotesis basicas se verifican mediante analisis de los residuos.


Sin embargo, como la hip
otesis de linealidad E (Yi ) = 0 + 1 xi es
fundamental, el primer paso siempre debe ser un analisis grafico de
los datos, por ejemplo, un diagrama de dispersi
on de y frente a x.
Ejemplo 3.1 (cont.):

Longitud de la concha

6.5
6
5.5
5
4.5
4
3.5
3
0.5

1.5
2
2.5
Anchura de la concha

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

Ejemplo 3.2: En 1990 y 1991 se examinaron percas y muestras de


agua de 53 lagos de Florida para estudiar los factores ambientales
relacionados con la contaminaci
on por mercurio que exhiben dichos
peces. En las muestras se midi
o, por ej., la alcalinidad del agua
(mg/l de carbonato calcico). El diagrama de dispersion representa
los valores medios de alcalinidad frente a la concentracion media
de mercurio (pp. por millon) para los 53 lagos.
1.4
1.2

Alcalinidad

1
0.8
0.6
0.4
0.2
0
0

20

40

60
80
100
Nivel de mercurio

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

120

Tema 3: Regresi
on simple

140
9

Ejemplo 3.2 (cont.):


Lago
Alligator
Annie
Apopka
Blue Cypress
Brick
Bryant
Cherry
Crescent
Deer Point
Dias
Dorr
Down
Eaton
East Tohopekaliga
Farm-13
George
Griffin
Harney
Hart
Hatchineha
Iamonia
Istokpoga
Jackson
Josephine
Kingsley
Kissimmee

Alcalinidad
5.9
3.5
116.0
39.4
2.5
19.6
5.2
71.4
26.4
4.8
6.6
16.5
25.4
7.1
128.0
83.7
108.5
61.3
6.4
31.0
7.5
17.3
12.6
7.0
10.5
30.0

Mercurio
1.23
1.33
0.04
0.44
1.20
0.27
0.48
0.19
0.83
0.81
0.71
0.50
0.49
1.16
0.05
0.15
0.19
0.77
1.08
0.98
0.63
0.56
0.41
0.73
0.34
0.59

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Lago
Lochloosa
Louisa
Miccasukee
Minneola
Monroe
Newmans
Ocean Pond
Ocheese Pond
Okeechobee
Orange
Panasoffkee
Parker
Placid
Puzzle
Rodman
Rousseau
Sampson
Shipp
Talquin
Tarpon
Tohopekaliga
Trafford
Trout
Tsala Apopka
Weir
Wildcat
Yale

Tema 3: Regresi
on simple

Alcalinidad
55.4
3.9
5.5
6.3
67.0
28.8
5.8
4.5
119.1
25.4
106.5
53.0
8.5
87.6
114.0
97.5
11.8
66.5
16.0
5.0
25.6
81.5
1.2
34.0
15.5
17.3
71.8

Mercurio
0.34
0.84
0.50
0.34
0.28
0.34
0.87
0.56
0.17
0.18
0.19
0.04
0.49
1.10
0.16
0.10
0.48
0.21
0.86
0.52
0.65
0.27
0.94
0.40
0.43
0.25
0.27
10

Ejemplo 3.3 (cont.):


0
0.2

0.4
0.6
0.8
1
3.2

3.4

3.6

3.8

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

11

Estimaci
on de los par
ametros del modelo
Sea (x1 , y1 ), . . . , (xn , yn ) la muestra observada de (X , Y ).
Estimamos los parametros 0 y 1 de la recta de regresion
mediante el metodo de mnimos cuadrados. El objetivoPes
minimizar la suma de los residuos al cuadrado VNE = ni=1 ei2 ,
donde ei = yi yi e yi = 0 + 1 xi . Cada residuo ei es la
distancia en vertical entre el (xi , yi ) observado y (xi , yi ).
5
4

3
ei

2
1

(xi,yi)

0
1
1.5

0.5

0.5

x
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

12

i=1

i=1

X
X
X
VNE
= 2
(yi 0 1 xi ) = 0
yi = n0 + 1
xi
0
VNE
= 2
1

n
X

xi (yi 0 1 xi ) = 0

i=1

covxy

xi yi = 0

n
X

xi + 1

n
X

i=1

i=1

donde

i=1

i=1

1X
1X
=
(xi x)(yi y ) =
xi yi xy
n
n

i=1

i=1

1X
1X 2 2
x
vx =
(xi
x )2 =
xi
n
n
Ademas

i=1

i=1

covxy
1 =
vx

Entonces

n
X

y = 0 + 1 x

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

1X
x =
xi
n
i=1

1X
y =
yi
n
i=1

0 = y 1 x
Tema 3: Regresi
on simple

13

xi2

Ejemplo 3.1 (cont.):

Longitud de la concha

6.5
6
5.5
5
4.5
4
3.5
3
0.5

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

1.5
2
2.5
Anchura de la concha

Tema 3: Regresi
on simple

14

Otra expresion de la recta de regresi


on es el modelo en
desviaciones a la media
y y = 1 (x x).
Su utilizacion es recomendable cuando 0 no es interpretable.
Ejemplo 3.1 (cont.):

El modelo en desviaciones a la media nos recuerda que la relacion


lineal entre X e Y se debe estudiar s
olo en un entorno de (
x , y ).
No debemos extrapolar las conclusiones extradas de la regresion
fuera del rango de las observaciones utilizadas para construir el
modelo.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

15

Los residuos ei , i = 1, . . . , n, tienen n 2 grados de libertad, pues


verifican las ecuaciones de restricci
on
n
n
X
X
ei = 0
ei xi = 0.
i=1

i=1

Definimos la varianza residual como


n

sR2

1 X 2
=
ei .
n2
i=1

Mide la variabilidad de los datos (xi , yi ), i = 1, . . . , n, respecto a la


recta de regresion estimada.
Observaci
on: Se verifica que
n
X
ei2 = n(vy 12 vx ),
i=1

siendo vy =

1
n

n
X
i=1

(yi y )2 =

1X 2
yi y 2 .
n

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

i=1

Tema 3: Regresi
on simple

16

Ejemplo 3.1 (cont.):


-0.0577
-0.7555
-0.2551
-0.0548
0.7452
0.7456
0.2456

Residuos
-0.1540 0.0467
0.1460 0.1467
0.5460 0.2467
-0.9537 -0.5529
-0.1537 -0.4529
-0.0537 -0.1529
-0.1533 0.0471

-0.1525
0.2475
0.3475
0.4475
0.2478
0.1478
-0.4510

sR2 =

vy =
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

sR2 =
Tema 3: Regresi
on simple

17

Inferencia sobre los par


ametros del modelo
Propiedades de los estimadores de los par
ametros
Bajo la hipotesis de normalidad

1 1
q
tn2 IC1 (1 ) = 1 tn2,/2 sR
1
sR nvx

r 0 0
sR n1 1 +

x2
vx

1
nvx

 tn2

IC1 (0 ) =

s 
!
2
1
x

0 tn2,/2 sR
1+
n
vx

(n 2)sR2
2n2 IC1 ( 2 ) =
2
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

(n 2)sR2 (n 2)sR2
,
2n2,/2 2n2,1/2

Tema 3: Regresi
on simple

18

Ejemplo 3.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

19

El contraste de la regresi
on
H0 : 1 = 0 (no hay relaci
on lineal entre X e Y )
H1 : 1 6= 0
A nivel de significacion la regi
on de rechazo de este contraste es
r


1

R = |1 | > tn2,/2 sR
= {0
/ IC1 (1 )}.
nvx

Ejemplo 3.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

20

Planteemos este mismo contraste desde un punto de vista que


relaciona la regresion y analisis de la varianza.
La variabilidad total de Y viene dada por
n
X
VT =
(yi y )2 = n vy = VE + VNE,
i=1

donde VE y VNE son independientes,


VE =

n
X
(
yi y )2 = 12 nvx
i=1

denota la variabilidad explicada por el modelo de regresion lineal y


VNE =

n
X

ei2

i=1

denota la variabilidad residual.


Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

21

Tabla ADEVA para regresi


on lineal simple:
FV
Explicada por
regresor
Residual
Total

SC

gl

Varianzas

VE

VE

VNE
VT

n2
n1

sR2

F
F =

VE
sR2

Si H0 : 1 = 0 es cierta tenemos que


F =

VE
F1,n2
sR2

Por tanto, la region de rechazo de H0 : 1 = 0 a nivel de


significacion es
R = {F > F1,n2, }.
Observaci
on: Esta regi
on de rechazo y la de la pagina 20 son
equivalentes.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

22

Ejemplo 3.1 (cont.):


3.1577
4.3555
4.5551
4.7548
4.7548
4.9544
4.9544

Valores previstos
5.1540 5.5533 5.9525
5.1540 5.5533 5.9525
5.1540 5.5533 5.9525
5.3537 5.7529 5.9525
5.3537 5.7529 6.1522
5.3537 5.7529 6.1522
5.5533 5.7529 6.7510

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

23

Observaci
on: Contrastar H0 : 1 = 0 frente a H1 : 1 6= 0
significa que, aceptando que existe una relaci
on lineal entre X e Y ,
analizamos si una recta horizontal (1 = 0) representa mejor los
datos que otra de pendiente no nula (1 6= 0). Pero aceptar H0 no
significa que no exista ning
un tipo de relaci
on funcional entre X e
Y , ni que estas sean independientes.
Ejemplo 3.4:
Y = X2 + U,

IC0.90(1)=(0.10,0.29)

0.5

0.5
1

0.5

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

0
x

0.5

Tema 3: Regresi
on simple

24

Los coeficientes de correlaci


on y determinaci
on
Para evaluar el grado de ajuste de una recta de regresion podemos
utilizar el coeficiente de determinaci
on
Pn


(
yi y )2
covxy 2
VE
12 vx
R2 =
= Pi=1
=
=
= (rxy )2 ,

n
2
VT
(y

)
v
v
v
y
x y
i=1 i
siendo

covxy
.
rxy =
vx vy

el coeficiente de correlaci
on lineal de Pearson entre x e y .
Si la relacion entre x e y es marcadamente lineal, entonces R 2 y
|rxy | seran muy proximos a 1. Si no existe relaci
on lineal entre las
variables entonces R 2 y rxy seran pr
oximos a cero.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

25

Coeficiente de determinaci
determinacin R2

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

26

47

Ejemplo 3.1 (cont.):

Observemos tambien que


R2 = 1

(n 2)sR2
VNE
=1
.
VT
nvy

La ventaja del coeficiente de determinaci


on frente al coeficiente de
correlacion es que la definici
on de R 2 es perfectamente
generalizable a cualquier modelo lineal. Esto es muy u
til en el
contexto de regresion m
ultiple (Tema 4).

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

27

Estimaci
on y predicci
on
Un modelo de regresion sirve para estimar E (Y |X = x0 ) y para
predecir futuros valores de Y para un valor x0 de X .
Los problemas de estimaci
on y predicci
on son distintos, aunque las
expresiones matematicas que aparecen en su resolucion son casi
iguales. En el primero intentamos obtener un estimador de
E (Y |X = x0 ) = 0 + 1 x0 , que es un n
umero fijo aunque
desconocido.
En el problema de predicci
on de Y0 = Y |X = x0 estamos
interesados en conocer, para un valor x0 fijo de X , el valor
correspondiente de Y . Y |X = x0 es una variable aleatoria.
Al final estimaremos E (Y |X = x0 ) y predeciremos
Y0 = Y |X = x0 mediante el mismo valor, y = 0 + 1 x0 , pero el
error de estimacion y el de predicci
on son distintos.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

28

Estimaci
on de la media condicionada
Queremos estimar E (Y0 ) = E (Y |X = x0 ) = 0 + 1 x0 , el valor
promedio de la respuesta cuando X = x0 .
Un estimador razonable es
y0 = 0 + 1 x0 = y + 1 (x0 x).
Se trata de un estimador centrado: E (
y0 ) = E (Y |X = x0 ).
Ademas

IC1 (E (Y0 )) = y0 tn2,/2 sR

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

x)2

1 (x0
+
n
n vx

Tema 3: Regresi
on simple

29

Ejemplo 3.1 (cont.): Estimar la longitud esperada de la concha


de Patelloida pygmaea cuando la anchura es de 1.4 mm. Calcular
un intervalo de confianza al 90% para la estimaci
on.

Estimar la longitud esperada de la concha de Patelloida pygmaea


cuando la anchura es de 2.0 mm. Calcular un intervalo de
confianza al 90% para la estimaci
on.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

30

Ejemplo 3.1 (cont.):


Banda de confianza al 90% para E(Y|X=x0)

Longitud de la concha

7
6
5
4
3
Interpolacin
2
0.5 min xi 1

1.5
2
2.5 max x 3
i
Anchura de la concha

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

31

Predicci
on de la respuesta
En el problema de predicci
on deseamos prever Y0 = (Y |X = x0 ),
la respuesta cuando la variable independiente es igual a x0 .
Si conocieramos E (Y |X = x0 ) podramos utilizar esta esperanza
como prediccion de Y0 = (Y |X = x0 ). Entonces ya tenemos una
primera fuente de error debido a la propia variabilidad de
Y |X = x0 en torno a su media.
Ademas, como E (Y |X = x0 ) es desconocida, la estimamos
mediante y0 = 0 + 1 x0 : segunda fuente de error en la prediccion.
Por tanto, finalmente predecimos Y |X = x0 mediante y0 .
Un intervalo de confianza para la predicci
on de Y |X = x0 es

s
2
1 (x0 x)
IC1 (Y0 ) = y0 tn2,/2 sR 1 + +
.
n
n vx

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

32

Ejemplo 3.1 (cont.): Predecir la longitud de la concha de


Patelloida pygmaea cuando la anchura es de 1.4 mm. Calcular un
intervalo de confianza al 90% para la predicci
on.

Predecir la longitud de la concha de Patelloida pygmaea cuando la


anchura es de 2.0 mm. Calcular un intervalo de confianza al 90%
para la prediccion.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

33

Ejemplo 3.1 (cont.):


Bandas de confianza al 90% para E(Y|X=x0) y para Y|X=x0

Longitud de la concha

7
6
5
4
3
2
0.5

1.5
2
Anchura de la concha

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

2.5

Tema 3: Regresi
on simple

34

Diagnosis del modelo


Verificamos las hipotesis basicas del modelo mediante an
alisis de
los residuos.
Ejemplo 3.5 (Anscombe 1973): Cuatro conjuntos de datos
1
x
10
8
13
9
11
14
6
4
12
7
5

y
8.04
6.95
7.58
8.81
8.33
9.96
7.24
4.26
10.84
4.82
5.68

2
x
10
8
13
9
11
14
6
4
12
7
5

y
9.14
8.14
8.74
8.77
9.26
8.10
6.13
3.10
9.13
7.26
4.74

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

3
x
10
8
13
9
11
14
6
4
12
7
5

y
7.46
6.77
12.74
7.11
7.81
8.84
6.08
5.39
8.15
6.42
5.73

Tema 3: Regresi
on simple

4
x
8
8
8
8
8
8
8
19
8
8
8

y
6.58
5.76
7.71
8.84
8.47
7.04
5.25
12.50
5.56
7.91
6.89
35

2.0

0.0

Residuo

Residuo

La recta de regresion lineal de Y sobre X es en los cuatro casos


y = 3 + 0.5x. Tambien son iguales la VE, la VNE, sR2 = 1.52, el
estadstico t del contraste H0 : 1 = 0 y la correlacion. Parece que
las cuatro situaciones son identicas. Pero al estudiar el grafico de
los residuos ei frente a los valores previstos yi

-2
4

10

-2.0

11

CONJUNTO 1 DE DATOS

-4
4

Prediccion

Prediccion

Residuo

Residuo

Prediccion

10

11

CONJUNTO 3 DE DATOS

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

10

11

12

13

CONJUNTO 2 DE DATOS

-2
6

Prediccion

10

11

CONJUNTO 4 DE DATOS

Tema 3: Regresi
on simple

36

Hip
otesis de linealidad: E (Yi ) = 0 + 1 xi
Establece que, en el rango de valores observados, el valor esperado
de la respuesta Y es una funci
on lineal de la variable independiente
X . Solo tiene sentido contrastar la hip
otesis en dicho rango.
Comprobaremos la linealidad mediante el grafico de dispersion de
Y frente a X y mediante el grafico de los residuos ei frente a los
valores previstos yi .
Ejemplo 3.6:
3.0

.3

.2
2.5
.1

.0
2.0

-.1

1.5
-.2

-.3

Residuos

1.0

.5
0.0

.2

.4

.6

.8

1.0

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

-.4

-.5
1.0

1.5

2.0

2.5

3.0

3.5

Predicci n

Tema 3: Regresi
on simple

37

Ejemplo 3.1 (cont.):

Residuo

0.5

0.5

1
3

5
6
Valor previsto de Y

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

38

Ejemplo 3.2 (cont.): Regresi


on de Y = Nivel de contaminacion
por mercurio de un pez del lago sobre X = Alcalinidad del lago

Residuo

0.5

0.5
0

0.2

0.4
0.6
Valor previsto de Y

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

0.8
39

Si no se verifica la hip
otesis de linealidad entonces estaremos
utilizando un modelo inadecuado para describir el valor esperado
de Y en funcion de X . Esto conduce a malas predicciones.
Ejemplo 3.2 (cont.):
Concentracin de mercurio

1.4
1.2
1
0.8
0.6
0.4
0.2
0
0

20

40

60
80 100
Alcalinidad

120

140

Una solucion habitual a la ausencia de linealidad es transformar la


variable X mediante una funci
on g y/o la variable Y mediante una
funcion f de manera que entre g (X ) y f (Y ) s sea razonable
suponer una relacion lineal.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

40

Hip
otesis de homocedasticidad: Var(Ui ) = 2 para todo i
Si esta hipotesis no se verifica entonces los intervalos de confianza
para 0 y 1 son incorrectos, pues las varianzas de 0 y 1 no
estan bien estimadas.
Para estudiar la posible heterocedasticidad de los datos es u
til
representar los residuos ei frente a las predicciones yi o frente a xi .
As vemos si la variabilidad de los residuos crece o decrece con los
valores de X .
Ademas, si concluimos que las observaciones son heterocedasticas,
el grafico nos sugiere que pauta de variaci
on siguen y alguna
posible transformacion de las variables X e Y que linealice la
relacion.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

41

RESIDUOS VALORES PRONOSTICADOS


se cumplen las hip
hiptesis del modelo?

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

42

Hip
otesis de normalidad: Ui Normal para todo i
Esta hipotesis es necesaria para calcular las distribuciones de i . Si
no se verifica, entonces no son validos ni los intervalos de
confianza para 0 y 1 ni el contraste de la regresion.
Para comprobar la normalidad graficamente utilizamos un
histograma o un diagrama de cajas y un grafico probabilstico
normal o un Q-Q plot de los residuos estandarizados.
ei
siendo
El residuo ei estandarizado se define como ei =
sR 1 hi


1
1
(xi x)2
hi =
1+
1
n
n
vx
una cantidad que mide el efecto palanca del punto (xi , yi ). Los
residuos estandarizados siguen aproximadamente una distribucion
N(0,1).
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

43

Ejemplo 3.1 (cont.): Histograma de los residuos estandarizados y


densidad N(0,1)

0.4

0.3

0.2

0.1

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

44

Ejemplo 3.2 (cont.): Histograma de los residuos estandarizados y


densidad N(0,1)

0.4

0.3

0.2

0.1

0.5

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

0.5

1.5

Tema 3: Regresi
on simple

2
45

Tambien podemos hacer un contraste (como el de


Kolmogorov-Smirnov) de la bondad de ajuste de los residuos
estandarizados a la distribuci
on gaussiana.
El problema para utilizar este tipo de contrastes es que los residuos
no son observaciones independientes, aunque si n es grande esto se
puede obviar.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

46

Transformaci
on de los datos
Cuando falla la hipotesis de linealidad y quiza tambien la de
homocedasticidad y/o normalidad, una soluci
on sencilla y muy
utilizada es transformar una o las dos variables X e Y .
El objetivo es que se verifiquen las hip
otesis del modelo de
regresion simple para la relaci
on entre las variables transformadas:
con Ui N(0, 2 ),

f (Yi ) = 0 + 1 xi + Ui ,
o bien
f (Yi ) = 0 + 1 g (xi ) + Ui ,

con Ui N(0, 2 ),

o bien
Yi = 0 + 1 g (xi ) + Ui ,

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

con Ui N(0, 2 ).

Tema 3: Regresi
on simple

47

Para decidir si transformamos X , Y o ambas variables, tendremos


en cuenta si solo falla la hip
otesis de linealidad o, por el contrario,
las residuos dejan de verificar alguna de las otras hipotesis.
Si solo falla la linealidad, conviene transformar s
olo X porque esto
no afecta a las propiedades de las perturbaciones. En cambio, si
los residuos muestran heterocedasticidad o no normalidad,
conviene transformar al menos Y para intentar resolver todos los
problemas simultaneamente.
A continuacion presentamos algunos ejemplos de relaciones no
lineales, pero linealizables.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

48

Transformaci
on logartmica:
Si Y ' Ke 1 X , entonces log Y = 0 + 1 X .
35

30

25

20

15

10

0.5

1.5

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

2.5

3.5

4.5

Tema 3: Regresi
on simple

49

Transformaci
on doble logartmica:
Si Y ' KX 1 entonces log(Y ) ' log K + 1 log X = 0 + 1 log X .
25

1.6

1.4
20
1.2
<1

15

0.8
10
0.6

0.4
1 > 1
0.2

0
0

0.5

1.5

2.5

3.5

4.5

1 > 0

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

0.2
0.5

1.5

2.5

3.5

4.5

1 < 0

Tema 3: Regresi
on simple

50

Transformaci
on inversa:
1
Si Y ' 0 + , entonces Y ' 0 + 1 X 1 .
X
7

12

0
11

10

0
0.5

1.5

2.5

3.5

4.5

1 < 0

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

5
0.5

1.5

2.5

3.5

4.5

1 > 0

Tema 3: Regresi
on simple

51

Si Y ' Ke X , con 1 > 0, entonces log Y = 0 + 1 X 1 .


4.5

4
K
3.5

2.5

1.5

0.5

0.5

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

10

12

14

16

18

Tema 3: Regresi
on simple

20

52

log(y)

log(y)

Ejemplo 3.2 (cont.):

2
3
4
0

2
3

20

40

60

80

100

120

4
0

140

0.6

0.8

log(x)

1.4
1.2

0.8

log(y)

1
1

0.6

0.4
3
0.2
4
0

0.2

0.4

0.6

0.8

1/x
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

0.2

0.4

1/x
Tema 3: Regresi
on simple

53

Ejemplo 3.2 (cont.):


Regresin de log(Y) frente a X

Regresion de log(Y) sobre log(X)


2

Residuo estandarizado

Residuos estandarizados

1
0
1
2

2
2

1.5

1
0.5
0
Valor previsto de log(Y)

0.5

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

2.5

1.5
1
0.5
Valor previsto de log(Y)

Tema 3: Regresi
on simple

54

Ejemplo 3.7: Peso del cerebro (en g) en funci


on del peso corporal
(en kg) para 62 especies de mamferos (Fuente: Allison &
Sacchetti 1976, Science)
6000

10
Elefante africano

4000

8
Log(Peso cerebro)

Peso cerebro (en g)

5000
Elefante asitico

3000
2000
Humano

6
4
2
0

1000
2
0
0

2000
4000
6000
Peso cuerpo (en kg)

8000

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

0
5
Log(Peso cuerpo)

Tema 3: Regresi
on simple

10

55

Ejemplo 3.8: Tasa de paro por sexo en 1999 para los pases de la
Union Europea.

Alemania
Austria
Belgica
Espa
na
Finlandia
Francia
Grecia
Pases Bajos

Mujeres
9.30
4.50
10.70
23.00
10.70
13.30
17.80
4.70

Hombres
8.30
3.30
7.80
11.20
9.80
9.60
7.50
2.30

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Irlanda
Italia
Luxemburgo
Portugal
Dinamarca
Reino Unido
Suecia

Mujeres
5.50
15.60
3.30
5.20
6.00
5.30
7.10

Tema 3: Regresi
on simple

Hombres
5.80
8.70
1.70
3.90
4.50
6.70
7.20

56

25

8
6

20
4

Residuo

Tasa de paro mujeres UE 1999

Ejemplo 3.8 (cont.): 1/Y = 0.2975 0.0236X

15

10
2
4

5
2

4
6
8
10
Tasa de paro hombres UE 1999

6
0

12

0.35

5
10
Valor previsto de Y

15

0.06

0.3

0.04

0.25

Residuo

1/(Tasa de paro mujeres UE 1999)

0.2
0.15

0.02
0
0.02

0.1

0.04
0.05

0.06
0

4
6
8
10
Tasa de paro hombres UE 1999

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

12

0.1
0.2
Valor previsto de 1/Y

Tema 3: Regresi
on simple

0.3
57

Interpretaci
on del coeficiente de regresi
on
En el modelo Y = 0 + 1 x + U el coeficiente 1 representa el
incremento que experimenta la respuesta Y cuando la variable
explicativa x aumenta en una unidad.
En el modelo log Y = 0 + 1 x + U el coeficiente 1 se interpreta
como el incremento relativo o porcentual que experimenta la
respuesta Y cuando la variable x aumenta en una unidad.
Si utilizamos el modelo Y = 0 + 1 log x + U, 1 representa el
incremento de la respuesta Y cuando x aumenta en un 1%.
En el modelo log Y = 0 + 1 log x + U, 1 es aproximadamente el
incremento relativo de y cuando x aumenta en un 1%. Este
modelo es frecuentemente empleado en el contexto economico,
donde a 1 se le denomina elasticidad.
Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Tema 3: Regresi
on simple

58

También podría gustarte