Modelo de Regresion Simple PDF

Tema 3.
Modelo de regresi
on simple
Estadstica (CC. Ambientales). Profesora: Amparo Ballo
Tema 3: Regresi
on simple
Introducci
on
Objetivo del modelo de regresi
on simple:
Explicar el comportamiento de una variable cuantitativa de interes
Y (consumo de gasolina de un coche hbrido, temperatura del
agua marina) como funci
on de otra variable cuantitativa X
observable (velocidad del vehculo en ciudad, profundidad a la que
se observa la temperatura del agua).
Y = variable respuesta, end
ogena o dependiente
X = regresor, predictor, variable explicativa, ex
ogena o
independiente
Estudiaremos principalmente el modelo de regresi
on lineal simple,
en el que se expresa Y como funci
on lineal de X .
Tema 3: Regresi
on simple
El modelo
Dise
no fijo y aleatorio
En el dise
no aleatorio tomamos una muestra (x1 , y1 ), . . . , (xn , yn )
de una poblacion (X , Y ) donde X es una variable aleatoria (los
valores observados de X no estan prefijados de antemano).
(X , Y ) =(Estatura en cm,Peso en kg) de un estudiante
universitario elegido al azar.
(X , Y ) =(Nivel de un cierto contaminante,Mortalidad) en una
ciudad elegida al azar.
En este caso el modelo de regresi
on establece una expresion para la
funcion de regresion E (Y |X = x).
Tema 3: Regresi
on simple
Ejemplo 3.1: Se desea estudiar la relaci

on entre la anchura X (en
mm.) y la longitud Y (en mm.) de la concha del Patelloida
pygmaea, una lapa pegada a las rocas a lo largo de las costas
protegidas en el area Indo-Pacfica. Se observan los datos:
X
0.9
1.5
1.6
1.7
1.7
1.8
1.8
Y
3.1
3.6
4.3
4.7
5.5
5.7
5.2
X
1.9
1.9
1.9
2.0
2.0
2.0
2.1
Y
5.0
5.3
5.7
4.4
5.2
5.3
5.4
X
2.1
2.1
2.1
2.2
2.2
2.2
2.2
Y
5.6
5.7
5.8
5.2
5.3
5.6
5.8
X
2.3
2.3
2.3
2.3
2.4
2.4
2.7
Tema 3: Regresi
on simple
Y
5.8
6.2
6.3
6.4
6.4
6.3
6.3
En el dise
no fijo prefijamos unos valores x1 , . . . , xn de la variable
X . Para cada xi tomamos una o varias observaciones de Y .
(X , Y ) =(profundidad en m. del agua marina,temperatura en o C
del agua a esa profundidad)
xi
yi
100
22
200
20
500
12
1000
6
1500
5
2000
4
El modelo de regresion en este caso establece una expresion para

E (Yi ), el valor esperado de Y cuando el valor prefijado de X es xi .
Si todos los xi estan a la misma distancia entre s se trata de un
dise
no fijo equiespaciado.
El tratamiento estadstico de ambos dise
nos es parecido, aunque la
notacion sea diferente. A menudo, por simplicidad, utilizaremos la
notacion del dise
no fijo aunque el dise
no del experimento sea
aleatorio.
Tema 3: Regresi
on simple
El modelo de regresi
on lineal simple
Dise
no fijo:
Yi = 0 + 1 xi + Ui
Dise
no aleatorio:
(Y |X = xi ) = 0 + 1 xi + Ui
donde 0 y 1 son respectivamente la ordenada en el origen y la

pendiente de la recta de regresi
on. Ui es un termino de
perturbacion o error experimental.
Interpretaci
on de los par
ametros de la regresi
on:
0 representa el valor medio de la respuesta Y cuando la variable
explicativa X vale 0.
1 representa la variaci
on que experimenta en media la respuesta
Y cuando la variable explicativa X aumenta en una unidad.
Tema 3: Regresi
on simple
Hip
otesis b
asicas del modelo:
a) E (Ui ) = 0, para cada i = 1, . . . , n.
b) Var(Ui ) = 2 , para cada i = 1, . . . , n.
c) E (Ui Uj ) = 0 , para todo i 6= j.
d) Ui Normal, para todo i.
Ademas en el dise
no aleatorio supondremos que X1 , . . . , Xn son
independientes.
Hip
otesis equivalentes para dise
no fijo:
Y1 , . . . , Yn son observaciones independientes, con
Yi N(0 + 1 xi , 2 ).
Hip
otesis equivalentes para dise
no aleatorio:
(X1 , Y1 ), . . . , (Xn , Yn ) son independientes, con
Y |X = xi N(0 + 1 xi , 2 ).
Tema 3: Regresi
on simple
Las hipotesis basicas se verifican mediante analisis de los residuos.

Sin embargo, como la hip
otesis de linealidad E (Yi ) = 0 + 1 xi es
fundamental, el primer paso siempre debe ser un analisis grafico de
los datos, por ejemplo, un diagrama de dispersi
on de y frente a x.
Ejemplo 3.1 (cont.):
Longitud de la concha
6.5
6
5.5
5
4.5
4
3.5
3
0.5
1.5
2
2.5
Anchura de la concha
Tema 3: Regresi
on simple
Ejemplo 3.2: En 1990 y 1991 se examinaron percas y muestras de

agua de 53 lagos de Florida para estudiar los factores ambientales
relacionados con la contaminaci
on por mercurio que exhiben dichos
peces. En las muestras se midi
o, por ej., la alcalinidad del agua
(mg/l de carbonato calcico). El diagrama de dispersion representa
los valores medios de alcalinidad frente a la concentracion media
de mercurio (pp. por millon) para los 53 lagos.
1.4
1.2
Alcalinidad
1
0.8
0.6
0.4
0.2
0
0
20
40
60
80
100
Nivel de mercurio
120
Tema 3: Regresi
on simple
140
9

Lago
Alligator
Annie
Apopka
Blue Cypress
Brick
Bryant
Cherry
Crescent
Deer Point
Dias
Dorr
Down
Eaton
East Tohopekaliga
Farm-13
George
Griffin
Harney
Hart
Hatchineha
Iamonia
Istokpoga
Jackson
Josephine
Kingsley
Kissimmee
Alcalinidad
5.9
3.5
116.0
39.4
2.5
19.6
5.2
71.4
26.4
4.8
6.6
16.5
25.4
7.1
128.0
83.7
108.5
61.3
6.4
31.0
7.5
17.3
12.6
7.0
10.5
30.0
Mercurio
1.23
1.33
0.04
0.44
1.20
0.27
0.48
0.19
0.83
0.81
0.71
0.50
0.49
1.16
0.05
0.15
0.19
0.77
1.08
0.98
0.63
0.56
0.41
0.73
0.34
0.59
Lago
Lochloosa
Louisa
Miccasukee
Minneola
Monroe
Newmans
Ocean Pond
Ocheese Pond
Okeechobee
Orange
Panasoffkee
Parker
Placid
Puzzle
Rodman
Rousseau
Sampson
Shipp
Talquin
Tarpon
Tohopekaliga
Trafford
Trout
Tsala Apopka
Weir
Wildcat
Yale
Tema 3: Regresi
on simple
Alcalinidad
55.4
3.9
5.5
6.3
67.0
28.8
5.8
4.5
119.1
25.4
106.5
53.0
8.5
87.6
114.0
97.5
11.8
66.5
16.0
5.0
25.6
81.5
1.2
34.0
15.5
17.3
71.8
Mercurio
0.34
0.84
0.50
0.34
0.28
0.34
0.87
0.56
0.17
0.18
0.19
0.04
0.49
1.10
0.16
0.10
0.48
0.21
0.86
0.52
0.65
0.27
0.94
0.40
0.43
0.25
0.27
10

0
0.2
0.4
0.6
0.8
1
3.2
3.4
3.6
3.8
Tema 3: Regresi
on simple
11
Estimaci
on de los par
ametros del modelo
Sea (x1 , y1 ), . . . , (xn , yn ) la muestra observada de (X , Y ).
Estimamos los parametros 0 y 1 de la recta de regresion
mediante el metodo de mnimos cuadrados. El objetivoPes
minimizar la suma de los residuos al cuadrado VNE = ni=1 ei2 ,
donde ei = yi yi e yi = 0 + 1 xi . Cada residuo ei es la
distancia en vertical entre el (xi , yi ) observado y (xi , yi ).
5
4
3
ei
2
1
(xi,yi)
0
1
1.5
0.5
0.5
x
Tema 3: Regresi
on simple
12
i=1
i=1
X
X
X
VNE
= 2
(yi 0 1 xi ) = 0
yi = n0 + 1
xi
0
VNE
= 2
1
n
X
xi (yi 0 1 xi ) = 0
i=1
covxy
xi yi = 0
n
X
xi + 1
n
X
i=1
i=1
donde
i=1
i=1
1X
1X
=
(xi x)(yi y ) =
xi yi xy
n
n
i=1
i=1
1X
1X 2 2
x
vx =
(xi
x )2 =
xi
n
n
Ademas
i=1
i=1
covxy
1 =
vx
Entonces
n
X
y = 0 + 1 x
1X
x =
xi
n
i=1
1X
y =
yi
n
i=1
0 = y 1 x
Tema 3: Regresi
on simple
13
xi2
6.5
6
5.5
5
4.5
4
3.5
3
0.5
1.5
2
2.5
Tema 3: Regresi
on simple
14
Otra expresion de la recta de regresi

on es el modelo en
desviaciones a la media
y y = 1 (x x).
Su utilizacion es recomendable cuando 0 no es interpretable.
El modelo en desviaciones a la media nos recuerda que la relacion

lineal entre X e Y se debe estudiar s
olo en un entorno de (
x , y ).
No debemos extrapolar las conclusiones extradas de la regresion
fuera del rango de las observaciones utilizadas para construir el
modelo.
Tema 3: Regresi
on simple
15
Los residuos ei , i = 1, . . . , n, tienen n 2 grados de libertad, pues

verifican las ecuaciones de restricci
on
n
n
X
X
ei = 0
ei xi = 0.
i=1
i=1
Definimos la varianza residual como

n
sR2
1 X 2
=
ei .
n2
i=1
Mide la variabilidad de los datos (xi , yi ), i = 1, . . . , n, respecto a la

recta de regresion estimada.
Observaci
on: Se verifica que
n
X
ei2 = n(vy 12 vx ),
i=1
siendo vy =
1
n
n
X
i=1
(yi y )2 =
1X 2
yi y 2 .
n
i=1
Tema 3: Regresi
on simple
16

-0.0577
-0.7555
-0.2551
-0.0548
0.7452
0.7456
0.2456
Residuos
-0.1540 0.0467
0.1460 0.1467
0.5460 0.2467
-0.9537 -0.5529
-0.1537 -0.4529
-0.0537 -0.1529
-0.1533 0.0471
-0.1525
0.2475
0.3475
0.4475
0.2478
0.1478
-0.4510
sR2 =
vy =
sR2 =
Tema 3: Regresi
on simple
17
Inferencia sobre los par

ametros del modelo
Propiedades de los estimadores de los par
ametros
Bajo la hipotesis de normalidad

1 1
q
tn2 IC1 (1 ) = 1 tn2,/2 sR
1
sR nvx

r 0 0
sR n1 1 +
x2
vx
1
nvx
tn2
IC1 (0 ) =
s
!
2
1
x
0 tn2,/2 sR
1+
n
vx
(n 2)sR2
2n2 IC1 ( 2 ) =
2
(n 2)sR2 (n 2)sR2
,
2n2,/2 2n2,1/2
Tema 3: Regresi
on simple
18
Tema 3: Regresi
on simple
19
El contraste de la regresi
on
H0 : 1 = 0 (no hay relaci
on lineal entre X e Y )
H1 : 1 6= 0
A nivel de significacion la regi
on de rechazo de este contraste es
r

1
R = |1 | > tn2,/2 sR
= {0
/ IC1 (1 )}.
nvx
Tema 3: Regresi
on simple
20
Planteemos este mismo contraste desde un punto de vista que

relaciona la regresion y analisis de la varianza.
La variabilidad total de Y viene dada por
n
X
VT =
(yi y )2 = n vy = VE + VNE,
i=1
donde VE y VNE son independientes,

VE =
n
X
(
yi y )2 = 12 nvx
i=1
denota la variabilidad explicada por el modelo de regresion lineal y

VNE =
n
X
ei2
i=1
denota la variabilidad residual.

Tema 3: Regresi
on simple
21
Tabla ADEVA para regresi

on lineal simple:
FV
Explicada por
regresor
Residual
Total
SC
gl
Varianzas
VE
VE
VNE
VT
n2
n1
sR2
F
F =
VE
sR2
Si H0 : 1 = 0 es cierta tenemos que

F =
VE
F1,n2
sR2
Por tanto, la region de rechazo de H0 : 1 = 0 a nivel de

significacion es
R = {F > F1,n2, }.
Observaci
on: Esta regi
on de rechazo y la de la pagina 20 son
equivalentes.
Tema 3: Regresi
on simple
22

3.1577
4.3555
4.5551
4.7548
4.7548
4.9544
4.9544
Valores previstos
5.1540 5.5533 5.9525
5.1540 5.5533 5.9525
5.1540 5.5533 5.9525
5.3537 5.7529 5.9525
5.3537 5.7529 6.1522
5.3537 5.7529 6.1522
5.5533 5.7529 6.7510
Tema 3: Regresi
on simple
23
Observaci
on: Contrastar H0 : 1 = 0 frente a H1 : 1 6= 0
significa que, aceptando que existe una relaci
on lineal entre X e Y ,
analizamos si una recta horizontal (1 = 0) representa mejor los
datos que otra de pendiente no nula (1 6= 0). Pero aceptar H0 no
significa que no exista ning
un tipo de relaci
on funcional entre X e
Y , ni que estas sean independientes.
Ejemplo 3.4:
Y = X2 + U,
IC0.90(1)=(0.10,0.29)
0.5
0.5
1
0.5
0
x
0.5
Tema 3: Regresi
on simple
24
Los coeficientes de correlaci

on y determinaci
on
Para evaluar el grado de ajuste de una recta de regresion podemos
utilizar el coeficiente de determinaci
on
Pn

(
yi y )2
covxy 2
VE
12 vx
R2 =
= Pi=1
=
=
= (rxy )2 ,
n
2
VT
(y
)
v
v
v
y
x y
i=1 i
siendo
covxy
.
rxy =
vx vy
el coeficiente de correlaci
on lineal de Pearson entre x e y .
Si la relacion entre x e y es marcadamente lineal, entonces R 2 y
|rxy | seran muy proximos a 1. Si no existe relaci
on lineal entre las
variables entonces R 2 y rxy seran pr
oximos a cero.
Tema 3: Regresi
on simple
25
Coeficiente de determinaci
determinacin R2
Tema 3: Regresi
on simple
26
47
Observemos tambien que

R2 = 1
(n 2)sR2
VNE
=1
.
VT
nvy
La ventaja del coeficiente de determinaci

on frente al coeficiente de
correlacion es que la definici
on de R 2 es perfectamente
generalizable a cualquier modelo lineal. Esto es muy u
til en el
contexto de regresion m
ultiple (Tema 4).
Tema 3: Regresi
on simple
27
Estimaci
on y predicci
on
Un modelo de regresion sirve para estimar E (Y |X = x0 ) y para
predecir futuros valores de Y para un valor x0 de X .
Los problemas de estimaci
on y predicci
on son distintos, aunque las
expresiones matematicas que aparecen en su resolucion son casi
iguales. En el primero intentamos obtener un estimador de
E (Y |X = x0 ) = 0 + 1 x0 , que es un n
umero fijo aunque
desconocido.
En el problema de predicci
on de Y0 = Y |X = x0 estamos
interesados en conocer, para un valor x0 fijo de X , el valor
correspondiente de Y . Y |X = x0 es una variable aleatoria.
Al final estimaremos E (Y |X = x0 ) y predeciremos
Y0 = Y |X = x0 mediante el mismo valor, y = 0 + 1 x0 , pero el
error de estimacion y el de predicci
on son distintos.
Tema 3: Regresi
on simple
28
Estimaci
on de la media condicionada
Queremos estimar E (Y0 ) = E (Y |X = x0 ) = 0 + 1 x0 , el valor
promedio de la respuesta cuando X = x0 .
Un estimador razonable es
y0 = 0 + 1 x0 = y + 1 (x0 x).
Se trata de un estimador centrado: E (
y0 ) = E (Y |X = x0 ).
Ademas
IC1 (E (Y0 )) = y0 tn2,/2 sR
x)2
1 (x0
+
n
n vx
Tema 3: Regresi
on simple
29
Ejemplo 3.1 (cont.): Estimar la longitud esperada de la concha

de Patelloida pygmaea cuando la anchura es de 1.4 mm. Calcular
un intervalo de confianza al 90% para la estimaci
on.
Estimar la longitud esperada de la concha de Patelloida pygmaea

cuando la anchura es de 2.0 mm. Calcular un intervalo de
confianza al 90% para la estimaci
on.
Tema 3: Regresi
on simple
30

Banda de confianza al 90% para E(Y|X=x0)
7
6
5
4
3
Interpolacin
2
0.5 min xi 1
1.5
2
2.5 max x 3
i
Tema 3: Regresi
on simple
31
Predicci
on de la respuesta
En el problema de predicci
on deseamos prever Y0 = (Y |X = x0 ),
la respuesta cuando la variable independiente es igual a x0 .
Si conocieramos E (Y |X = x0 ) podramos utilizar esta esperanza
como prediccion de Y0 = (Y |X = x0 ). Entonces ya tenemos una
primera fuente de error debido a la propia variabilidad de
Y |X = x0 en torno a su media.
Ademas, como E (Y |X = x0 ) es desconocida, la estimamos
mediante y0 = 0 + 1 x0 : segunda fuente de error en la prediccion.
Por tanto, finalmente predecimos Y |X = x0 mediante y0 .
Un intervalo de confianza para la predicci
on de Y |X = x0 es
s
2
1 (x0 x)
IC1 (Y0 ) = y0 tn2,/2 sR 1 + +
.
n
n vx
Tema 3: Regresi
on simple
32
Ejemplo 3.1 (cont.): Predecir la longitud de la concha de

Patelloida pygmaea cuando la anchura es de 1.4 mm. Calcular un
intervalo de confianza al 90% para la predicci
on.
Predecir la longitud de la concha de Patelloida pygmaea cuando la

anchura es de 2.0 mm. Calcular un intervalo de confianza al 90%
para la prediccion.
Tema 3: Regresi
on simple
33

Bandas de confianza al 90% para E(Y|X=x0) y para Y|X=x0
7
6
5
4
3
2
0.5
1.5
2
2.5
Tema 3: Regresi
on simple
34
Diagnosis del modelo

Verificamos las hipotesis basicas del modelo mediante an
alisis de
los residuos.
Ejemplo 3.5 (Anscombe 1973): Cuatro conjuntos de datos
1
x
10
8
13
9
11
14
6
4
12
7
5
y
8.04
6.95
7.58
8.81
8.33
9.96
7.24
4.26
10.84
4.82
5.68
2
x
10
8
13
9
11
14
6
4
12
7
5
y
9.14
8.14
8.74
8.77
9.26
8.10
6.13
3.10
9.13
7.26
4.74
3
x
10
8
13
9
11
14
6
4
12
7
5
y
7.46
6.77
12.74
7.11
7.81
8.84
6.08
5.39
8.15
6.42
5.73
Tema 3: Regresi
on simple
4
x
8
8
8
8
8
8
8
19
8
8
8
y
6.58
5.76
7.71
8.84
8.47
7.04
5.25
12.50
5.56
7.91
6.89
35
2.0
0.0
Residuo
Residuo
La recta de regresion lineal de Y sobre X es en los cuatro casos

y = 3 + 0.5x. Tambien son iguales la VE, la VNE, sR2 = 1.52, el
estadstico t del contraste H0 : 1 = 0 y la correlacion. Parece que
las cuatro situaciones son identicas. Pero al estudiar el grafico de
los residuos ei frente a los valores previstos yi
-2
4
10
-2.0
11
CONJUNTO 1 DE DATOS
-4
4
Prediccion
Prediccion
Residuo
Residuo
Prediccion
10
11
CONJUNTO 3 DE DATOS
10
11
12
13
CONJUNTO 2 DE DATOS
-2
6
Prediccion
10
11
CONJUNTO 4 DE DATOS
Tema 3: Regresi
on simple
36
Hip
otesis de linealidad: E (Yi ) = 0 + 1 xi
Establece que, en el rango de valores observados, el valor esperado
de la respuesta Y es una funci
on lineal de la variable independiente
X . Solo tiene sentido contrastar la hip
otesis en dicho rango.
Comprobaremos la linealidad mediante el grafico de dispersion de
Y frente a X y mediante el grafico de los residuos ei frente a los
valores previstos yi .
Ejemplo 3.6:
3.0
.3
.2
2.5
.1
.0
2.0
-.1
1.5
-.2
-.3
Residuos
1.0
.5
0.0
.2
.4
.6
.8
1.0
-.4
-.5
1.0
1.5
2.0
2.5
3.0
3.5
Predicci n
Tema 3: Regresi
on simple
37
Residuo
0.5
0.5
1
3
5
6
Valor previsto de Y
Tema 3: Regresi
on simple
38
Ejemplo 3.2 (cont.): Regresi

on de Y = Nivel de contaminacion
por mercurio de un pez del lago sobre X = Alcalinidad del lago
Residuo
0.5
0.5
0
0.2
0.4
0.6
Valor previsto de Y
Tema 3: Regresi
on simple
0.8
39
Si no se verifica la hip
otesis de linealidad entonces estaremos
utilizando un modelo inadecuado para describir el valor esperado
de Y en funcion de X . Esto conduce a malas predicciones.
Concentracin de mercurio
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0
20
40
60
80 100
Alcalinidad
120
140
Una solucion habitual a la ausencia de linealidad es transformar la

variable X mediante una funci
on g y/o la variable Y mediante una
funcion f de manera que entre g (X ) y f (Y ) s sea razonable
suponer una relacion lineal.
Tema 3: Regresi
on simple
40
Hip
otesis de homocedasticidad: Var(Ui ) = 2 para todo i
Si esta hipotesis no se verifica entonces los intervalos de confianza
para 0 y 1 son incorrectos, pues las varianzas de 0 y 1 no
estan bien estimadas.
Para estudiar la posible heterocedasticidad de los datos es u
til
representar los residuos ei frente a las predicciones yi o frente a xi .
As vemos si la variabilidad de los residuos crece o decrece con los
valores de X .
Ademas, si concluimos que las observaciones son heterocedasticas,
el grafico nos sugiere que pauta de variaci
on siguen y alguna
posible transformacion de las variables X e Y que linealice la
relacion.
Tema 3: Regresi
on simple
41
RESIDUOS VALORES PRONOSTICADOS

se cumplen las hip
hiptesis del modelo?
Tema 3: Regresi
on simple
42
Hip
otesis de normalidad: Ui Normal para todo i
Esta hipotesis es necesaria para calcular las distribuciones de i . Si
no se verifica, entonces no son validos ni los intervalos de
confianza para 0 y 1 ni el contraste de la regresion.
Para comprobar la normalidad graficamente utilizamos un
histograma o un diagrama de cajas y un grafico probabilstico
normal o un Q-Q plot de los residuos estandarizados.
ei
siendo
El residuo ei estandarizado se define como ei =
sR 1 hi

1
1
(xi x)2
hi =
1+
1
n
n
vx
una cantidad que mide el efecto palanca del punto (xi , yi ). Los
residuos estandarizados siguen aproximadamente una distribucion
N(0,1).
Tema 3: Regresi
on simple
43
Ejemplo 3.1 (cont.): Histograma de los residuos estandarizados y

densidad N(0,1)
0.4
0.3
0.2
0.1
Tema 3: Regresi
on simple
44
Ejemplo 3.2 (cont.): Histograma de los residuos estandarizados y

densidad N(0,1)
0.4
0.3
0.2
0.1
0.5
0.5
1.5
Tema 3: Regresi
on simple
2
45
Tambien podemos hacer un contraste (como el de

Kolmogorov-Smirnov) de la bondad de ajuste de los residuos
estandarizados a la distribuci
on gaussiana.
El problema para utilizar este tipo de contrastes es que los residuos
no son observaciones independientes, aunque si n es grande esto se
puede obviar.
Tema 3: Regresi
on simple
46
Transformaci
on de los datos
Cuando falla la hipotesis de linealidad y quiza tambien la de
homocedasticidad y/o normalidad, una soluci
on sencilla y muy
utilizada es transformar una o las dos variables X e Y .
El objetivo es que se verifiquen las hip
otesis del modelo de
regresion simple para la relaci
on entre las variables transformadas:
con Ui N(0, 2 ),
f (Yi ) = 0 + 1 xi + Ui ,
o bien
f (Yi ) = 0 + 1 g (xi ) + Ui ,
con Ui N(0, 2 ),
o bien
Yi = 0 + 1 g (xi ) + Ui ,
con Ui N(0, 2 ).
Tema 3: Regresi
on simple
47
Para decidir si transformamos X , Y o ambas variables, tendremos

en cuenta si solo falla la hip
otesis de linealidad o, por el contrario,
las residuos dejan de verificar alguna de las otras hipotesis.
Si solo falla la linealidad, conviene transformar s
olo X porque esto
no afecta a las propiedades de las perturbaciones. En cambio, si
los residuos muestran heterocedasticidad o no normalidad,
conviene transformar al menos Y para intentar resolver todos los
problemas simultaneamente.
A continuacion presentamos algunos ejemplos de relaciones no
lineales, pero linealizables.
Tema 3: Regresi
on simple
48
Transformaci
on logartmica:
Si Y ' Ke 1 X , entonces log Y = 0 + 1 X .
35
30
25
20
15
10
0.5
1.5
2.5
3.5
4.5
Tema 3: Regresi
on simple
49
Transformaci
on doble logartmica:
Si Y ' KX 1 entonces log(Y ) ' log K + 1 log X = 0 + 1 log X .
25
1.6
1.4
20
1.2
<1
15
0.8
10
0.6
0.4
1 > 1
0.2
0
0
0.5
1.5
2.5
3.5
4.5
1 > 0
0.2
0.5
1.5
2.5
3.5
4.5
1 < 0
Tema 3: Regresi
on simple
50
Transformaci
on inversa:
1
Si Y ' 0 + , entonces Y ' 0 + 1 X 1 .
X
7
12
0
11
10
0
0.5
1.5
2.5
3.5
4.5
1 < 0
5
0.5
1.5
2.5
3.5
4.5
1 > 0
Tema 3: Regresi
on simple
51
Si Y ' Ke X , con 1 > 0, entonces log Y = 0 + 1 X 1 .

4.5
4
K
3.5
2.5
1.5
0.5
0.5
10
12
14
16
18
Tema 3: Regresi
on simple
20
52
log(y)
log(y)
2
3
4
0
2
3
20
40
60
80
100
120
4
0
140
0.6
0.8
log(x)
1.4
1.2
0.8
log(y)
1
1
0.6
0.4
3
0.2
4
0
0.2
0.4
0.6
0.8
1/x
0.2
0.4
1/x
Tema 3: Regresi
on simple
53

Regresin de log(Y) frente a X
Regresion de log(Y) sobre log(X)

2
Residuo estandarizado
Residuos estandarizados
1
0
1
2
2
2
1.5
1
0.5
0
Valor previsto de log(Y)
0.5
2.5
1.5
1
0.5
Valor previsto de log(Y)
Tema 3: Regresi
on simple
54
Ejemplo 3.7: Peso del cerebro (en g) en funci

on del peso corporal
(en kg) para 62 especies de mamferos (Fuente: Allison &
Sacchetti 1976, Science)
6000
10
Elefante africano
4000
8
Log(Peso cerebro)
Peso cerebro (en g)
5000
Elefante asitico
3000
2000
Humano
6
4
2
0
1000
2
0
0
2000
4000
6000
Peso cuerpo (en kg)
8000
0
5
Log(Peso cuerpo)
Tema 3: Regresi
on simple
10
55
Ejemplo 3.8: Tasa de paro por sexo en 1999 para los pases de la
Union Europea.
Alemania
Austria
Belgica
Espa
na
Finlandia
Francia
Grecia
Pases Bajos
Mujeres
9.30
4.50
10.70
23.00
10.70
13.30
17.80
4.70
Hombres
8.30
3.30
7.80
11.20
9.80
9.60
7.50
2.30
Irlanda
Italia
Luxemburgo
Portugal
Dinamarca
Reino Unido
Suecia
Mujeres
5.50
15.60
3.30
5.20
6.00
5.30
7.10
Tema 3: Regresi
on simple
Hombres
5.80
8.70
1.70
3.90
4.50
6.70
7.20
56
25
8
6
20
4
Residuo
Tasa de paro mujeres UE 1999
Ejemplo 3.8 (cont.): 1/Y = 0.2975 0.0236X
15
10
2
4
5
2
4
6
8
10
Tasa de paro hombres UE 1999
6
0
12
0.35
5
10
Valor previsto de Y
15
0.06
0.3
0.04
0.25
Residuo
1/(Tasa de paro mujeres UE 1999)
0.2
0.15
0.02
0
0.02
0.1
0.04
0.05
0.06
0
4
6
8
10
Tasa de paro hombres UE 1999
12
0.1
0.2
Valor previsto de 1/Y
Tema 3: Regresi
on simple
0.3
57
Interpretaci
on del coeficiente de regresi
on
En el modelo Y = 0 + 1 x + U el coeficiente 1 representa el
incremento que experimenta la respuesta Y cuando la variable
explicativa x aumenta en una unidad.
En el modelo log Y = 0 + 1 x + U el coeficiente 1 se interpreta
como el incremento relativo o porcentual que experimenta la
respuesta Y cuando la variable x aumenta en una unidad.
Si utilizamos el modelo Y = 0 + 1 log x + U, 1 representa el
incremento de la respuesta Y cuando x aumenta en un 1%.
En el modelo log Y = 0 + 1 log x + U, 1 es aproximadamente el
incremento relativo de y cuando x aumenta en un 1%. Este
modelo es frecuentemente empleado en el contexto economico,
donde a 1 se le denomina elasticidad.
Tema 3: Regresi
on simple
58

Modelo de Regresion Simple PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modelo de Regresion Simple PDF

Cargado por

Copyright:

Formatos disponibles

Tema 3.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Ejemplo 3.1: Se desea estudiar la relaci

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

El modelo de regresion en este caso establece una expresion para

donde 0 y 1 son respectivamente la ordenada en el origen y la

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Las hipotesis basicas se verifican mediante analisis de los residuos.

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Ejemplo 3.2: En 1990 y 1991 se examinaron percas y muestras de

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Ejemplo 3.2 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Ejemplo 3.3 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Ejemplo 3.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Otra expresion de la recta de regresi

El modelo en desviaciones a la media nos recuerda que la relacion

Los residuos ei , i = 1, . . . , n, tienen n 2 grados de libertad, pues

Definimos la varianza residual como

Mide la variabilidad de los datos (xi , yi ), i = 1, . . . , n, respecto a la

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Ejemplo 3.1 (cont.):

Inferencia sobre los par

Ejemplo 3.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Ejemplo 3.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Planteemos este mismo contraste desde un punto de vista que

donde VE y VNE son independientes,

denota la variabilidad explicada por el modelo de regresion lineal y

denota la variabilidad residual.

Tabla ADEVA para regresi

Si H0 : 1 = 0 es cierta tenemos que

Por tanto, la region de rechazo de H0 : 1 = 0 a nivel de

Ejemplo 3.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Los coeficientes de correlaci

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Ejemplo 3.1 (cont.):

Observemos tambien que

La ventaja del coeficiente de determinaci

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

IC1 (E (Y0 )) = y0 tn2,/2 sR

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Ejemplo 3.1 (cont.): Estimar la longitud esperada de la concha

Estimar la longitud esperada de la concha de Patelloida pygmaea

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Ejemplo 3.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Ejemplo 3.1 (cont.): Predecir la longitud de la concha de

Predecir la longitud de la concha de Patelloida pygmaea cuando la

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Ejemplo 3.1 (cont.):

Estadstica (CC. Ambientales). Profesora: Amparo Ballo

Diagnosis del modelo