Está en la página 1de 68

TEMA 3

Modelo de regresion simple


Jose R. Berrendero
Departamento de Matem
aticas
Universidad Aut
onoma de Madrid

Analisis de Datos - Grado en Biologa

Estructura de este tema

Planteamiento del problema. Ejemplos.


El modelo de regresion lineal simple.
Recta de regresion de mnimos cuadrados.
Estimacion, IC y contrastes para los parametros del modelo.
Analisis de la varianza en el modelo de regresi
on lineal simple.
Prediccion.
Algunos modelos linealizables.
Diagnostico del modelo.

Ejemplo: temperatura y vibracion de las alas

Los grillos son ectotermos, por lo que sus


procesos fisiologicos y su metabolismo
estan influidos por la temperatura. Con
el fin de estudiar estas cuestiones se ha
medido el n
umero de vibraciones por segundo de las alas de un grupo de grillos
a varias temperaturas.

Vibraciones/seg.
20.0
16.0
19.8
18.4
17.1
15.5
14.7
17.1
15.4
16.2
15.0
17.2
16.0
17.0
14.1

Temp.
88.6
71.6
93.3
84.3
80.6
75.2
69.7
82.0
69.4
83.3
78.6
82.6
80.6
83.5
76.3

Ejemplo: Temperatura y vibracion de las alas

Consideramos dos variables (fichero grillos.sav):


X : Temperatura
Y : N
umero de vibraciones de las alas por segundo
Que podemos decir sobre la relaci
on entre las dos variables?
Podemos afirmar (con un nivel de significaci
on dado) que al aumentar la
temperatura, aumenta la frecuencia de vibraci
on?
Podemos predecir aproximadamente el valor de la variable Y si sabemos
el valor de X ? Que grado de fiabilidad tiene la prediccion?

Ejemplo: renta y fracaso escolar en la CAM


Ejemplo

30

35

Arganda

25

20

15

10

% fracaso escolar

10

12

14

16

18

Renta (en miles de euros)

Torrelodones

20

22

Covarianza
Se dispone de un conjunto de n pares de observaciones
(x1 , y1 ), . . . , (xn , yn ).

La covarianza entre x e y sirve para cuantificar el grado de relacion lineal


que hay entre x e y :
!
n
n
1 X
1X
(xi x)(yi y ) =
xi yi n
x y
covxy =
n
n
i=1

i=1

Propiedades:
covxy = covyx .
covxy depende de las unidades en que se miden x e y .
covxx = vx , es decir, la covarianza de x con x es la varianza de x.

Interpretacion de la covarianza

y
0

0
Covarianza aprox. cero

0
Covarianza negativa

Covarianza positiva

0
Covarianza aprox. cero

Coeficiente de correlacion
Resulta conveniente disponer de una medida de relaci
on lineal que no
dependa de las unidades. Para ello, se normaliza covxy dividiendo por el
producto de desviaciones tpicas, lo que lleva al coeficiente de
correlaci
on:
covxy
rxy = .
vx vy
Propiedades:
No depende de las unidades
Siempre toma valores entre -1 y 1.
Su signo se interpreta igual que el de la covarianza
Solo vale 1 o -1 cuando los puntos estan perfectamente alineados.
Aunque rxy 0, las variables x e y no son necesariamente
independientes.

Desviacin
tpica
1,7319

Media
Vibraciones
16,633
Estadsticos descriptivos
Temperatura
79,973

N
15

Correlaciones

Vibraciones

Media
16,633

Desviacin
Vibraciones
1
tpicaCorrelacin de PearsonN
Sig. (bilateral)
N
1,7319
15 15

Vibraciones

Temperatura

Temperatura

79,973

Correlacin de Pearson
Sig. (bilateral)
6,7170
N

Correlaciones

15

6,7170

Vibraciones

Correlacin de Pearson

Temperatura
,836

Sig. (bilateral)

,000

Temperatura
15

,836

15

,000
15

Correlaciones
19,0

Correlacin de Pearson

15

,836

Sig. (bilateral)

,000
15

Temperatura

20,0

Vibraciones Temperatura
1
,836
19,0

18,0

,000
15

17,0

Correlacin de Pearson
Sig. (bilateral)
N

18,0

,836

16,0

Vibraciones

Vibraciones

Sig. (bilateral)

,000
15

15,0

15
1

17,0

15
16,0

14,0
65,0

20,0

70,0

75,0

80,0

Temperatura

85,0

15,0

,000

Correlacin de Pearson

20,0

Vibraciones

Temperatura
,836

15

15

Vibraciones
1

90,0

95,0

15

Problema de regresion

Observamos dos variables, X e Y , el objetivo es analizar la relacion


existente entre ambas de forma que podamos predecir o aproximar el valor
de la variable Y a partir del valor de la variable X .
La variable Y se llama variable respuesta
La variable X se llama variable regresora o explicativa
En un problema de regresi
on (a diferencia de cuando calculamos el
coeficiente de correlacion) el papel de las dos variables no es simetrico.

Recta de regresion
Frecuentemente, existe entre las variables una relaci
on aproximadamente
lineal:
Yi 0 + 1 xi .

La recta y = 0 + 1 x es una recta de regresi


on.
El parametro 1 es la pendiente de la recta. Indica la variacion
media de la variable respuesta cuando X aumenta una unidad.
El parametro 0 es el t
ermino independiente de la recta. Indica el
valor medio de Y cuando X = 0.
Objetivo: estimar los parametros 0 y 1 a partir de los datos (xi , Yi ),
i = 1, . . . , n.

11

Datos con 0 3, 1 0.5 y r 0.8

12

10

y3

y1

10

10

12

14

x1

14

10
y4

7
5

y2

12

10

12

x3

10
x2

12

14

10

12

14
x4

16

18

El modelo de regresion lineal simple

Para poder hacer inferencia (IC y contrastes) sobre los parametros,


suponemos que se verifica el siguiente modelo:
Para todas las observaciones i = 1, . . . , n
Yi = 0 + 1 xi + ui ,
donde:
El valor medio de los errores ui es cero.
Todos los errores ui tienen la misma varianza 2 (homocedasticidad).
Las variables ui tienen distribuci
on normal.
Las variables ui son independientes.

58

STATISTICAL INFERENCE

Figure 3.4 Joint density functions (shown symbolically) of the bivariate normal distributions of the form
(3.9) with varying m.

where f x; m is the normal density function of N m; 1. Figure 3.4 shows symboli-

30

En que situaciones se verifica el modelo?

20

y3

y1

10

10

y4

y2

15

20

25

10

2
x2

4
x

La recta de mnimos cuadrados


Si estimamos 0 y 1 mediante 0 y 1 , la predicci
on de la variable
respuesta Yi en funcion de la regresora xi es:
Yi = 0 + 1 xi
Unos buenos estimadores deben ser tales que los errores de prediccion
ei = Yi Yi = Yi (0 + 1 xi )
sean peque
nos.
La recta de regresi
on de mnimos cuadrados viene dada por los valores
0 y 1 para los que se minimiza:
n
X
i=1

[Yi (0 + 1 xi )]2

0
x

0
x

Estimadores de mnimos cuadrados


Pendiente:

vy
Sy
covxy

=r =r .
1 =
vx
vx
Sx

T
ermino independiente:
0 = Y 1 x

Al igual que en los modelos de los temas anteriores:


A las predicciones Yi = 0 + 1 xi se les llama valores ajustados o
pronosticados.
A los errores ei = Yi Yi se les llama residuos.

Ejemplo: temperatura y vibracion de las alas


Estimadores de los par
ametros:
Sy
1.73
= 0.84
= 0.2155
1 = rxy
Sx
6.72
0 = Y 1 x = 16.633 0.2155 79.973 = 0.615
Recta de regresi
on:
y = 0.615 + 0.2155x
Predicci
on de Y0 para x0 = 80:
Y0 = 0.615 + 0.2155 80 = 16.625

Diagrama de dispersion y recta estimada


20,0

19,0

Vibraciones

18,0

17,0

16,0

15,0
R2 Lineal = 0,7

14,0
65,0

70,0

75,0

80,0

Temperatura

85,0

90,0

95,0

Observaciones

La recta de mnimos cuadrados pasa por el punto cuyas coordenadas


son las medias: (
x , Y ).
Si la variable regresora se incrementa en una desviacion tpica
x = Sx , entonces la predicci
on de la variable respuesta se
incrementa en r desviaciones tpicas: Y = rSy
Puede demostrarse que la suma de los residuos siempre vale cero.
La recta para predecir Y en funci
on de X no es la misma que la recta
para predecir X en funci
on de Y .

La varianza residual

La varianza residual es un estimador insesgado de 2 :


Pn
Pn
Pn
e2
(Yi Yi )2
(Yi 0 1 xi )2
SR2 = i=1 i = i=1
= i=1
.
n2
n2
n2
Se pierden dos grados de libertad puesto que los residuos verifican dos
restricciones:
La media de los residuos es igual a cero.
La covarianza entre los residuos y la variable regresora es tambien
igual a cero.

Una simulacion

Supongamos que = 1, 0 = 0 y 1 = 1.
Entonces el modelo es
Yi = xi + ui ,
donde los errores ui tienen distribuci
on normal estandar y son
independientes.
Fijamos xi = 1, 2, . . . , 10 (n = 10) y generamos las respuestas
correspondientes de acuerdo con este modelo.
Posteriormente calculamos la recta de mnimos cuadrados y la
representamos junto con la verdadera recta y = x.

10

Repetimos 6 veces el experimento

10

10

10

10

10

10

10

6
x

10

6
x

10

6
x

10

10

Repetimos 6 veces el experimento

10

10

10

beta1=
1.11

10

beta1=
0.84

10

10

beta1=
0.9

10

6
beta1=
0.95

10

6
beta1=
1.01

10

6
beta1=
0.99

10

Repetimos 1000 veces el experimento

100

250

Los estimadores son


centrados y tienen
distribucion normal.

Existen formulas del


error tpico de 0 y
1 que miden su
variabilidad.

50

150

0.6

0.8

1.0

1.2

1.4

Estas f
ormulas son
las que se utilizan
para calcular IC y
llevar a cabo
contrastes en lo que
sigue.

Error tpico del estimador de la pendiente

SR
error tpico de 1 = pPn
= SR
)2
i=1 (xi x

1
nvx

Al aumentar nvx , el error tpico de la pendiente disminuye (es decir, la


estimacion de la pendiente es mas precisa).
Conviene dise
nar el experimento de forma que los valores xi tengan la
mayor dispersion posible.

Error tpico del estimador del termino independiente

s
error tpico de 0 = SR

1
x2
+
n nvx

Si x2 es grande, se estima con menos precisi


on el termino
independiente.

Intervalos de confianza
Los intervalos de confianza de nivel 1 para los parametros i (i = 0, 1)
tienen la estructura habitual:
h
i
IC1 (i ) i tn2,/2 error tpico de i
En comparacion con los intervalos de confianza para la media:
Los grados de libertad son n 2 en lugar de n 1.
La formula del error tpico es mas complicada.
El intervalo de confianza para 2 tambien tiene la estructura que ya hemos
visto en los modelos de los temas anteriores:
#
"
2 (n 2)S 2
(n

2)S
R
R
IC1 ( 2 )
,
2n2;/2 2n2;1/2

Ejemplo: temperatura y vibracion de las alas

Para los datos del ejemplo se ha calculado SR2 = 0.97.


Calcula los errores tpicos de los estimadores de la pendiente y del
termino independiente.
Calcula un intervalo de confianza de nivel 95% para 1 .
Calcula un intervalo de confianza de nivel 95% para 0 .

Contrastes para los parametros

Contraste bilateral:
Hip
otesis: H0 : i = 0 frente a H1 : i 6= 0
Regi
on crtica:
(
)
|i |
R=
> tn2,/2 .
error tpico de i
Contrastes unilaterales:
Hip
otesis: H0 : i 0 frente a H1 : i > 0
Regi
on crtica:
(
)
i
R=
> tn2, .
error tpico de i
Hip
otesis: H0 : i 0 frente a H1 : i < 0
Regi
on crtica:
(
)
i
R=
< tn2, .
error tpico de i

Ejemplo: temperatura y vibracion de las alas

Aportan los datos evidencia para afirmar ( = 0.01) que la


temperatura tiene una influencia significativa sobre la frecuencia de
vibracion de las alas?
Podemos afirmar a nivel = 0.01 que al aumentar la temperatura
aumenta la frecuencia media de vibraci
on de las alas?
Escribe la region crtica para contrastar H0 : 1 = 1 frente a
H1 : 1 6= 1.

Con SPSS: temperatura y vibraciones


Resumen del modelo
R
,836 a

Modelo
1

R cuadrado
corregida
,677

R cuadrado
,700

Error tp. de la
estimacin
,9849

a. Variables predictoras: (Constante), Temperatura


ANOVAb

Modelo
1
Regresin

Suma de
cuadrados
29,383

Media
cuadrtica
29,383
,970

gl

Residual

12,611

13

Total

41,993

14

F
30,290

Sig.
,000 a

a. Variables predictoras: (Constante), Temperatura


b. Variable dependiente: Vibraciones
Coeficientesa

Coeficientes no estandarizados
Modelo
1
(Constante)
Temperatura

B
-,615

Error tp.
3,144

,216

,039

a. Variable dependiente: Vibraciones

Coeficientes
tipificados
Beta
,836

t
-,196

Sig.
,848

5,504

,000

Con SPSS: renta y fracaso escolar


&[PageTitle]
Resumen del modelob
R cuadrado
corregida
Modelo
R
R cuadrado
a
1
,742
,550
,528
a. Variables predictoras: (Constante), Renta
b. Variable dependiente: Fracaso

Error tp. de la
estimacin
4,7566

ANOVAb
Suma de
cuadrados
gl
Regresin
580,516
1
Residual
475,133
21
Total
1055,649
22
a. Variables predictoras: (Constante), Renta
b. Variable dependiente: Fracaso

Modelo
1

Media
cuadrtica
580,516
22,625

F
25,658

Sig.
,000a

t
10,562
-5,065

Sig.
,000
,000

Coeficientesa

Coeficientes no
estandarizados
Modelo
B
Error tp.
1
(Constante)
38,494
3,645
Renta
-1,347
,266
a. Variable dependiente: Fracaso

Coeficientes
estandarizad
os
Beta
-,742

Cuestiones
Escribe la ecuacion de la recta de mnimos cuadrados que describe el
nivel de fracaso escolar como funci
on de la renta.
Calcula intervalos de confianza de nivel 95% para la pendiente y el
termino independiente de la recta de regresi
on.
Podemos afirmar, a nivel = 0.05 que niveles mas altos de renta
estan asociados a niveles mas bajos de fracaso escolar?
Cuanto vale el coeficiente de correlaci
on entre el nivel de renta y el
porcentaje de fracaso escolar?
Que porcentaje de fracaso escolar se predice en una poblacion cuya
renta es x0 = 13000 euros?
Cual es el residuo correspondiente a Colmenar Viejo?

Analisis de la varianza en regresion simple

Yi
Yi Y

= Yi + ei
= (Yi Y ) + ei

n
n
n
X
X
X
(Yi Y )2 =
(Yi Y )2 +
ei2
i=1

i=1

i=1

SCT = SCE + SCR

SCT mide la variabilidad total (tiene n 1 gl)


SCE mide la variabilidad explicada por el modelo (tiene 1 gl)
SCR mide la variabilidad no explicada o residual (tiene n 2 gl)

Tabla ANOVA y contraste F


Fuente de variaci
on
Explicada (SCE)
Residual (SCR)
Total (SCT)

Suma de cuadrados
Pn

2
i=1 (Yi Y )
Pn
e2
Pn i=1 i 2
(Y

Y)
i
i=1

gl
1
n2
n1

cuadrados medios
Pn

2
i=1 (Yi Y )
SR2 =

estadstico
F

Pn

2
i=1 ei
n2

El estadstico F es igual a SCE/SR2 .


Si F es suficientemente grande (la variabilidad explicada es muy grande
respecto a la no explicada), se debe rechazar H0 : 1 = 0.
Bajo H0 : 1 = 0, el estadstico F tiene distribuci
on F1,n2 . La region
crtica de nivel del contraste es:
R = {F > F1,n2; }

Tabla ANOVA y contraste F


Para contrastar H0 : 1 = 0 a nivel hemos considerado tres
procedimientos:
Calcular un IC de nivel de confianza 1 para 1 y rechazar H0 si 0
no pertenece al intervalo.
Dividir |1 | por su error tpico y rechazar H0 si el valor obtenido es
superior a tn2;/2 .
Calcular F = SCE/SR2 y rechazar H0 si el valor obtenido es superior a
F1,n2; .
Los tres metodos son equivalentes en este modelo.

Evaluacion del ajuste


Para valorar el grado con el que la recta se ajusta a los datos se emplean
varias medidas:
El coeficiente de correlaci
on r .
El coeficiente de determinaci
on:
R2 =

Variabilidad explicada
SCE
=
Variabilidad total
SCT

En el modelo de regresi
on simple R 2 = r 2 , el coeficiente de
determinacion coincide con el coeficiente de correlacion al cuadrado.
El error cuadr
atico medio:
Pn
Pn
e2
(Yi Yi )2
= i=1 i .
ECM = i=1
n
n
Puede comprobarse que ECM = Vy (1 r 2 ).

Cuestiones

Si SCT = 8100, SCE = 6900 y 1 = 6.7. Calcula el coeficiente de


correlacion entre la variable regresora y la variable respuesta.
Para un conjunto de 20 datos se sabe que SCT = 7200, SCE = 2900
y 1 = 3.1. Calcula el coeficiente de correlaci
on, el coeficiente de
determinacion y el error cuadratico medio.

Inferencia sobre la variable respuesta


Una de las razones para ajustar un modelo de regresi
on simple es obtener
informacion sobre Y cuando x toma un valor x0 conocido. Hay dos
problemas relacionados con este objetivo:
Estimar el valor medio de Y para los individuos de la poblacion
para los que X = x0 . Si 0 es este valor medio,
0 = 0 + 1 x0 .
Predecir el valor individual que tomar
a la variable Y para una
nueva observacion para la que se sabe que X = x0 . Si Y0 es este
valor,
Y0 = 0 + 1 x0 + u0 .
Que problema es mas difcil de los dos?
Que estimador y que predicci
on resultan razonables para 0 y Y0 ?

Estimacion y prediccion puntual


En ambos casos, el estimador (o predicci
on) puntual es:
Y0 = 0 + 1 x0 = Y + 1 (x0 x).
Sin embargo, el intervalo de confianza para 0 es diferente del intervalo de
prediccion para Y0 .
Intervalo de confianza para 0 de nivel 1 :

s
2
Y0 tn2;/2 SR 1 + (x0 x)
n
nVx
Intervalo de predicci
on para Y0 de nivel 1 :

s
2
Y0 tn2;/2 SR 1 + 1 + (x0 x)
n
nVx

Ejemplo: temperatura y vibracion de las alas


Calcula un intervalo de confianza de nivel 95% para el n
umero medio
de vibraciones de las alas de los grillos cuando la temperatura es de
80 grados Farenheit.
Calcula un intervalo de predicci
on de nivel 95% para el n
umero de
vibraciones de las alas de un grillo cuando la temperatura es de 80
grados Farenheit.
En una poblacion de la Comunidad de Madrid se sabe que la renta
per capita es 1000 euros inferior a la media de los datos disponibles.
Calcula un intervalo de predicci
on de nivel 95% del porcentaje de
fracaso escolar en esa poblaci
on. Repite el ejercicio para una
poblacion cuya renta sea 1000 euros superior a la media.

% Fracaso
Renta

Medias
20.73
13.19

Cuasidesviaciones tpicas
6.92
3.81

Intervalos de confianza y prediccion


Bandas de
prediccin

Bandas de
confianza

media

&[PageTitle]
Intervalos de confianza para la media

Intervalos de confianza
40,0

Fracaso

30,0

20,0

10,0
Sq r lineal = 0,55

7,500

10,000

12,500

15,000

Renta

17,500

20,000

22,500

Renta

Intervalos de prediccion para valores individuales


Intervalos de prediccin
40,0

Fracaso

30,0

20,0

10,0
Sq r lineal = 0,55

7,500

10,000

12,500

15,000

Renta

17,500

20,000

22,500

Estimacion de algunas relaciones no lineales

A veces, aunque la relacion entre x e Y no sea lineal, el modelo de


regresion simple puede aplicarse despues de transformar adecuadamente
las variables.
Modelos:
Modelo de regresion exponencial
Modelo de regresion logartmica
Modelo de regresion potencial

Modelo de regresion exponencial


La variable respuesta es aproximadamente una funci
on exponencial de la
variable regresora:
Y ae bx
Se linealiza tomando logaritmos:
log Y log a + bx

Si ajustamos un modelo lineal a


(x1 , log Y1 ), . . . , (xn , log Yn )
da y b.

obtenemos los estimadores log

Invirtiendo los cambios obtenemos los estimadores a y b.

Modelo de regresion logartmica

La variable respuesta es aproximadamente una funci


on lineal del logaritmo
de la variable regresora:
Y 0 + 1 log x

Si ajustamos un modelo lineal a


(log x1 , Y1 ), . . . , (log xn , Yn )
obtenemos los estimadores 0 y 1 .

Modelo de regresion potencial


La variable respuesta es proporcional a una potencia de la variable
regresora:
Y ax b
Se linealiza tomando logaritmos:
log Y log a + b log x

Si ajustamos un modelo lineal a


(log x1 , log Y1 ), . . . , (log xn , log Yn )
da y b.

obtenemos los estimadores log

Invirtiendo los cambios obtenemos los estimadores a y b.

Ejemplo: renta y fracaso escolar

15

3.0

logFracaso

2.5

25

30

20

Fracaso

3.5

35

10

10

12

14

16

18

20

22

10

12

14

16

Renta

3.5

35

15

3.0

logFracaso

2.5

30
25

2.4

2.6
logRenta

10

Fracaso

20

22

2.2

20

18

Renta

2.8

3.0

2.2

2.4

2.6
logRenta

2.8

3.0

Ejemplo: renta y fracaso escolar


Resumen del modelo y estimaciones de los parmetros

Ecuacin

Resumen del modelo


R cuadrado

gl1

Estimaciones de los parmetros


gl2

Sig.

Constante

b1

Lineal

,550

25,658

21

,000

38,494

-1,347

Logartmica

,572

28,032

21

,000

70,584

-19,600

Potencia

,610

32,809

21

,000

293,923

-1,066

Exponencial

,594

30,691

21

,000

51,642

-,074

Diagnostico del modelo: linealidad y homocedasticidad


El grafico mas u
til para el diagn
ostico del modelo es el de residuos frente a
valores ajustados:
(Y1 , e1 ), . . . , (Yn , en )
Se suelen utilizar los residuos estandarizados, que bajo las hipotesis del
modelo tienen aproximadamente la distribuci
on normal estandar.
La hipotesis de normalidad se valora a partir de un grafico de probabilidad
de los residuos.
La homocedasticidad se puede confirmar si
No hay patrones sistematicos en el grafico.
La variabilidad es aproximadamente constante a lo largo de todo el
rango de valores ajustados.
Los residuos estandarizados que no estan comprendidos entre los valores -3
y 3 pueden corresponder a datos atpicos potencialmente influyentes.

Residuos frente a valores ajustados

Residuos frente a valores ajustados

5
2

5
y4

y3
4

20
y2

10

15

5
4

y1

25

4
Ajustados

10
Ajustados

15

Residuos

Residuos

Residuos

Residuos

20

25

4
Ajustados

4
Ajustados

Diagnostico del modelo: normalidad

Precauciones al aplicar el modelo de regresion simple

Existencia de datos atpicos


Extrapolacion
Mezcla de poblaciones diferentes
Datos temporales

Datos atpicos

Datos atpicos

Datos atpicos

Datos atpicos

Ejemplo: Temperatura e intensidad de luz en estrellas


Para 47 estrellas se han registrado el log de la temperatura efectiva en la
superficie (Temp) y el log de la intensidad de su luz (Intens).

6.0

5.0

4.5

4.0

log(Intensidad)

5.5

3.6

3.8

4.0

4.2

log(Temperatura)

4.4

4.6

Ejemplo: Temperatura e intensidad de luz en estrellas

6.0

5.0

4.5

4.0

log(Intensidad)

5.5

3.6

3.8

4.0

4.2

log(Temperatura)

4.4

4.6

Extrapolacion
Verdadera
relacin
Ybuena
Yprediccin

Recta de
regresin
estimada

xprediccin

Mezcla de poblaciones

Regresin con
todos los datos

Ejemplo: numero de pie y estatura

Datos temporales (correlacion espurea

PNB en EE.UU e incidencia del melanoma en la poblacion masculina en


Connecticut (1936-1972)

También podría gustarte