Está en la página 1de 34

1

Tema 6. Regresin lineal y correlacin.


Modelo lineal: contraste de hiptesis e intervalos de confianza.
Intervalos de prediccin. Anlisis de los residuos. Correlacin.

6.1. Introduccin
En este tema vamos a considerar estudios en los que intervienen dos variables cuantitativas X e Y.
El objetivo de estos estudios ser analizar la relacin entre X e Y. Como veremos, las tcnicas de
REGRESIN LINEAL Y CORRELACIN se basan en el ajuste de una lnea recta sobre los datos para explicar
la relacin entre X e Y.
Las observaciones de X e Y pueden ser de dos tipos:
Los valores de la variable X son especificados por el experimentador. Para cada valor de X se eligen
individuos con dicho valor y se observa su valor aleatorio para la variable Y (Ejemplo 1).
Las dos variables X e Y son aleatorias. Se eligen al azar n individuos y observamos los valores de las
variables X e Y en ellos (Ejemplo 2).
En los dos casos los clculos son iguales pero la interpretacin puede ser diferente.
Ejemplo 1. ANFETAMINAS Y CONSUMO DE COMIDA
Las anfetaminas son frmacos que inhiben la ganas de comer. En un estudio sobre este efecto, un
farmaclogo asign aleatoriamente 24 ratones a tres grupos de tratamiento. Dos grupos recibieron
una inyeccin de anfetamina con dos niveles diferentes (dosis 2.5 y dosis 5 mg/kg). Los ratones del
tercer grupo recibieron una inyeccin de una solucin salina. Se midi la cantidad de comida
consumida para cada animal en un perodo de tres horas despus de la inyeccin.
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES
En un estudio de una poblacin salvaje de la serpiente Vipera berus, un grupo de investigadores
cazaron nueve hembras adultas y midieron la longitud y el peso.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

Ejemplo 1. AMFETAMINES I CONSUM DE MENJAR


Las anfetaminas son frmacos que inhiben las ganas de comer. En un estudio sobre este efecto, un
farmaclogo asign aleatoriamente 24 ratones a tres grupos de tratamiento. Dos grupos recibieron
una inyeccin de anfetaminas con dos niveles diferentes (dosis 2.5 y dosis 5 mg/kg). Los ratones del
tercer grupo recibieron una inyeccin de una solucin salina. Se medi la cantidad de comida
consumida por cada animal en un perodo de tres horas despus de la inyeccin.
Los resultados (gramos consumidos por kilogramo de peso corporal) fueron los siguientes:
Dosis de anfetamina (mg/kg)
0

2,5

5,0

112,6

73,3

38,5

102,0

81,8

81,3

90,2

67,3

57,1

81,5

55,3

62,3

105,6

80,7

51,5

93,0

90,0

48,3

106,6

75,5

42,7

108,3

77,1

57,9

Media

100,0

75,5

55,0

10,7

10,7

13,3

Estadstica en Ciencias Medioambientales

Consideremos:
X = dosis (mg/Kg) de anfetamina
que no es una variable aleatoria sino que est
fijada por el investigador con valores x = 0, 2.5 i 5.
Y = cantidad de comida consumida por el animal en
las tres horas posteriores a la inyeccin

Si representamos los
datos, parece que al
aumentar la dosis de
anfetamina disminuye
el consumo de
alimento.

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES


En un estudio de una poblacin salvaje de la serpiente Vipera berus, un grupo de
investigadores caz nueve hembras adultas y midi sus longitudes y pesos.
La siguiente tabla muestra la longitud y el peso de las nueve serpientes:
Consideremos:
Longitud (cm)

Peso (g)

60

136

69

198

66

194

64

140

54

93

67

172

59

116

65

174

63

145

Media

63

152

4,6

35,3

X = longitud (cm) de la serpiente


Y = peso (g) de la serpiente

Si representamos los
datos, parece que a
mayor longitud de la
serpiente se
corresponde un peso
mayor.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

6.2. Estadsticos bsicos.


Antes de introducir las
expresiones a utilizar para el
ajuste de la recta de regresin
entre las dos variables
consideradas, vamos a
introducir el clculo de algunos
estadsticos bsicos
necesarios.
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin)
En este ejemplo tenamos X = longitud (cm) de la serpiente Y = peso (g) de la serpiente.
Los estadsticos bsicos necesarios para la regresin lineal y la correlacin son:
Nmero de pares observados
Medias muestrales
X

60

136

69

198

66

194

64

140

54

93

67

172

59

116

65

174

63

145

x=

Desviaciones tpicas muestrales


sX =

x = 63 cm
n

(x x)

n=9
y=

= 4.6 cm

sY =

= (n 1) s X2 = 8 4.6 2 = 172

SSY =

n 1

Suma de cuadrados muestrales

SS X =

(x x)

y = 152
n

( y y)
n 1

( y y)

g
2

= 35.3 g

= (n 1) sY2 = 9990

Suma de productos muestral


SPXY =

( x x )( y y ) = (60 63)(136 152) + (69 63)(198 152) + (66 63)(194 152) + (64 63)(140 152) +

(54 63)(93 152) + (67 63)(172 152) + (59 63)(116 152) + (65 63)(174 152) + (63 63)(145 152) = 1237

Covarianza muestral

Estadstica en Ciencias Medioambientales

s XY =

SPXY 1237
=
= 176.9
n 1
8

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

( x x )( y y )

( x x )( y y )

s negatiu

s positiu

SPXY = ( x x )( y y )

El signo (+ o ) de SPXY determina la


direccin o tendencia de los datos:
SPXY >0 corresponde a datos crecientes (la Y se
hace grande cuando crece la X)
SPXY < 0 corresponde a datos decrecientes (la Y
se hace pequea cuando crece la X)
Si dividimos los cuadrantes en base a las medias
muestrales de X e Y, los productos del sumatorio
sern positivos cuando X e Y tengan el mismo
comportamiento respecto a las medias muestrales
(y el par correspondiente estar en el primer o en
el tercer cuadrante), y sern negativos cuando no
tengan el mismo comportamiento (y estarn en el
segundo o cuarto cuadrante). La suma nos dar
( x x )( y y ) una medida del comportamiento global.
s negatiu

( x x )( y y )
s positiu

Para su clculo podemos utilizar la expresin:

SPXY =

( x x )( y y ) = ( xy ) x y

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin)


En el ejemplo tenemos SPXY=1237>0, que corresponde a una relacin creciente entre las dos variables, ya que la
mayora de pares estn en el primer cuadrante (y por tanto a un valor de X pequeo respecto a la media le
corresponde un valor pequeo de Y respecto a la media) y en el tercer cuadrante (a un valor grande de X respecto a
la media le corresponde un valor grande de Y respecto a la media).

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

6.3. Ajuste de la recta de regresin.


Dados n pares de datos (xi,yi), estos datos formarn una nube de puntos que no estarn en
general sobre una recta. El objetivo del anlisis de regresin ser encontrar la recta
Y = b0 + b1X
que mejor ajuste la nube de datos en el sentido que minimice la distancia entre los puntos
observados y los valores ajustados con la recta (es decir, la recta que est ms prxima de los
datos observados).
Para cada par (x,y) observado, vamos a definir el valor ajustado con la
recta de regresin como

y = b0 + b1 x

Vamos a definir el residuo asociado al valor x como la diferencia entre el


valor observado y y el valor ajustado con la recta de regresin y

residuo = y y

Este residuo es una medida del error del ajuste correspondiente al valor x.
Queremos obtener los valores b0 y b1 que definen la recta de regresin
que minimiza:
2

( y y )

= SS (resid )

Esta recta Y = b0 + b1X


se denomina recta de
regresin o de mnimos
cuadrados.
Segn el formulario,
tenemos:
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES


(Continuacin)
En este caso, la recta de regresin ajustada sera:
Y = b0 + b1X

b1 =

SPXY 1237
=
= 7.19
SS X
172

b0 = y b1 x = 152 7.19 63 = 301

En el ejemplo de la longitud y
peso de las serpientes, la
recta de regresin ajustada
es: Y = -301 + 7.19 X

Interpretacin
de los
coeficientes de
la recta de
regresin

El valor b1=7.19 significa que


para cada centmetro
adicional de longitud tenemos
7.19 g de peso.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

Observar que la recta de regresin siempre pasa por el par ( x, y) formado por las medias de las
dos variables, ya que:

y ( x) = b0 + b1x = y b1x + b1x = y

Para cada valor x tenemos un valor observado y, y un valor ajustado mediante la recta de
regresin. Se define el residuo asociado como (y ) y la suma de cuadrados de los residuos o
suma de cuadrados residual como:

SS (resid ) =

( y y )

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES


En el ejemplo de la longitud y peso de las serpientes, tenemos:

=b0+b1x

60
69
66
64
54
67
59
65
63

136
198
194
140
93
172
116
174
145

130,42
195,15
173,57
159,19
87,27
180,76
123,23
166,38
152,00
SUMA

(y- )
5,57
2,84
20,42
19,19
5,72
8,76
7,23
7,61
7,00
0

(y- )
31,08
8,11
417,15
368,32
32,79
76,86
52,30
58,00
49,00
1093,66
SS(resid)

El valor SS(resid)=1093.66 es la suma del cuadrado de las distancias entre los valores observados y los valores
ajustados con la recta de regresin.
Tambin se puede obtener como:

2
SPXY
1237 2
= 9990
= 1093.66
SS (resid ) = SSY
172
SS X

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

Llamaremos desviacin tpica residual al valor:

sY | X =

( y y )

SS (resid )
n2

n2

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES

Este valor mide la variabilidad de Y


alrededor de la recta de regresin
ajustada, es decir, la variabilidad
de Y que no est explicada por la
variable X.

En el ejemplo de la longitud y peso de las serpientes tenemos:

sY | X =

SS ( resid )
1093.66
=
= 12.5 g
n2
92

Podemos comparar este valor con la desviacin tpica de la variable Y:

sY =

( y y)

n 1

SSY
= 35.3 g
n 1

que mide la variabilidad de Y alrededor de su media muestral de 152 g.


Por tanto, de una variabilidad de la variable Y de 35.3 unidades, no est
explicada por la variable X nicamente 12.5 unidades.

Hacer los ejercicios 1, 2, 3, 4 y 5.


Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

10

Ejercicio 1.
En un estudio sobre la sntesis de las protenas en el oocito de la rana Xenopus laevis, un
bilogo inyecta leucina etiquetada como radioactiva en oocitos individuales. En distintos
instantes de tiempo posteriores a la inyeccin, se realizan medidas de la radioactividad y se
calcula la cantidad de leucina que se ha incorporado a la protena. Los resultados se presentan
en la siguiente tabla; cada valor de la leucina es el contenido de leucina registrado en dos
oocitos, siendo todos los oocitos de la misma hembra.
Tiempo (min)
Leucina (ng)
0
0,02
10
0,25
20
0,54
30
0,69
40
1,07
50
1,50
60
1,74
Media
30
0,83
SS
2800
2,4308
SPXY = 81,9
a) Utilizar regresin lineal para estimar la tasa de incorporacin de la leucina a la protena.
Sea X el tiempo (en minutos) y Y la cantidad de leucina (en ng) incorporada a la protena registrada, vamos a
calcular la recta de regresin lineal que ajuste los datos anteriores.
Sabemos que:
SP
81.9

b1 =

XY

SS X

2800

= 0.02925

b0 = y b1 x = 0.83 0.02925 30 = 0.0475


La recta de regresin que nos permite estimar la cantidad de leucina incorporada a la protena a partir del
tiempo posterior a la inyeccin es:
Y = 0.0475 + 0.02925 X
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

11

b) Representar grficamente los datos y dibuja en la grfica la recta de regresin obtenida.


2,00

El grfic pot fer-se:


Amb lordinador, utilitzant qualsevol
programa amb ferramentes grfiques
com Excel, SPSS,...
A m amb paper millimetrat, on
representarem els parells observats i la
recta de regressi. Per a dibuixar la
recta necessitem nicament dos punts
per a no passe. Per exemple, podem
emprar:
(0, b0 ) = (0,0.0475)
( x , y ) = (30,0.83)

Leucina

1,50

1,00

0,50

0,00
0

10

20

30

40

50

60

Sq r lineal = 0,986

Temps

c) Calcular la desviacin tpica residual.


La desviacin tpica residual es:

SS (resid )
n2

sY | X =

2
SPXY
81.9 2
= 2.4308
= 0.03522
SS (resid ) = SS Y
2800
SS X

sY | X =

Estadstica en Ciencias Medioambientales

SS (resid )
=
n2

0.03522
= 0.08393
72

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

12

Ejercicio 2.
En una investigacin sobre los efectos fisiolgicos del alcohol (etanol), se asignan de forma
aleatoria 15 ratones a tres grupos de tratamiento. En cada uno de estos grupos se suministran
dosis orales de alcohol diferentes, concretamente 1.5, 3.0 y 6.0 gr. alcohol por kg. de peso
corporal en el grupo 1, 2 y 3 respectivamente. Inmediatamente despus de la dosis se registra
la temperatura corporal (en grados centgrados) de cada ratn. Transcurridos 20 minutos se
registra nuevamente la temperatura corporal de todos los ratones. En la siguiente tabla se
presenta la reduccin (antes menos despus) de la temperatura corporal de cada ratn.
Alcohol
Reduccin en la temperatura corporal
Dosis log(dosis)
Valores individuales
Media
1.5
0.176
0.2
1.9
-0.1
0.5
0.8
0.66
3.0
0.477
4.0
3.2
2.3
2.9
3.8
3.24
6.0
0.778
3.3
5.1
5.3
6.7
5.9
5.26
a) Representar grficamente la reduccin media de la temperatura corporal contra la dosis. Representar
grficamente la reduccin media de la temperatura corporal contra log(dosis). Qu grfica parece ms cercana
a la linealidad?
6,0

4,0

4,0

reduccion

reduccion

6,0

La segunda grfica parece


ms cercana a la linealidad.

2,0

2,0

0,0

Sq r lineal = 0,778

2,0

4,0

6,0

Dosis

Estadstica en Ciencias Medioambientales

0,0

Sq r lineal = 0,829

0,100

0,200

0,300

0,400

0,500

0,600

0,700

0,800

log_dosis

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

13

b) Para el clculo de la recta de regresin de la reduccin de la temperatura corporal (Y) sobre el


logaritmo de la dosis (X) se obtienen los siguientes valores preliminares:
y = 3.053
x = 0.4771
SSX = 0.906191
SSY = 63.7773
SPXY = 6.92369
Obtener la correspondiente recta de regresin as como la desviacin tpica residual.
Los coeficientes de la recta de regresin son:

b1 =

SPXY
6.92369
=
= 7.6404
0.906191
SS X

b0 = y b1 x = 3.053 7.6404 0.4771 = 0,5922

La recta de regresin de la reduccin de la temperatura corporal (Y) sobre el logaritmo de la dosis (X) es:
Y = 0,5922 + 7.6404 X
La desviacin tpica residual es:

SS (resid ) = SS Y

sY | X =

Estadstica en Ciencias Medioambientales

2
SPXY
6.92369 2
= 63.7773
= 10.8773
0.906191
SS X

SS ( resid )
10.8773
=
= 0.9147
n2
15 2

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

14

Ejercicio 3.
Se seleccionan de forma aleatoria veinte parcelas, cada una de 10 x 4 metros, de un gran
campo de maz. En cada parcela, se observa la densidad (nmero de plantas en la parcela) y el
peso medio de una mazorca (gr. de grano por mazorca). Los resultados se presentan en la
siguiente tabla.
Densidad, X
Peso mazorca, Y
Densidad, X
Peso mazorca, Y
137
212
173
194
107
241
124
241
132
215
157
196
135
225
184
193
115
250
112
224
103
241
80
257
102
237
165
200
65
282
160
190
149
206
157
208
85
246
119
224
Si para estos datos
y = 224,1
x = 128,05
SSX = 20209,0
SSY = 11831,8
SPXY = 14563,1
a) Obtener la recta de regresin de Y sobre X.
Sea X la densidad (nmero de plantas en la parcela) y Y el peso medio de una mazorca (gr. de grano por
mazorca), vamos a calcular la recta de regresin lineal que ajusta los resultados de la tabla anterior.
Sabemos que:
SP
14563.1
= 0.721
b1 = XY =
20209.0
SS X

b0 = y b1 x = 224.1 (0.721) 128.05 = 316.376


Por tanto, la recta de regresin que nos permite estimar el peso medio de una mazorca a partir de la densidad
de la parcela es:
Y = 316.376 0.721 X
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

15

b) Representar grficamente los datos y dibujar en la grfica la recta de regresin obtenida.


300

280

Pes

260

240

220

200

180
60

80

100

120

140

Densitat

c) Calcular sY y sY|X.

180

200

Sq r lineal = 0,887

SS Y
11831.8
=
= 24.954
n 1
20 1

sY =

SS (resid ) = SS Y

160

2
SPXY
(14563.1) 2
= 11831.8
= 1337.3
20209.0
SS X

sY | X =

SS (resid )
1337.3
=
= 8.619
n2
18

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

16

Ejercicio 4.
El serbal (Sorbus aucuparia) es un rbol que crece en zonas de diferentes alturas. Con objeto de
estudiar la adaptacin de estos rboles a distintos hbitats, se recogen ramas con brotes de 12
rboles que crecen a diferentes alturas en North Angus, Scotland. Se llevaron los brotes al
laboratorio y se registr la tasa de respiracin nocturna de cada uno de ellos. En la siguiente
tabla se muestra la altitud del origen (en metros) de cada grupo de brotes y la tasa de respiracin
nocturna (expresada como l de oxgeno por hora por mg de peso en seco de tejido).
Altitud de origen
Tasa de respiracin
90
0.11
230
0.20
240
0.13
260
0.15
330
0.18
400
0.16
410
0.23
550
0.18
590
0.23
610
0.26
700
0.32
790
0.37
Media
433.3
0.21
SS
506667
0.0654
SPXY = 161.400
a) Obtener la recta de regresin que permite predecir la tasa de respiracin a partir de la altitud.
Los coeficientes de la recta de regresin de la tasa de respiracin (Y) sobre la altitud (X) son:
SP
161.400
b0 = y b1 x = 0.21 0.0003 433 .3 = 0.0720
b1 = XY =
= 0.0003
SS X
506667
La recta de regresin que permite predecir la tasa de respiracin (Y) a partir de la altitud (X) sera:
Y = 0,0720 + 0.0003 X
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

17

b) Representar grficamente los datos y dibujar en la grfica la recta de regresin obtenida.


0,40

Taxa de respiraci

0,30

0,20

0,10

Sq r lineal = 0,786

0,00
0

200

400

600

800

Altitud d'origen

c) Calcular la desviacin tpica residual.


La desviacin tpica residual es:

SS (resid ) = SS Y

2
SPXY
161.4 2
= 0.0654
= 0.0140
506667
SS X

Estadstica en Ciencias Medioambientales

sY | X =

SS ( resid )
0.0140
=
= 0.0374
n2
12 2

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

18

Ejercicio 5.
El cido laetisrico es un compuesto recientemente descubierto cuyos efectos parecen
prometedores en el control de enfermedades causadas por hongos en plantas de cultivo.
En la siguiente tabla se muestran los resultados del crecimiento del hongo Pythium ultimum bajo
diferentes concentraciones de cido laetisrico. Cada valor del crecimiento es el promedio de
cuatro medidas radiales de una colonia de Pythium ultimum cuyo crecimiento se ha desarrollado
en una placa de petri durante 24 horas; se han utilizado dos placas de petri para cada una de
las concentraciones consideradas.
[ ] de cido laetisrico
0
0
3
3
6
6
10
10
20
20
30
30
Media
11,5
SS
1303

Crecimiento
33,3
31,0
29,8
27,8
28,0
29,0
25,5
23,8
18,3
15,5
11,7
10,0
23,64
677,349

SPXY = 927,75

a) Obtener la recta de regresin apropiada para estudiar la relacin entre las variables.
Sea X la concentracin de cido laetisrico e Y el crecimiento medio de cuatro medidas radiales de una colonia de
Pythium ultimum. Vamos a calcular la recta de regresin lineal que ajuste los datos anteriores. Sabemos que:

b1 =

SPXY 927.75
=
= 0.712
1303
SS X

b0 = y b1 x = 23.64 (0.712) 11.5 = 31.828

Por tanto, la recta de regresin que nos permiten estimar el crecimiento a partir de la concentracin de cido laetisrico
es:
Y = 31.828 0.712 X

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

19

b) Representar grficamente los datos y dibujar en la grfica la recta de regresin obtenida.


35

Creixement

30

25

20

15

10
0

10

15

20

25

30

Sq r lineal = 0,975

Concentraci

c) Calcular el valor de la desviacin tpica residual. Cmo son sus unidades?

SS (resid ) = SS Y
sY | X =

2
SPXY
(927.75) 2
= 677.349
= 16.781
1303
SS X

SS (resid )
16.781
=
= 1.295
n2
10

Estadstica en Ciencias Medioambientales

Sus unidades son las mismas que las utilizadas para


medir el crecimiento en el experimento.

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

20

Or
Orgenes de la regresi
regresin:
El trmino regresin fue introducido por Francis Galton en su llibro Natural
Inheritance (1889), partiendo de los anlisis estadsticos de Karl Pearson.
Sir Francis Galton (18221911), explorador y cientfico britnico, contribuy a
diferentes reas de la ciencia como la psicologa, la biologa, la tecnologa, la
geografa, la estadstica o la meteorologa. Primo de Charles Darwin, aplic sus
principios a numerosos campos, principalmente al estudio del ser humano y de
las diferencias individuales.
Su trabajo se centr en la descripcin de las caracteres fsicos de los descendientes (variable A) a partir de los
de sus padres (variable B).
Estudiando la altura de padres e hijos a
partir de ms de mil registros de grupos
familiares, lleg a la conclusin que los
padres muy altos tenan una tendencia
a tener hijos que heredaban parte de
esta altura, pero que revelaban
tambin una tendencia a regresar a la
media.
Galton generaliz esta tendencia bajo
la "ley de la regresin universal":
Cada peculiaridad en un hombre es
compartida por sus descendientes,
pero en media, en un grado menor.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

21

6.4. Interpretacin paramtrica de la regresin: el modelo lineal.


Dadas dos variables aleatorias cuantitativas X e Y, el modelo lineal establece unas condiciones en
la distribucin de Y|X, es decir, en la distribucin de los valores de la variable Y con un determinado
valor de la variable X.
Para cada valor de la variable X, tendremos unos posibles valores de la variable Y asociados a ese
valor de X. La distribucin de estos valores es una distribucin condicional que denotamos por Y|X.
En el ejemplo de la relacin entre la altura de padres (X) y la altura de hijos (Y), si consideramos la poblacin de
todos los hijos con padres de altura x=62 tendremos diferentes valores posibles para sus hijos, y la distribucin
de estos valores se representa por Y|x=62.
La distribucin de Y|X tendr una determinada media poblacional y una determinada desviacin tpica
poblacional, que denotaremos por:
Y|X = media poblacional de la variable Y para un valor determinado de X
Y|X = media poblacional de la variable Y para un valor determinado de X
En el ejemplo de la relacin entre la altura de padres (X) y la altura de hijo (Y), los hijos de padres de x=62 de
altura pueden tomar muchos posibles valores, con una distribucin de media poblacional Y|X=62 y desviacin
tpica poblacional Y|X=62.
El modelo lineal asume las siguientes suposiciones para esta distribucin condicional Y|X:
Normalidad: La distribucin condicional Y|X es normal.
Linealidad: Se supone que la media de la distribucin condicional es una funcin lineal del
valor de X, es decir:
Y|X = 0 + 1 X
Homocedasticidad: Se supone que la desviacin tpica de la distribucin condicional es
independiente del valor de X, es decir:
Y|X es constante
Los parmetros 0, 1 y Y|X son valores poblacionales de la relacin entre las dos variables que en general
sern desconocidos.
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

22

Ejemplo 3. ALTURA Y PESO DE HOMBRES JVENES


Tenemos una poblacin de hombres jvenes y estamos interesados en estudiar la distribucin
condicional del peso (Y) dada la altura (X). El modelo lineal asume que, para cada valor X, el peso
correspondiente Y|X sigue una distribucin con:
Media: Y|X = 0 + 1 X
Desviacin tpica: Y|X = constante
Vamos a suponer que en la poblacin que estamos estudiando Y|X = 0 + 1 X = -145 + 4.25X
y Y|X = 20. Por tanto tendramos:

Por tanto, para cualquier valor de X, la distribucin condicional Y|X sigue una distribucin con media dada por
0+1X y una desviacin tpica constante que no depende de X.
Ejemplo 1. AMFETAMINAS Y CONSUMO DE COMIDA
En el ejemplo del consumo de comida de los ratones, el modelo lineal afirma que (1) el consumo medio de
comida es una funcin lineal de la dosis y (2) la desviacin tpica de los valores de consumo de comida es la
misma para todas las dosis.
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

23

Si tenemos dos variables aleatorias X e Y, y suponemos que el modelo lineal es una descripcin
adecuada de la verdadera relacin entre las dos variables, entonces los valores obtenidos en el
anlisis de regresin son estimaciones de los valores poblacionales del correspondiente modelo
lineal:
bo = 0
b0 es una estimacin del parmetro 0
b1 es una estimacin del parmetro 1

b1 = 1

sY|X es una estimacin del parmetro X|Y

sY | X = Y | X

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin)


En este ejemplo tenamos dos variables X = longitud (cm) de la serpiente y Y = peso (g) de la serpiente.
Tenamos:
Y = 301 + 7.19X
sY|X = 12.5
Si asumimos el modelo lineal,
- el peso medio de las serpientes con una longitud X es Y|X = 0 + 1X, que se puede estimar con:

0 = 301 g

1 = 7.19 g / cm

- la desviacin tpica del peso de las serpientes con una longitud X es X|Y, que se puede estimar con:

Y | X = 12.5

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

24

Si el modelo lineal es aplicable para estudiar la relacin entre las variables X e Y, podemos
utilizarlo para hacer estimaciones de la media y la desviacin tpica de la poblacin Y dado un
valor concreto de X.

Y | X = x = 0 + 1 x

Y | X = x = sY | X

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin)


Si en este ejemplo queremos estimar el peso medio y la desviacin tpica de las serpientes con
una longitud de x=68 cm tenemos:

Y | X =68 = 301 + 7.19 68 = 187.9 g


Y | X = x = sY | X = 12.5 g

Por tanto estimamos que las serpientes con una longitud de 68


cm tienen un peso de media 187.9 g y desviacin tpica 12.5 g.

Si queremos hacer una prediccin del valor de Y para un determinado valor de X, podemos utilizar la estimacin
de la media de la distribucin condicional de Y|X. Esta prediccin de valores en el rango de estudio recibe el
nombre de interpolacin.
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin)
Si queremos hacer una prediccin del peso de una serpiente con una longitud de 68 cm podemos utilizar la
media de la distribucin condicional dada por:

y ( x = 68) = Y | X =68 = 187.9 g

que es una interpolacin ya que 68 cm est en el rango de valor de X


observados [54,69].

La extrapolacin, es decir, la prediccin de


valores de Y para valores de X fuera del rango
observado no debe realizarse en regresin ya
que no sabemos si, para esos valores, el
modelo sigue siendo vlido.

Estadstica en Ciencias Medioambientales

Por ejemplo, si
intentamos estimar la
media del peso para
serpientes de una
longitud de 30 cm
obtenemos un peso de
-85.3g !!!
Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

25

Problema 1. (Continuacin)
En un estudio sobre la sntesis de las protenas en el oocito de la rana Xenopus laevis, un bilogo
inyecta leucina etiquetada como radioactiva en oocitos individuales. En diferentes momentos
posteriores a la inyeccin se realizan medidas de la radioactividad y se calcula la cantidad de
leucina que se ha incorporado a la protena. Los resultados se presentan en la siguiente tabla;
cada valor de la leucina es el contenido de leucina registrado en dos oocitos y todos los oocitos
son de la misma hembra.

Media
SS

Tiempo (min)
0
10
20
30
40
50
60
30
2800

Leucina (ng)
0,02
0,25
0,54
0,69
1,07
1,50
1,74
0,83
2,4308

SPXY = 81,9

d) Estimar la media y la desviacin tpica del contenido de leucina a los 25, 50 i 70 minutos
despus de la inyeccin.
Para x = 25 minutos, la media y desviacin tpica estimada del contenido de leucina es:

Y | X =25 = b0 + b125 = 0.0475 + 0.0292525 = 0.68375


Y | X =25 = sY | X = 0.08393
Para x = 50 minutos, la media y desviacin tpica estimada del contenido de leucina es:

Y | X =50 = b0 + b150 = 0.0475 + 0.0292550 = 1.4150


Y | X =50 = sY | X = 0.08393
Para x = 70 minutos no podemos dar una estimacin de la media y de la desviacin tpica por estar fuera del
rango de estudio.
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

26

6.5. Inferencia estadstica sobre la pendiente.


En estos problemas estamos suponiendo un modelo lineal

Y | X = 0 + 1 X

donde 1 y 2 son dos parmetros que expresan la relacin entre las variables X e Y en la
poblacin, y que por tanto sern desconocidos.
A partir de la muestra, podemos hacer inferencia de estos parmetros desconocidos y obtener dos
estimaciones muestrales b1 y b2.

0 = b0

1 = b1

Veremos en este apartado como


podemos, adems de hacer
inferencia de este parmetro,
calcular intervalos de confianza y
resolver contrastes de hiptesis.
La pendiente 1 es el parmetro
ms interesante, ya que mide la
existencia de relacin lineal y el
incremento unitario en Y dado por
un incremento unitario en X.
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

27

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin)


Como hemos visto anteriormente, podemos dar una estimacin del valor de la pendiente 1 con:
1237
SP
b1 = XY =
= 7.19 g / cm = 1
172
SS X
Como esta estimacin est sujeta a un error de muestreo, podemos calcular su error estndar:

sY | X = 12.5, SS X = 172 SE (b1 ) =

sY2| X
SS X

12.52
= 0.953 g / cm
172

Podemos ver que el error estndar de la estimacin de la pendiente de la regresin depende de la varianza
residual y de la variabilidad de la variable independiente X. Como SSX est en el denominador, podemos ver
que cuanto mayor sea esta medida, menor es el error estndar de la estimacin b1.
Tambin podemos calcular un intervalo de confianza para la pendiente poblacional 1 con un nivel de
confianza determinado. Por ejemplo, un intervalo de confianza al 95% para la pendiente poblacional de la
relacin entre el peso y la longitud de las serpientes vendr dado por:

IC95% ( 1 ) = [b1 t0.05,n 2 SE (b1 ), b1 + t0.05,n 2 SE (b1 )]


donde t0.05,n-2 es el percentil 0.05 de una distribucin t de Student con n-2=9-2=7 grados de libertad. En la
tabla asociada podemos ver que t0.05,7 = 2.365

IC95% ( 1 ) = [b1 t0.05,n 2 SE (b1 ), b1 + t0.05,n 2 SE (b1 )] = [7.19 2.365 0.953,7.19 + 2.365 0.953] =
= [4.94,9.44]g / cm

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

28

Contrastes de hiptesis sobre 1


En los estudios de regresin podemos estar interesados en demostrar si realmente existe una
relacin entre les variables X e Y. Para resolver esta cuestin, tendremos que plantear un
contraste de hiptesis con hiptesis nula
H0: Y|X no depende de X
Si el modelo lineal es aplicable para explicar la relacin entre X e Y, esta hiptesis es equivalente a
H0: 1 = 0
Para resolver el contraste de hiptesis: H0: 1 = 0 consideraremos el estadstico de contraste:
HA: 1 0

ts =

b1
que bajo la hiptesis nula sigue una distribucin t de Student con n2 grados de libertad.
SE (b1 )

Respecto a la hiptesis alternativa, podemos considerar un contraste no direccional


HA: 1 0 (es decir, no hay relacin entre las dos variables)
O un contraste direccional:
a la derecha:
HA: 1 > 0 (es decir, hay relacin y es creciente)
a la izquierda:
HA: 1 < 0 (es decir, hay relacin y es decreciente)
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin)
En el ejemplo de las serpientes podemos estar interesados en analizar si el peso de las serpientes aumenta
cuando aumenta su longitud.
H0: El peso medio de las serpientes es independiente de su longitud (1=0)
HA: El peso medio de las serpientes aumenta cuando aumenta la longitud (1>0)
Direccin de los datos: 1 = b1 = 7.19 > 0
Estadstico del contraste:

b1
7.19
= 5.408 < t s = 7.57 < t0.0001 = 7.885
t
=
= 7.57 0.001
SE (b1 ) 0.95
0.0001 < p - valor(bilateral) < 0.001 0.00005 < p - valor < 0.0005
Hay evidencia de que el peso medio de las serpientes aumenta con su longitud.
ts =

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

29

6.6. El coeficiente de correlacin.


El coeficiente de correlacin es un ndice que mide la relacin lineal entre dos variables
cuantitativas.
El coeficiente de correlacin poblacional, , es un parmetro definido por:

XY
X Y

donde XY es la covarianza poblacional entre las variables X e Y, X


es la varianza poblacional de la variable X y Y es la varianza
poblacional de la variable Y.

Como siempre, este parmetro poblacional


ser desconocido. No obstante, obtendremos
una estimacin de este valor a partir de la
muestra con el coeficiente de correlacin
muestral, r , que es un estadstico muestral
que aproxima el valor de y se define:
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES
Tenemos las variables X=longitud (cm) y Y=peso (g). Los estadsticos bsicos observados en la muestra son:

x = 63 cm

y = 152 g

SS X = 172

SS Y = 9990

El coeficiente de correlacin muestral entre peso y longitud sera:

r=

SPXY = 1237
SPXY
1.237
=
= 0 , 9436
SS X SSY
172 9.990

Alternativamente, como sabemos que SS(resid)=1093.669, podemos calcular el coeficiente de correlacin


muestral entre peso y longitud como:

r2 = 1

SS ( resid )
1093.669
= 1
= 0.8905
SS Y
9990

Estadstica en Ciencias Medioambientales


Tema 6. Regresin lineal y correlacin.

r = r 2 = 0.8905 = 0.9436

Departament dEstadstica i Investigaci Operativa


30

Propiedades del coeficiente de correlacin muestral:


Es adimensional.
-1 r +1
|r| 1 cuando SS(resid) << SSY La nube de puntos es larga y estrecha.
|r| 0 La nube de puntos est muy dispersa.
|r|=1 SOLO cuando SS(resid)=0 Todas las observaciones estn sobre la recta.
El signo de r es el mismo que el de b1 (b1=SPXY / SSX) e indica la tendencia de la recta.
Los signos positivos y negativos nicamente indican si el valor de una variable aumenta (+) o disminuye (-)
al aumentar el valor de la otra. Una correlacin 0.5 es tan grande o importante como una de -0.5

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

31

La relacin exacta entre el coeficiente de correlacin, la desviacin tpica de Y y la desviacin


tpica residual de Y despus de la regresin es:
s
Y|X

sY

n 1
(1 r 2 )
n2

El coeficiente de correlacin cumple la siguiente relacin aproximada:

1 r2

sY | X
sY

Cuando no ha relacin lineal (r = 0), la desviacin tpica de Y y la desviacin tpica residual de Y despus
del ajuste de la regresin coinciden, por lo que la regresin no est explicando nada de la variabilidad de la
variable dependiente Y.
Cuanto ms prximo a 1 sea r (mejor ajuste lineal), menor ser la desviacin tpica residual de Y despus
de la regresin en comparacin con la desviacin tpica de Y sin regresin.
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES
Tenemos las variables X=longitud (cm) y Y=peso (g). A partir de la muestra tenemos:

sY | X = 12.5

sY = 35.3

r = 0.9436

sY | X
sY

1 r 2 = 1 0.9436 2 = 0.3311

Del valor de r deducimos que la desviacin tpica residual del


peso no explicada por la longitud de la serpiente es
nicamente un 33% de la desviacin tpica global del peso
La relacin lineal es bastante fuerte.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

32

Simetra del coeficiente de correlacin


A partir de dos variables cuantitativas X e Y observadas aleatoriamente sobre una muestra de
individuos de una poblacin, podemos obtener la regresin de X sobre Y o la regresin de Y
sobre X. Se cumple que:
- La recta de regresin no es simtrica - Pero el coeficiente de correlacin es el mismo
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES
Para la muestra de n = 9 serpientes, tenemos:
X = longitud (cm)
Y = peso (g)

x = 63
SS X = 172

y = 152
SSY = 9990

s X = 4.6

sY = 35.3
SPXY = 1237
Recta de regresin de Y (peso) sobre X (longitud)

Recta de regresin de X (longitud) sobre Y (peso)

El coeficiente de correlacin s es
simtrico respecto a las dos variables:

r=

SPXY
SS X SSY

La proximidad de los puntos a las


lneas, medida por r, es la misma para
ambas rectas de regresin.
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

33

Inferencia sobre el coeficiente de correlacin.


Deseamos contrastar la hiptesis:
H0: = 0 que afirma que las variables X i Y son incorreladas en la poblacin.
Si el modelo lineal es aplicable, se cumple que:

XY
X

= XY
= 1 X
2
XY X Y
Y

Por tanto, la hiptesis nula anterior es equivalente a la que ya hemos estudiado anteriormente:
H0: 1 = 0
El estadstico del contraste es:

t=

b1
n2
=r
SE (b1 )
1 r 2

Y el p-valor se obtiene a partir de una t de


Student con n-2 grados de libertad.

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES


Para la muestra de n = 9 serpientes, podemos plantear el siguiente contraste de hiptesis para el coeficiente de
correlacin poblacional: H0: La longitud y el peso de las serpientes no estn correlacionados ( = 0)
HA: La longitud y el peso de las serpientes estn positivamente correlacionados ( > 0)
Como tenemos un contraste direccional, vamos en primer lugar a comprobar la direccionalidad de los datos:
= r = 0.9436 > 0
El estadstico que nos permite resolver el contraste anterior es:

ts = r

n2
92
= 0.9436
= 7.54
2
1 r
1 0.9436 2

Que es equivalente al que ya habamos calculado para el contraste de la pendiente de la regresin:


b1
7.19
ts =
=
= 7.54
SE (b1 ) 0.9531
Bajo la hiptesis nula este estadstico sigue una distribucin t de Student con n-2=9-2=7 grados de libertad.

t 0 .001 = 5.408 < t s = 7.54 < t 0 .0001 = 7.885


0.0001 < p - valor(bila teral) < 0.001 0.00005 < p - valor < 0.0005
Hay evidencia que existe una correlacin positiva entre la longitud y el peso de las serpientes.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

34

El coeficiente de determinacin
El coeficiente de determinacin es el cuadrado del coeficiente de correlacib.
Tenemos que
- SS(resid) es una medida de la variabilidad de Y que no es explicada por el modelo de regresin
- SSY es una medida de la variabilidad total de Y
Por tanto:

SS (resid )
es la fraccin de la variabilidad total de Y no explicada por la regresin sobre X
SSY

Luego la fraccin de la variabilidad total de Y que es explicada por el modelo de regresin sera:

1
Tenemos que:

SS (resid )
= r2
SSY

SSY = ( y y ) 2 = ( y y ) 2 + ( y y )
SS (resid .) SSY SS (resid .)
=
=
r = 1
SSY
SSY
2

( y y )
( y y)

2
2

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES


En este problema tenemos r = 0.9436 y r2= 0.89.
Se interpreta como que aproximadamente el 89% de la variabilidad del peso de las serpientes est
explicada por la variabilidad en la longitud de acuerdo con el modelo de regresin lineal. El 11% restante
no explicado por la regresin lineal se debe a factores aleatorios no controlables.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

35

6.7. La tabla ANOVA en regresin.


Una medida de la variabilidad explicada por el modelo de regresin de Y sobre X es:
SSY SS(resid) = SS(regresin)
Luego, a partir del modelo de regresin tenemos una descomposicin de la variabilidad total de
la variable dependiente Y como suma de la variabilidad explicada por la regresin y la
variabilidad residual o no explicada por la regresin:
SSY = SS(regresin) + SS(residual)
Esta descomposicin puede expresarse mediante la tabla de Anlisis de la Varianza (ANOVA) siguiente:
Suma de Cuadrados

Grados de libertad

MS

0,7736
0,0296

Regresin

SS(regre) = SSY SS(resid) = 0.7736

Residual

SS(resid) = 0.2955

n 2 = 10

Total

SSY = 1.069067

n 1 = 11

= sY2|X

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES


En el ejemplo de las serpientes tenemos:

SS Y = 9990 SS (resid ) = 1093.7


Suma de Cuadrados

SS (regre) = SSY SS (resid ) = 9990 1093.7 = 8896.3


Grados de libertad

MS

8896.3
156.2

Regresin

SS(regre) = 8896.3

Residual

SS(resid)

= 1093.7

n2=7

Total

SSY

= 9990.0

n1=8

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

36

Contrastes de hiptesis en la Tabla ANOVA


Con la tabla ANOVA podemos contrastar si la variabilidad explicada por la regresin es
significativa, es decir, si la regresin explica una parte importante de la variabilidad de la variable
dependiente Y:
H0: La regresin no explica una parte importante de la variabilidad de la variable Y
HA: La regresin explica una parte importante de la variabilidad de la variable Y
Para resolver este contraste de hiptesis utilizaremos el estadstico F:
Bajo la hiptesis nula, este estadstico sigue una distribucin F de
Snedecor con 1 grado de libertad en el numerador y n-2 grados de
libertad en el denominador.

MS (regresin)
Fs =
MS (residual )

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES


Vamos a resolver el contraste de hiptesis asociado a la tabla ANOVA:
H0: La longitud de la serpiente explica una parte significativa de la variabilidad del peso
HA: La longitud de la serpiente no explica una parte significativa de la variabilidad del peso
Suma de Cuadrados
Regresin

SS(regresin) = 8896.3

Residual

SS(residual)

Total

SSY

Grados de libertad

MS

8896.3

n2=7

156.2

= 1093.7
= 9990.0

Fs =

MS (regresin) 8896.3
=
= 56.95
MS (residual )
156.2

n1=8

Comparando este estadstico con una distribucin F de Snedecor con 1 grado de libertad en el numerador y 7
grados de libertad en el denominador, tenemos:

0.0001 < p valor < 0.001

Por tanto, el modelo de regresin lineal explica una parte significativa de la variabilidad de la variable
dependiente.
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.


A continuacin podemos ver la salida
de SPSS para el problema de les
serpientes:

37

pes
longitud

Media
152,00
63,00

Variables
introducidas
longitud a

Modelo
1

Estadsticos descriptivos
Desviacin
tp.
35,338
4,637

Resumen del modelob

Variables introducidas/eliminadasb
Variables
eliminadas
.

Modelo
1

Mtodo
Introducir

R
,944a

R cuadrado
,891

R cuadrado
corregida
,875

Error tp. de la
estimacin
12,500

a. Variables predictoras: (Constante), longitud


b. Variable dependiente: pes

a. Todas las variables solicitadas introducidas


b. Variable dependiente: pes

Coeficientesa

9
9

Coeficientes
estandarizad
os

Coeficientes no
estandarizados
200

Modelo
1

180

(Constante)
longitud

B
-301,087
7,192

Error tp.
60,188
,953

Beta
,944

t
-5,002
7,546

Sig.
,002
,000

F
56,941

Sig.
,000a

Intervalo de confianza para


B al 95%
Lmite
superior
Lmite inferior
-443,410
-158,764
4,938
9,446

a. Variable dependiente: pes

pes

160

ANOVAb

140

Modelo
1

Regresin
Residual
Total

120

Suma de
cuadrados
8896,331
1093,669
9990,000

gl
1
7
8

Media
cuadrtica
8896,331
156,238

a. Variables predictoras: (Constante), longitud


b. Variable dependiente: pes

100
Sq r lineal = 0,891
80

Grfico de dispersin
55

57,5

60

62,5

65

67,5

longitud
Variable dependiente: pes

Correlaciones
Correlacin de Pearson
Sig. (unilateral)
N

pes
longitud
pes
longitud
pes
longitud

pes
1,000
,944
.
,000
9
9

longitud
,944
1,000
,000
.
9
9

Regresin Residuo tipificado

-2
-2

Regresin Valor pronosticado tipificado

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

38

6.8. Condiciones para la validez de los mtodos presentados.

1. Linealidad. Y | X es una funcin lineal de X, es decir:


Y | X = 0 + 1 X
2. Homocedasticidad. La varianza poblacional de Y condicionada a X debe ser constante,
es decir, Y | X no depende de X.
3. Normalidad. La distribucin condicionada de Y a X debe ser normal.

Anlisis de la linealidad y la homocedasticidad


Los grficos de los residuos frente a los valores estimados por la regresin pueden ser de gran utilidad
para detectar incumplimientos de la hiptesis de linealidad y de homocedasticidad.

a) Patrn correcto.
b) No homocedasticidad, tendencia a incrementar
la varianza a medida que la variable
independiente aumenta.
c) No homocedasticidad, tendencia a incrementar
la varianza para valores centrales de la variable
independiente.
d) No linealidad. Subestimacin para valores
pequeos y grandes de la variable independiente.
Sobreestimacin para valores centrales.
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

39

Consecuencias de la presencia de tendencias curvilneas:


(1) La recta de regresin no representa de forma
adecuada los datos.
(2) La correlacin es pequea.
(3) La desviacin tpica residual se ve aumentada.
Se pueden realizar transformaciones no lineales
de los datos para corregir la tendencia curvilnea.

Consecuencias de la presencia de valores atpicos (outliers):


(1) Disminuye el
coeficiente de correlacin.
(2) Aumenta la desviacin
tpica residual.
(3) Tienen gran influencia
en la recta de regresin.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

40

Uso de transformaciones
Si las suposiciones de linealidad, homocedasticidad o normalidad fallan, a veces un remedio
consiste en transformar los datos mediante un cambio de escala que puede afectar X, Y o
ambas variables.
Ejemplo 3. CRECIMIENTO DE LAS PLANTAS DE SOJA
Un botnico plant 60 brotes de soja. A los 12 das de crecimiento, recogi 12 plantas y las pes
despus de secarlas. Repiti el experimento a los 23, 27, 31 y 34 das de crecimiento.
Tenemos dos variables: Tiempo de crecimiento (das) = X
Peso de la planta despus de secarla (gramos) = Y

Una transformacin
logartmica puede
cambiar este grfico
no lineal en otro
aproximadamente
lineal. Adems se
consigue la
homocedasticidad.

La transformacin es (X,Y) ------------------------------------------------>

Estadstica en Ciencias Medioambientales

(X, log (Y))

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

41

Ejercicio 6.
Con respecto a los datos del problema 2 y suponiendo que el modelo lineal es aplicable, estimar
la media y la desviacin tpica de la reduccin en la temperatura corporal que debera
producirse en ratones que reciben una dosis de alcohol de 2 gr./kg.
Aplicando el modelo lineal, podemos estimar la media y la desviacin tpica de la reduccin en
la temperatura corporal Y cuando los ratones reciben una dosis de alcohol de 2 g./kg. (X =
log(2) = 0.301) como:

Y | X =log( 2 ) = 0.5922 + 7.6404 log(2) = 1.7077


Y | X =log(2) = sY | X = 0.9147

Esta prediccin es vlida, ya que el valor investigado est dentro del rango de estudio.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

42

Ejercicio 7.
Con respecto a los datos del peso de las mazorcas de maz del problema 3, y suponiendo que
el modelo lineal es aplicable:
a) Estimar el peso medio de las mazorcas de maz en una parcela que contiene
(i) 100 plantas y (ii) 120 plantas.
Sea X la densidad (nmero de plantas en la parcela) y Y el peso medio de las mazorca (gr. de
grano por mazorca), la recta de regresin que permite la estimacin del peso medio de las
mazorca de maz en funcin del nmero de plantas en la parcela era:

Y = 316.376 0.721 X

Para una parcela con x=100 plantes, el valor estimado de Y con la recta de regresin anterior es:

y = 316.38 0.721 100 = 316.38 72.1 = 244.28


Para una parcela con x=120 plantes, el valor estimado de Y con la recta de regresin anterior es:

y = 316.38 0.721 120 = 316.38 85.52 = 229.86


b) Suponiendo que cada planta tiene una mazorca, cuntos gramos podramos esperar en una parcela con
100 plantas? y en una con 120 plantas?
Si suponemos que cada planta tiene una mazorca y que en la parcela hay 100 plantas, tendremos 100
mazorcas en total. Como el peso medio estimado de cada mazorca es de = 244.28 g, el peso total sera:

244.28 100 = 24428 g = 24.428 kg


En cambio, si suponemos que hay 120 plantas y cada una tiene una mazorca, teniendo en cuenta los valores
obtenidos en el apartado anterior, el peso total esperado sera:

229.86 120 = 27583 g = 27.583 kg

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

43

Ejercicio 8.
Con respecto a los datos de la leucina del problema 1, construir un intervalo de confianza al
95% para 1.
La pendiente estimada en el problema 1 era:

b1 =

SPXY 81.9
=
= 0.0292 = 1
2800
SS X

Vamos a construir un intervalo de confianza al 95% para 1, que es el parmetro poblacional de la pendiente de
la relacin lineal entre X e Y.
sY2| X
0.0839 2
=
= 0.0016
SE (b1 ) =
2800
SS X

IC95% ( 1 ) = [0.0292 1.96 0.0016,0.0292 + 1.96 0.0016] = [0.0261,0.0323]


Ejercicio 9.
Con respecto a los datos de la temperatura corporal del problema 2, construir un intervalo de confianza al 95%
para 1.
SP
6.92369
Para construir un intervalo de confianza
b1 = XY =
= 7.6404
0.906191
SS X
para el parmetro 1, necesitamos una
estimacin y el error estndar de la
sY2| X
0.9147 2
=
0.9147,
SS
=
0
.
906191

(
)
=
=
= 0.9609
s
SE
b
Y|X
X
1
misma:
SS X
0.906191

IC95% ( 1 ) = [b1 t 0.05,15 2 SE (b1 ), b1 + t 0.05,15 2 SE (b1 )] =


= [7.6404 2.160 0.9609,7.6404 + 2.160 0.9609] = [5.5649,9.7 160]

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

44

Ejercicio 10.
Con respecto a los datos de crecimiento del hongo del problema 5:
a) Calcular el error estndar de la pendiente b1.
El error estndar del estimador de la pendiente de la recta de regresin se calcula como:

sY2| X

1.2954 2
= 0.0359
SS X
1303
b) Consideremos la hiptesis nula de que el cido laetisrico no afecta al crecimiento del hongo. Suponiendo
que el modelo lineal es aplicable, formular esta afirmacin como una hiptesis sobre la verdadera recta de
regresin, y contrastar esta hiptesis contra la alternativa de que el cido laetisrico inhibe el crecimiento del
hongo. Considerar = 0.05.
Vamos a construir un contraste de hiptesis sobre la pendiente de la verdadera recta de regresin entre estas
variables. Consideramos como hiptesis nula que el cido laetisrico no afecta al crecimiento del hongo, o lo
que es lo mismo, que la pendiente de la regresin entre ambas variables es cero. Como hiptesis alternativa
vamos a considerar que el cido inhibe el crecimiento del hongo, o lo que es lo mismo, que la pendiente de la
regresin es negativo:
SE (b1 ) =

H0: 1 = 0
HA: 1 < 0

Para nuestros datos tenemos que:


1 = b1 = 0.712 < 0

Los datos estn en la direccin de la hiptesis alternativa

Para resolver este contraste, calculamos el estadstico:


b1
0.712
=
= 19.840
ts =
SE (b1 ) 0.0359
Bajo la hiptesis nula este estadstico de contraste tiene una distribucin t de Student con n2=10 grados de
libertad.

t 0.0001 = 6.211<| t s |= 19.840 p - valor(bilateral) < 0.0001 p - valor < 0.00005

Luego para un nivel de significacin =0.05 hay evidencia que el cido laetisrico inhibe el crecimiento del
hongo.
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

45

Ejercicio 11.
Un equipo de fisilogos cultiva 13 tiestos individuales de plantas de soja en un invernadero. En la
tabla siguiente se presentan las medidas del rea total de las hojas (en cm2) y el peso total en
seco (en gr.) de cada planta despus de 16 das de crecimiento.

Media
SS

Planta rea hojas (X) Peso en seco (Y)


1
411
2.00
2
550
2.46
3
471
2.11
4
393
1.89
5
427
2.05
6
431
2.30
7
492
2.46
8
371
2.06
9
470
2.25
10
419
2.07
11
407
2.17
12
489
2.32
13
439
2.12
443.8
2.174
28465.7 0.363708
SPXY = 82.8977

a) Calcular el coeficiente de correlacin entre ambas variables.


El coeficiente de correlacin entre ambas variables es:
SPXY
82.8977
r=
=
= 0.8147
SS X SSY
28465.7 0.363708

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

46

b) Calcular el valor de sY y sY|X especificando las unidades de cada uno. Comprobar que se cumple
la relacin aproximada entre sY, sY|X y r.
La desviacin tpica muestral de la variable Y es:

sY =

SSY
0.363708
=
= 0.1741 g
n 1
12

La desviaci tpica residual seria:


2
82.8977 2
SPXY
= 0.363708
= 0.1223
SS (resid ) = SSY
28465.7
SS X

sY | X =

SS (resid )
0.1223
=
= 0.1054 g
n2
11

Vamos a comprobar que se cumple la relacin aproximada entre estas desviaciones tpicas y el coeficiente de
correlacin:
s
Y|X

sY

0.10544
= 0.6056 1 r 2 = 1 0.8147 2 = 0.3362 = 0.5799
0.1741

c) Calcular la recta de regresin de Y sobre X.


2,50

La recta de regresin de Y sobre X sera:


Y = b0 + b 1 X
con:

b0 = y b1 x = 2.174 0.0029 443.8 = 0.8816

2,30

Pes en sec

SP
82.8977
b1 = XY =
= 0.0029
SS X
28465.7

2,40

2,20

2,10

2,00

d) Dibujar la nube de puntos de los datos y dibujar


la recta de regresin en la grfica.

1,90

1,80
350

400

450

rea fulles

Estadstica en Ciencias Medioambientales

500

550
R Sq Linear = 0,664

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

47

Ejercicio 12.
Proceder como en el problema 11 pero con los datos del problema 2.
El coeficiente de correlacin entre la reduccin de la temperatura corporal (Y) sobre el logaritmo
de la dosis (X) es:
SPXY
6.92369
=
= 0.9107
r=
0.906191 63.7773
SS X SSY
La desviacin tpica de la variable dependiente es:

SSY
=
n 1

sY =

63.7773
= 2.1344 C
15 1

La desviacin tpica residual es:


sY | X =

Podemos ver que:

sY | X
sY

SS ( resid )
10.8773
=
= 0.9147 C
n2
15 2

0.9147
= 0.4286 1 r 2 = 1 0.9107 2 = 0.1706 = 0.4130
2.1344

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

48

Ejercicio 13.
Un veterinario anatomista mide la densidad de las clulas nerviosa en regiones especficas del
intestino de nueve caballos. Cada valor de la densidad es el promedio del nmero de clulas
nerviosas en cinco secciones iguales de tejido. Los resultados se muestran en la siguiente tabla
para la regin 1 (regin media del yeyuno) y regin 2 (regin mesentrica del yeyuno).
Animal
1
2
3
4
5
6
7
8
9
Media
SS

Regin 1
50.6
39.2
35.2
17.0
11.2
14.2
24.2
37.4
35.2
29.36
1419.82

Regin 2
38.0
18.6
23.2
19.0
6.6
16.4
14.4
37.6
24.4
22.02
853.396

SPXY = 893.689

a) Obtener el coeficiente de correlacin entre las


densidades de las dos regiones.
El coeficiente de correlacin entre ambas variables es:

r=

893.689
SPXY
=
= 0.8119
1419.82 853.396
SS X SSY

b) Dibujar la nube de puntos.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

49

c) Contrastar la hiptesis de que el coeficiente de correlacin (naturalmente el poblacional) es


cero contra la hiptesis alternativa de que es positivo.
Para esta muestra de n = 9 caballos, podemos plantear el siguiente contraste de hiptesis para el
coeficiente de correlacin poblacional:
H0: El coeficiente de correlacin es cero ( = 0)
HA: El coeficiente de correlacin es positivo ( > 0)
Como tenemos un contraste direccional, en primer lugar vamos a comprobar la direccionalidad de los datos:

= r = 0.8119 > 0
El estadstico que nos permite resolver el contraste anterior es:

ts = r

n2
92
= 0.8119
= 3.680
2
1 r
1 0.8119 2

Bajo la hiptesis nula este estadstico sigue una distribucin t de Student con n-2=9-2=7 grados de libertad.

t 0 .01 = 3.499 < t s = 3.680 < t 0 .001 = 5.408


0.001 < p - valor(bila teral) < 0.01 0.0005 < p - valor < 0.005
En consecuencia, hay evidencia que existe una correlacin lineal positiva entre los datos de las dos regiones.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

50

Ejercicio 14.
En un estudio, por medio de detectores radioactivos, de la capacidad corporal para absorber
hierro y plomo, participaron diez sujetos. A cada uno se le da una dosis oral idntica de hierro
(sulfato ferroso) y de plomo (cloruro de plomo-203). Despus de doce das se mide la cantidad de
cada componente retenida en el sistema corporal y, a partir de stas, se determinan los
porcentajes absorbidos por el cuerpo. Los datos obtenidos fueron:
Hierro (%) 17 22 35 43 80 85 91 92 96 100
Plomo (%) 8 17 18 25 58 59 41 30 43 58
a) Dibuja la nube de puntos. Basndose en ella, se puede esperar que el coeficiente de correlacin est
prximo a 1, -1 0?.
100,00

80,00

A partir de la nube de puntos, podemos esperar un


coeficiente de correlacin prximo a 1, ya que la relacin
entre ambas variables es positiva y adems bastante
ajustada a una recta.

ferro

60,00

40,00

20,00

0,00
0,00

10,00

20,00

30,00

40,00

50,00

60,00

plom

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

51

b) Halla e interpreta el coeficiente de determinacin.


El coeficiente de determinacin se calcula como:

x=

x = 35.7

y=

SPXY

= 66.1

sX =
sY =

(x x)

n 1
(
y y)2

= 18.84

SS X = (n 1) s X2 = 3196.1

= 32.90

SSY = (n 1) sY2 = 9740.9

n
n 1
= ( x x )( y y ) = 1360.07 + 824.67 + 550.47 + 247.17 + 309.97 + 440.37 + 131.97

- 147.63 + 218.27 + 755.97 = 4691.3

El coeficiente de determinacin expresa el porcentaje de la


variabilidad de la variable dependiente que est explicado por la
2
2
SP
regresin. En este problema, podemos decir que el 70.69% de la
4691.3
XY
=
= 0.7069 variabilidad del porcentaje de plomo observado est determinada
r2 =
SS X SSY 3196.1 9740.9
por la regresin definida, y que por tanto queda un 29.31% de
variabilidad sin explicar por este modelo.
c) Comprueba la idoneidad del modelo de regresin lineal. Si ste es apropiado, estima la recta de regresin y
utilzala para predecir el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe el 15%
del plomo ingerido.
A la vista de les datos anteriores parece que es asumible la linealidad en nuestros datos, aunque la
homocedasticidad es probablemente ms dudosa ya que parece existir ms variabilidad para los valores
mayores de la variable independiente. Suponiendo que el modelo de regresin lineal es vlido, la recta de
regresin ajustada en este caso sera:

SPXY 4691 .3
=
= 1.4678 b0 = y b1 x = 66.1 1.4678 35.7 = 13.6988
Y = 13.6988 + 1.4678 X
SS X
3196 .1
A partir de la recta de regresin anterior, podemos predecir el porcentaje de hierro absorbido por un individuo
cuyo sistema corporal absorbe el 15% del plomo ingerido ya que est dentro del rango de estudio:
b1 =

Y | X =15 = 13.6988 + 1.4678 15 = 35.7161


Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

52

Ejercicio 15.
Una de las variables consideradas en los trabajos habituales que se dedican a estudiar la
influencia de las aguas residuales de las alcantarillas en la contaminacin de las aguas de los
lagos es la concentracin de nitrato en el agua. Para monitorizar esta variable se utiliza
habitualmente un antiguo mtodo manual que aunque costoso proporciona una informacin
prcticamente correcta acerca de dicha concentracin. Se propone un nuevo mtodo de lectura
automtica mucho menos costoso que el manual. Si este nuevo mtodo fuera fiable, se
desechara el antiguo mtodo manual pasando a utilizarse de forma habitual el automtico. A tal
efecto se realiza un experimento que consiste en determinar la concentracin de nitrato (en
microgramos de nitrato por litro de agua) en el agua de 10 muestras por ambos mtodos. Los
resultados obtenidos son los siguientes:
Manual: 25 40 120 75 150 300 270 400 450 575
Autom.: 30 80 150 80 190 350 240 360 470 585
a) Dibujar la nube de puntos.
600

Vamos a considerar
X = resultado con el mtodo automtico
Y = resultado con el mtodo manual

500

Manual

400

Queremos estudiar si a partir de los valores observados de


la variable independiente (medida automtica, mucho
menos costosa de obtener) podemos estimar los valores de
la variable dependiente (medida manual). La nube de
puntos sera:

300

200

100

0
0

100

200

300

400

500

600

Automtic

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

53

b) Obtener el coeficiente de correlacin entre las dos variables consideradas.


El coeficiente de correlacin entre ambas variables es:
Para los datos obtenidos
con el mtodo automtico x = x = 253.5
n
tenemos:
Para los datos obtenidos
con el mtodo manual
tenemos:

y=

sX =

y = 240.5

sY =

SPXY
SS X SSY

r=

(x x)

= 183.33

n 1

( y y)2
n 1

SS X = (n 1) s X2 = 302502.5

SSY = (n 1) sY2 = 322372.5

= 189.26

SPXY = ( x x )( y y ) = 308457.5

La suma de productos ser:

SS (resid )
7842.8
La suma de cuadrados
SP 2
308457.52
sY | X =
=
= 31.31
SS (resid ) = SSY XY = 322372.5
= 7842.8
y la desviacin tpica
n2
8
SS X
302502.5
residual sera:
308457.5
SPXY
En consecuencia, el coeficiente de correlacin entre
=
= 0.9878
r=
302502.5 322372.5
SS X SSY
ambas variables ser:

c) Obtener la recta de regresin de Y sobre X, comentando la eleccin de la variable explicativa y de la variable


respuesta en este problema.
Los coeficientes de la recta de
regresin de Y sobre X seran:

b1 =

SPXY 308457.5
=
= 1.02
SS X 302502.5

b0 = y b1 x = 240.5 1.02 253.5 = 18.07

Por tanto, la recta de regresin que nos permite estimar la medida manual a partir de la medida automtica es:
Y = 18.07 + 1.02 X
d) Te parece que el nuevo mtodo es fiable? Comentar la respuesta.
Depende del grado de exactitud que se necesite en las medidas. Evidentemente, no podemos decir que las
dos medidas sean iguales, ya que:
- La variabilidad no explicada por la regresin es bastante elevada para la magnitud de los datos.
- La ordenada en el origen parece claramente diferente de 0.
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

54

Ejercicio 16.
Entre las aplicaciones ms frecuentes de las tcnicas de regresin se encuentran los problemas
en los que la variable respuesta considerada es difcil costosa de observar directamente. En
tales casos las tcnicas de regresin utilizan la relacin entre la variable respuesta y la variable
explicativa para, a travs del comportamiento de esta ltima (que debera ser por contra
fcilmente observable) estudiar el comportamiento de la variable respuesta. Por ejemplo, resulta
extremadamente difcil obtener medidas del volumen de un objeto irregular, pero sin embargo
resulta muy fcil pesarlo. En la siguiente tabla se presenta el peso en kilos y el volumen en
decmetros cbicos de 18 nios de edades comprendidas entre los 5 y 8 aos.
Volumen
16.7
10.4
13.5
15.7
11.6
10.2
14.5
15.8
17.6

Peso
15.8
15.1
12.1
18.4
17.1
16.7
16.5
15.1
15.1

Volumen
15.2
14.8
11.9
18.3
16.7
16.6
15.9
15.1
14.5

18,0

volum

Peso
17.1
10.5
13.8
15.7
11.9
10.4
15.0
16.0
17.8

15,0

12,0

a) Dibujar la nube de puntos y obtener la recta de regresin de Y


sobre X.

x=

x = 15.0
n

y = 14.7
y=

sX =

(x x)

10,0

12,0

14,0

16,0

18,0

pes

n 1
( y y) 2

= 2.38

SS X = (n 1) s X2 = 96.39

SPXY = ( x x )( y y ) = 95.24

sY =
= 2.36
SSY = (n 1) s = 94.75
n
n 1
La recta de regresin del volumen en decmetros cbicos (Y) sobre el peso en kilos (X) sera:
SP
95.24
Y = 0 .104 + 0 .988 X
b0 = y b1 x = 14.7 0.988 15.0 = 0.104
b1 = XY =
= 0.988
SS X 96.39
Estadstica en Ciencias Medioambientales

2
Y

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

55

b) Obtener el coeficiente de correlacin entre el peso y el volumen. Contrastar la hiptesis de que


el coeficiente de correlacin entre el peso y el volumen es cero contra la hiptesis alternativa de
que es positivo.
El coeficiente de correlacin muestral entre el peso y el volumen es:
SPXY
95.24
=
= 0.9966
r=
96.39 94.75
SS X SS Y
Siga el coeficiente de correlacin poblacional entre el peso y el volumen, vamos a resolver el siguiente
contraste de hiptesis:
H0: = 0
HA: > 0
Podemos ver que la estimacin obtenida a partir de los datos est en la direccin de la hiptesis alternativa. El
estadstico que permite resolver este contraste es:

ts = r

18 2
n2
= 0.9966
= 48.082
2
1 r
1 0.99662

Bajo la hiptesis nula este estadstico sigue una distribucin t de Student con n 2 =182=16 grados de libertad.

t 0.0001 = 5.134 < t s = 48.082 p - valor(bilateral) < 0.0001 p - valor < 0.00005
Por tanto, hay evidencia que el coeficiente de correlacin entre el peso y el volumen es positivo.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

56

Ejercicio 17.
En un estudio metablico, se observaron cuatro cerdos en tres instantes de tiempo determinados:
cuando alcanzaron los 30, 60 y 90 kg. de peso. En cada uno de estos momentos, se analiz la
cantidad de comida ingerida y el volumen fecal y urinario de cada uno de ellos durante 15 das
consecutivos. A partir de estos datos se calcul la cantidad de nitrgeno incorporada en el tejido
corporal por da. Los resultados fueron:
Animal

Cantidad de nitrgeno
Peso corporal
30 kg. 60 kg. 90 kg.
1
15.8 21.3 16.5
2
16.4 20.8 18.2
3
17.3 23.8 17.8
4
16.4 22.1 17.5
Media
16.47 22.00 17.50

Supongamos que los datos son analizados segn el modelo de regresin lineal. Si consideramos que el peso
corporal es la variable explicativa y la cantidad de nitrgeno la variable respuesta, operando obtendramos:
x = 60 y = 18.7 SSX = 7200 SSY = 77 SPXY = 123
La pendiente es b1 = 0.017 con un error estndar SE(b1) = 0.032. El valor del estadstico de contraste es ts = 0.53
que no es significativo a cualquier nivel de significacin razonable. De acuerdo con este anlisis, no existe
suficiente evidencia experimental para concluir que la cantidad de nitrgeno depende del peso corporal bajo las
condiciones de este estudio. El anlisis realizado es errneo en dos sentidos. Cules son?
En primer lugar, no se cumple la independencia en las observaciones, ya que estamos comparando medidas
de un mismo cerdo con datos de otros cerdos.
Adems, si miramos los datos tampoco se cumple la hiptesis de linealidad, ya que los mayores valores se dan
para x=60, mientras que los valores para x=30 y x=90 son ms pequeos. Parece que se ajuste mejor a la
relacin una curva de segundo grado.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

57

Ejercicio 18.
Con respecto a los datos del crecimiento del hongo del problema 5
a) Obtener el coeficiente de correlacin entre las dos variables involucradas.
El coeficiente de correlacin entre las dos variables involucradas es:
SPXY
927.75
=
= 0.9875
r=
1303 677.349
SS X SS Y
b) Supongamos que un segundo investigador intenta repetir el experimento utilizando concentraciones de 0, 2, 4,
6 y 10 mg., con dos placas de petri para cada concentracin. El coeficiente de correlacin r que obtendra este
segundo investigador, estara alrededor del valor calculado en el apartado anterior?, sera mayor o menor?
Comentar la respuesta.
A la vista de los datos, parece que cuanto menor sea el rango de valores de X peor ser la calidad esperada
del ajuste, y por tanto menor ser el coeficiente de correlacin.
Ejercicio 19.
En un estudio sobre el grillo mormn (Anabrus simplex), se obtiene para las hembras un
coeficiente de correlacin entre el peso corporal y el peso de los ovarios de r = 0.836. La
desviacin tpica del peso de los ovarios de los grillos hembra fue de 0.429. Suponiendo que
el modelo lineal es aplicable, estimar la desviacin tpica del peso de los ovarios de los
grillos hembra cuyo peso corporal es de 4 gramos.
Sabemos que si el modelo lineal es aplicable, la desviacin tpica del peso de los ovarios de los grillos hembra
con un peso corporal de 4 gramos es:

Y | X =4 = sY | X sY 1 r 2 = 0.429 1 0.8362 = 0.2354

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

58

Ejercicio 20.
En un estudio sobre las prdidas en cosechas debidas a la polucin del aire, se utilizan plantas
de habichuelas colocadas en cmaras abiertas por la parte superior, y fumigadas con distintas
concentraciones de dixido de azufre. Despus de un mes de fumigacin, se registra el
rendimiento total de vainas de habichuelas en cada cmara. Los resultados son los siguientes:
Concentracin de dixido de azufre (ppm), X
0
0,06
0,12
0,30
Cosecha (kg.), Y
1,15
1,19
1,21
0,65
1,30
1,64
1,00
0,76
1,57
1,13
1,11
0,69
Media
1,34
1,32
1,11
0,70
Si con estos datos se obtienen los resultados siguientes:
Media x = 0,12
Media y = 1,117
SSX = 0,1512
SSY = 1,069067
SPXY = 0,342
a) Obtener la recta de regresin de Y sobre X.
Los coeficientes de la recta de regresin son:
b1 =

SPXY 0.342
=
= 2.2619
0.1512
SS X

1,75

1,50

Por tanto, la recta de regresin de Y sobre X sera:


Y = 1.3884 2.2619 X

collita

b0 = y b1 x = 1.117 (2.2619) 0.12 = 1.3884

1,25

1,00

b) Dibujar la nube de puntos y dibujar en la


grfica la recta de regresin obtenida.

0,75

0,00

0,05

0,10

0,15

dioxid

Estadstica en Ciencias Medioambientales

0,20

0,25

0,30

Sq r lineal = 0,724

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

59

c) Suponiendo que el modelo lineal es aplicable, obtener estimaciones de la media y la desviacin


tpica del rendimiento de las plantas de habichuela expuestas a 0.24 ppm de dixido de azufre.
Para x = 0.24 ppm, la estimacin de la media y desviacin tpica del rendimiento de las plantas de
habichuela expuestas es:
Y | X =0.24 = b0 + b1 25 = 1.3884 2.26190.24 = 0.8456

SS ( resid ) = SS Y

2
SPXY
(-0.342) 2
= 1.069067
= 0.2955
SS X
0.1512

Y | X =0.24 = sY | X =

SS (resid )
=
n2

0.2955
= 0.1719
12 2

d) Cul de las hiptesis del modelo lineal parece no cumplirse en este problema?
Como se observa en el grfico anterior, no parece asumible la hiptesis de homocedasticidad, ya que la
desviacin tpica de las concentraciones menores es mayor que la de las concentraciones mayores. Es decir,
parece que al incrementarse la concentracin, las cosechas obtenidas tienen menos variabilidad.
e) Consideremos la hiptesis nula de que la concentracin de dixido de azufre no influye en el rendimiento de
las plantas de habichuela. Suponiendo que el modelo lineal es aplicable, formular esta afirmacin como un
contraste de hiptesis sobre la verdadera recta de regresin. Utilizar los datos para contrastar la hiptesis contra
una alternativa direccional.
Suponiendo que el modelo lineal es aplicable, vamos a resolver el siguiente contraste de hiptesis:
H0: La concentracin de dixido de azufre no influye en la cosecha
H0: 1 = 0
HA: La concentracin de dixido de azufre influye negativamente en la cosecha
HA: 1 < 0
Para nuestros datos tenemos que:

1 = b1 = 2.2619 < 0 Los datos estn en la direccin de la hiptesis alternativa

Para resolver este contraste sobre la pendiente de la relacin lineal entre ambas
variables, vamos a considerar el siguiente estadstico de contraste:
b

ts =

Hemos visto anteriormente que:

b1 =

SPXY
= 2.2619
SS X

SS (resid ) = SS Y

2
SPXY
= 0.2955
SS X

Estadstica en Ciencias Medioambientales

SE (b1 ) =

sY2| X
SS X

SE (b1 )

0.1719 2
= 0.4421
0.1512

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.


Por tanto:

ts =

60

que bajo la hiptesis nula sigue una


distribucin t de Student con n 2 = 10 grados
de libertad. Por tanto:
= 6.211 0.0001 < p - valor(bilateral) < 0.001 0.00005 < p - valor < 0.0005

b1
2.2619
=
= 5.117
SE (b1 )
0.4421

t 0.001 = 4.587 <| t s |= 5.117 < t 0.0001

Hay una fuerte evidencia de que la concentracin de dixido de azufre influye negativamente en la cosecha.
f) Utilizar un anlisis de la varianza para contrastar la hiptesis de que la concentracin de dixido de azufre no
influye en el rendimiento de las plantas de habichuela. Comparar con los resultados del apartado anterior. (Se
puede comprobar que SS(entre) = 0.7984).
Suma de Cuadrados

La tabla ANOVA
correspondiente a este
problema es:

Grados de
libertad

MS

0,7736

Regresin

SS(reg) = SSY SS(resid) = 0.7736

Residual

SS(resid) = 0.2955

n 2 = 10

0,0296

Total

SSY = 1.069067

n 1 = 11

0,0972

Vamos a considerar el contraste:


H0: La concentracin de dixido de azufre no explica una parte significativa del valor de la cosecha
HA: La concentracin de dixido de azufre si explica una parte significativa del valor de la cosecha
El estadstico de este contraste sera:
MS (reg )
0.7736
Fs =
=
= 26.178
MS (resid ) 0.0296
Que bajo la hiptesis nula sigue una distribucin F de Snedecor con 1 grado de libertad en el numerador y 10
grados de libertad en el denominador.
F0.001 = 21.04 < Fs = 26.178 < F0.0001 = 38.58 0.0001 < p - valor < 0.001
En consecuencia, la concentracin de dixido de azufre explica una parte significativa del valor de la cosecha.
Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

61

Ejercicio 21.
Otra forma de analizar los datos del problema anterior es considerar como observacin a la media
de cada tratamiento. En este caso los datos podran resumirse en la siguiente tabla:
Dixido de azufre, X Rendimiento medio, Y
0
1.34
0.06
1.32
0.12
1.11
0.30
0.70
Media
0.12
1.117
SS
0.0504
0.264875
SPXY = -0.114
a) Para la regresin del rendimiento medio sobre X, calcular la recta de regresin y la desviacin tpica residual.
Comparar los resultados obtenidos con los del problema anterior.
Los coeficientes de la recta de regresin son:
SP
0.114
b0 = y b1 x = 1.117 (2.2619) 0.12 = 1.3884
= 2.2619
b1 = XY =
0.0504
SS X
Por tanto, la recta de regresin sobre las medias para cada tratamiento es la misma que la que habamos
obtenido con los valores individuales. La desviacin tpica residual es:
SS (resid ) = SS Y

2
SPXY
(-0.114) 2
= 0.264875
= 0.0070
0.0504
SS X

sY | X =

SS (resid )
0.0070
=
= 0.0592
n2
42

Luego la desviacin tpica residual sobre las medias es menor que la obtenida sobre los valores individuales.
b) Obtener el coeficiente de correlacin entre el rendimiento medio y el dixido de azufre. Obtener tambin el
coeficiente de correlacin entre el rendimiento individual por cmaras y el dixido de azufre. Comentar los
resultados obtenidos.
r=

Sobre las medias:

SPXY

SS X SS Y

r=

Para los valores individuales:

SPXY
SS X SS Y

=
=

0.114

0.0504 0.264875
0.342
0.1512 1.069067

Estadstica en Ciencias Medioambientales

= 0.9867
= 0,8506

El coeficiente de correlacin
sobre las medias es mayor que
sobre los valores individuales.

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

62

Ejercicio 22.
A lo largo de las costas protegidas del rea IndoPacfica se ha descubierto una especie de
lapas que se pegan a las rocas. Un bilogo desea estudiar la relacin entre la altura de la
concha del Patelloida Pygmaea (nombre con el que se ha bautizado la lapa) y su longitud. La
informacin obtenida observando 13 ejemplares fue la siguiente:
Altura:
0.9, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0, 2.1, 2.2, 2.2, 2.3, 2.4, 2.7
Longitud: 3.1, 3.6, 4.3, 5.5, 5.2, 5.3, 5.3, 5.7, 5.3, 5.8, 6.4, 6.3, 6.3
Altura Media Longitud Media SS(altura) SS(longitud) SPxy
1.95mm
5.24mm
2.5523
12.3508 5.157
Realiza el correspondiente anlisis de regresin lineal y valora la conveniencia de utilizar la recta de regresin
obtenida para predecir la longitud a partir de la altura de la concha.
Sea X la altura de la concha y Y su longitud. Los coeficientes de la recta de regresin seran:
SP
5.157
= 2.0205
b1 = XY =
b0 = y b1 x = 5.24 (2.0205) 1.95 = 1.3000
SS X
2.5523
La recta de regresin de Y sobre X es:
Y = 1.3 + 2.0205 X
Vamos a dibujar una nube de punto con los datos y la recta de regresin obtenida:
El coeficiente de correlacin es:
r=

longitud

6,0

4,0

Sq r lineal = 0,844

1,0

1,5

2,0

alria

2,5

SPXY
SS X SS Y

5.157
2.5523 12.3508

= 0.9185

Como se observa, el coeficiente de correlacin es positivo y prximo a


1, lo que indica una buena correlacin lineal entre ambas variables.
Adems, del grfico anterior no se detecta un incumplimiento
destacable de las hiptesis del modelo lineal para estos datos, por lo
que podemos utilizar la recta de regresin obtenida para predecir la
longitud a partir de la altura de la concha.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

63

Suponiendo que has decidido utilizar la recta como una descripcin de la relacin entre ambas
variables, contesta a las siguientes preguntas, argumentando tus respuestas:
i) Cul ser aproximadamente la longitud de una concha cuya altura es de 1.4 mm.?, y de
una de 3 mm.?
Vamos a estimar la longitud de una concha de altura 1,4 mm. Como este valor est en el rango
de estudio, podemos utilizar la recta de regresin anterior:

y ( x = 1.4) = 1.3 + 2.0205 1.4 = 4.1287


Para la estimacin de la longitud de una concha de altura de 3 mm., debemos tener en cuenta que este valor
est fuera del rango de estudio, y por tanto no podemos estar seguros de la validez del ajuste.
ii) Qu porcentaje de las diferencias observadas en las longitudes de las lapas queda explicada por las
diferentes alturas?
Este valor vendr dado por el coeficiente de determinacin, definido como:

r 2 = 0.9185 2 = 0.8437
Por tanto, el 84.37% de las diferencias observadas en las longitudes de las conchas queda explicada por las
diferentes alturas.
iii) Da un estimador de la desviacin tpica de las longitudes de las lapas cuyas alturas son iguales a 1.4 mm.
SS (resid ) = SS Y

2
SPXY
5.157 2
= 12.3508
= 1.9309
SS X
2.5523

Y | X =1.4 = sY | X =

SS (resid )
1.9309
=
= 0.4190
n2
13 2

Con qu valor estimaras la longitud media de esta subpoblacin de lapas? dem para la poblacin de lapas de
altura igual a 1.7 mm.
Y | X =1.4 = b0 + b1 1.4 = 1.3 + 2.0205 1.4 = 4.1287

Estadstica en Ciencias Medioambientales

Y | X =1.7 = b0 + b1 1.7 = 1.3 + 2.0205 1.7 = 4.7349

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

64

Ejercicio 23.
La siguiente tabla muestra las cantidades de metil mercurio consumidas al ingerir pescado
contaminado y las correspondientes cantidades totales de mercurio en sangre de 12 individuos
participantes en un estudio sobre los efectos de la contaminacin marina.
Cantidad de metil mercurio
(g Hg/da)
180
200
230
410
600
550
275
580
105
250
460
650

Cantidad de mercurio en sangre


(ng/g)
90
120
125
290
310
290
170
375
70
105
205
480
(SPXY = 253441,644)

Existe relacin lineal entre ambas variables? Obtener una medida de la fuerza de dicha relacin lineal y valorar
el resultado obtenido.
Sea X = cantidad de metil mercurio consumido y Y = cantidad de mercurio en sangre, vamos a estudiar si hay
relacin lineal entre ambas variables. A partir de la muestra tenemos:

x = 374.2
x=
n

y=

y = 219.2
n

sX =

sY =

(x x)

= 189.63

n 1

( y y)

SS X = (n 1) s X2 = 395541.667

SPXY = 253441.644
2

n 1

Estadstica en Ciencias Medioambientales

= 129.30

SSY = (n 1) sY2 = 183891.667


Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

65
500

Luego los coeficientes de la recta de regresin de Y sobre X son:

400

SPXY 253441.644
=
= 0.641
395541.667
SS X

300

sang

b1 =

b0 = y b1 x = 219.2 0.641 374.2 = 20,579

200

El coeficiente de correlacin es una medida de la fuerza lineal


entre ambas variables y vale:
SPXY
253441.644
r=
=
= 0.9397
SS X SS Y
395541.667 183891.667

100

0
100

200

300

400

ingerit

500

600

700

Sq r lineal = 0,774

Podemos ver que su valor est prximo a 1, lo que quiere decir que la relacin entre las dos variables est muy
ajustada a una recta y, adems, es una relacin creciente.
Cul sera la cantidad media de mercurio en sangre que correspondera a una persona que hubiera consumido
300 g Hg/da? Podramos calcularla para un consumo de 800 g Hg/da?
Segn la relacin anterior, la cantidad media de mercurio en sangre que correspondera a una persona que
hubiera consumido 300 g Hg/da sera:

Y | X =300 = b0 + b1 300 = 20.579 + 0.641 300 = 171.64


En cambio, no podemos calcular el valor para un nivel de consumo de 800 g Hg/da, ya que este valor est
fuera del rango de estudio.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

66

Ejercicio 24.
En un estudio sobre la interaccin de bicicletas y coches se intenta establecer la posible
relacin entre una variable x = espacio disponible de trnsito (definido como la distancia entre el
ciclista y el centro de la calle, medida en pies) e y = distancia de separacin entre el ciclista y un
coche que pasa a su lado. Los datos de diez calles son:
x 12.8 12.9 12.9 13.6 14.5 14.6 15.1 17.5 19.5 20.8
y 5.5 6.2 6.3 7.0 7.8 8.3 7.1 10.0 10.8 11.0
i) Puede considerarse que las variables siguen una relacin lineal?
Vamos a representar grficamente los datos recogidos para estudiar si este modelo es o no aceptable:
11,0

10,0

9,0

A la vista del grfico, el modelo


lineal parece aceptable.

8,0

7,0

6,0
Sq r lineal = 0,923
5,0
12,0

14,0

16,0

18,0

20,0

22,0

ii) Calcula la recta de regresin de la y sobre la x.


A partir de los datos recogidos, tenemos los siguientes estadsticos muestrales:

x=

x = 15.42
n

y = 8.00
y=

sX =

(x x)
n 1

( y y)

= 2.875

SS X = (n 1) s X2 = 74.416

sY =
= 1.977
n
n 1
Estadstica en Ciencias Medioambientales

SPXY = ( x x )( y y ) = 49.140

SSY = (n 1) s = 35.160
2
Y

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

67

Los coeficientes de la recta de regresin son:

b1 =

SPXY 49.140
=
= 0.660
74.416
SS X

b0 = y b1 x = 8 0.660 15.42 = 2.182

Por tanto, la recta de regresin de Y sobre X es:

Y = 2.182 + 0.660 X

iii) Cul sera la separacin media estimada entre bicicleta y coche en una calle con espacio disponible de
trnsito de 15 pies? Cul sera la estimacin de la desviacin tpica residual en este caso?
Para un espacio disponible de trnsito (definido como la distancia entre el ciclista y el centro de la calle) de x =
15 pies, la distancia de separacin media entre el ciclista y un coche que pasa a su lado es:
Y | X =15 = 2.182 + 0.660 15 = 7.718
La desviacin tpica residual estimada en este caso es:

SS (resid )
2.711
=
= 0.5821
n2
10 2
iv) Cmo variara la separacin media entre bicicleta y coche si el espacio disponible de trnsito de la calle
fuese de 12 pies?
SS (resid ) = SS Y

2
SPXY
49.140 2
= 35.160
= 2.711
SS X
74.416

Y | X =15 = sY | X =

En este caso, el valor estara fuera del rango de estudio, por la que no podemos estar seguros de la validez de
nuestras predicciones.
v) Qu porcentaje de la variacin de la separacin es explicado por el modelo?
El coeficiente de correlacin es:

r=

El coeficiente de determinacin sera:

SPXY
SS X SS Y

49.140
74.416 35.160

= 0.9607

r 2 = 0.9607 2 = 0.9229

Por tanto, el 92.29% de la variacin de la separacin es explicada por el modelo.


Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

También podría gustarte