Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlacion y Regresion - Ejercicios
Correlacion y Regresion - Ejercicios
6.1. Introduccin
En este tema vamos a considerar estudios en los que intervienen dos variables cuantitativas X e Y.
El objetivo de estos estudios ser analizar la relacin entre X e Y. Como veremos, las tcnicas de
REGRESIN LINEAL Y CORRELACIN se basan en el ajuste de una lnea recta sobre los datos para explicar
la relacin entre X e Y.
Las observaciones de X e Y pueden ser de dos tipos:
Los valores de la variable X son especificados por el experimentador. Para cada valor de X se eligen
individuos con dicho valor y se observa su valor aleatorio para la variable Y (Ejemplo 1).
Las dos variables X e Y son aleatorias. Se eligen al azar n individuos y observamos los valores de las
variables X e Y en ellos (Ejemplo 2).
En los dos casos los clculos son iguales pero la interpretacin puede ser diferente.
Ejemplo 1. ANFETAMINAS Y CONSUMO DE COMIDA
Las anfetaminas son frmacos que inhiben la ganas de comer. En un estudio sobre este efecto, un
farmaclogo asign aleatoriamente 24 ratones a tres grupos de tratamiento. Dos grupos recibieron
una inyeccin de anfetamina con dos niveles diferentes (dosis 2.5 y dosis 5 mg/kg). Los ratones del
tercer grupo recibieron una inyeccin de una solucin salina. Se midi la cantidad de comida
consumida para cada animal en un perodo de tres horas despus de la inyeccin.
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES
En un estudio de una poblacin salvaje de la serpiente Vipera berus, un grupo de investigadores
cazaron nueve hembras adultas y midieron la longitud y el peso.
2,5
5,0
112,6
73,3
38,5
102,0
81,8
81,3
90,2
67,3
57,1
81,5
55,3
62,3
105,6
80,7
51,5
93,0
90,0
48,3
106,6
75,5
42,7
108,3
77,1
57,9
Media
100,0
75,5
55,0
10,7
10,7
13,3
Consideremos:
X = dosis (mg/Kg) de anfetamina
que no es una variable aleatoria sino que est
fijada por el investigador con valores x = 0, 2.5 i 5.
Y = cantidad de comida consumida por el animal en
las tres horas posteriores a la inyeccin
Si representamos los
datos, parece que al
aumentar la dosis de
anfetamina disminuye
el consumo de
alimento.
Peso (g)
60
136
69
198
66
194
64
140
54
93
67
172
59
116
65
174
63
145
Media
63
152
4,6
35,3
Si representamos los
datos, parece que a
mayor longitud de la
serpiente se
corresponde un peso
mayor.
60
136
69
198
66
194
64
140
54
93
67
172
59
116
65
174
63
145
x=
x = 63 cm
n
(x x)
n=9
y=
= 4.6 cm
sY =
= (n 1) s X2 = 8 4.6 2 = 172
SSY =
n 1
SS X =
(x x)
y = 152
n
( y y)
n 1
( y y)
g
2
= 35.3 g
= (n 1) sY2 = 9990
( x x )( y y ) = (60 63)(136 152) + (69 63)(198 152) + (66 63)(194 152) + (64 63)(140 152) +
(54 63)(93 152) + (67 63)(172 152) + (59 63)(116 152) + (65 63)(174 152) + (63 63)(145 152) = 1237
Covarianza muestral
s XY =
SPXY 1237
=
= 176.9
n 1
8
( x x )( y y )
( x x )( y y )
s negatiu
s positiu
SPXY = ( x x )( y y )
( x x )( y y )
s positiu
SPXY =
( x x )( y y ) = ( xy ) x y
y = b0 + b1 x
residuo = y y
Este residuo es una medida del error del ajuste correspondiente al valor x.
Queremos obtener los valores b0 y b1 que definen la recta de regresin
que minimiza:
2
( y y )
= SS (resid )
b1 =
SPXY 1237
=
= 7.19
SS X
172
En el ejemplo de la longitud y
peso de las serpientes, la
recta de regresin ajustada
es: Y = -301 + 7.19 X
Interpretacin
de los
coeficientes de
la recta de
regresin
Observar que la recta de regresin siempre pasa por el par ( x, y) formado por las medias de las
dos variables, ya que:
Para cada valor x tenemos un valor observado y, y un valor ajustado mediante la recta de
regresin. Se define el residuo asociado como (y ) y la suma de cuadrados de los residuos o
suma de cuadrados residual como:
SS (resid ) =
( y y )
=b0+b1x
60
69
66
64
54
67
59
65
63
136
198
194
140
93
172
116
174
145
130,42
195,15
173,57
159,19
87,27
180,76
123,23
166,38
152,00
SUMA
(y- )
5,57
2,84
20,42
19,19
5,72
8,76
7,23
7,61
7,00
0
(y- )
31,08
8,11
417,15
368,32
32,79
76,86
52,30
58,00
49,00
1093,66
SS(resid)
El valor SS(resid)=1093.66 es la suma del cuadrado de las distancias entre los valores observados y los valores
ajustados con la recta de regresin.
Tambin se puede obtener como:
2
SPXY
1237 2
= 9990
= 1093.66
SS (resid ) = SSY
172
SS X
sY | X =
( y y )
SS (resid )
n2
n2
sY | X =
SS ( resid )
1093.66
=
= 12.5 g
n2
92
sY =
( y y)
n 1
SSY
= 35.3 g
n 1
10
Ejercicio 1.
En un estudio sobre la sntesis de las protenas en el oocito de la rana Xenopus laevis, un
bilogo inyecta leucina etiquetada como radioactiva en oocitos individuales. En distintos
instantes de tiempo posteriores a la inyeccin, se realizan medidas de la radioactividad y se
calcula la cantidad de leucina que se ha incorporado a la protena. Los resultados se presentan
en la siguiente tabla; cada valor de la leucina es el contenido de leucina registrado en dos
oocitos, siendo todos los oocitos de la misma hembra.
Tiempo (min)
Leucina (ng)
0
0,02
10
0,25
20
0,54
30
0,69
40
1,07
50
1,50
60
1,74
Media
30
0,83
SS
2800
2,4308
SPXY = 81,9
a) Utilizar regresin lineal para estimar la tasa de incorporacin de la leucina a la protena.
Sea X el tiempo (en minutos) y Y la cantidad de leucina (en ng) incorporada a la protena registrada, vamos a
calcular la recta de regresin lineal que ajuste los datos anteriores.
Sabemos que:
SP
81.9
b1 =
XY
SS X
2800
= 0.02925
11
Leucina
1,50
1,00
0,50
0,00
0
10
20
30
40
50
60
Sq r lineal = 0,986
Temps
SS (resid )
n2
sY | X =
2
SPXY
81.9 2
= 2.4308
= 0.03522
SS (resid ) = SS Y
2800
SS X
sY | X =
SS (resid )
=
n2
0.03522
= 0.08393
72
12
Ejercicio 2.
En una investigacin sobre los efectos fisiolgicos del alcohol (etanol), se asignan de forma
aleatoria 15 ratones a tres grupos de tratamiento. En cada uno de estos grupos se suministran
dosis orales de alcohol diferentes, concretamente 1.5, 3.0 y 6.0 gr. alcohol por kg. de peso
corporal en el grupo 1, 2 y 3 respectivamente. Inmediatamente despus de la dosis se registra
la temperatura corporal (en grados centgrados) de cada ratn. Transcurridos 20 minutos se
registra nuevamente la temperatura corporal de todos los ratones. En la siguiente tabla se
presenta la reduccin (antes menos despus) de la temperatura corporal de cada ratn.
Alcohol
Reduccin en la temperatura corporal
Dosis log(dosis)
Valores individuales
Media
1.5
0.176
0.2
1.9
-0.1
0.5
0.8
0.66
3.0
0.477
4.0
3.2
2.3
2.9
3.8
3.24
6.0
0.778
3.3
5.1
5.3
6.7
5.9
5.26
a) Representar grficamente la reduccin media de la temperatura corporal contra la dosis. Representar
grficamente la reduccin media de la temperatura corporal contra log(dosis). Qu grfica parece ms cercana
a la linealidad?
6,0
4,0
4,0
reduccion
reduccion
6,0
2,0
2,0
0,0
Sq r lineal = 0,778
2,0
4,0
6,0
Dosis
0,0
Sq r lineal = 0,829
0,100
0,200
0,300
0,400
0,500
0,600
0,700
0,800
log_dosis
13
b1 =
SPXY
6.92369
=
= 7.6404
0.906191
SS X
La recta de regresin de la reduccin de la temperatura corporal (Y) sobre el logaritmo de la dosis (X) es:
Y = 0,5922 + 7.6404 X
La desviacin tpica residual es:
SS (resid ) = SS Y
sY | X =
2
SPXY
6.92369 2
= 63.7773
= 10.8773
0.906191
SS X
SS ( resid )
10.8773
=
= 0.9147
n2
15 2
14
Ejercicio 3.
Se seleccionan de forma aleatoria veinte parcelas, cada una de 10 x 4 metros, de un gran
campo de maz. En cada parcela, se observa la densidad (nmero de plantas en la parcela) y el
peso medio de una mazorca (gr. de grano por mazorca). Los resultados se presentan en la
siguiente tabla.
Densidad, X
Peso mazorca, Y
Densidad, X
Peso mazorca, Y
137
212
173
194
107
241
124
241
132
215
157
196
135
225
184
193
115
250
112
224
103
241
80
257
102
237
165
200
65
282
160
190
149
206
157
208
85
246
119
224
Si para estos datos
y = 224,1
x = 128,05
SSX = 20209,0
SSY = 11831,8
SPXY = 14563,1
a) Obtener la recta de regresin de Y sobre X.
Sea X la densidad (nmero de plantas en la parcela) y Y el peso medio de una mazorca (gr. de grano por
mazorca), vamos a calcular la recta de regresin lineal que ajusta los resultados de la tabla anterior.
Sabemos que:
SP
14563.1
= 0.721
b1 = XY =
20209.0
SS X
15
280
Pes
260
240
220
200
180
60
80
100
120
140
Densitat
c) Calcular sY y sY|X.
180
200
Sq r lineal = 0,887
SS Y
11831.8
=
= 24.954
n 1
20 1
sY =
SS (resid ) = SS Y
160
2
SPXY
(14563.1) 2
= 11831.8
= 1337.3
20209.0
SS X
sY | X =
SS (resid )
1337.3
=
= 8.619
n2
18
16
Ejercicio 4.
El serbal (Sorbus aucuparia) es un rbol que crece en zonas de diferentes alturas. Con objeto de
estudiar la adaptacin de estos rboles a distintos hbitats, se recogen ramas con brotes de 12
rboles que crecen a diferentes alturas en North Angus, Scotland. Se llevaron los brotes al
laboratorio y se registr la tasa de respiracin nocturna de cada uno de ellos. En la siguiente
tabla se muestra la altitud del origen (en metros) de cada grupo de brotes y la tasa de respiracin
nocturna (expresada como l de oxgeno por hora por mg de peso en seco de tejido).
Altitud de origen
Tasa de respiracin
90
0.11
230
0.20
240
0.13
260
0.15
330
0.18
400
0.16
410
0.23
550
0.18
590
0.23
610
0.26
700
0.32
790
0.37
Media
433.3
0.21
SS
506667
0.0654
SPXY = 161.400
a) Obtener la recta de regresin que permite predecir la tasa de respiracin a partir de la altitud.
Los coeficientes de la recta de regresin de la tasa de respiracin (Y) sobre la altitud (X) son:
SP
161.400
b0 = y b1 x = 0.21 0.0003 433 .3 = 0.0720
b1 = XY =
= 0.0003
SS X
506667
La recta de regresin que permite predecir la tasa de respiracin (Y) a partir de la altitud (X) sera:
Y = 0,0720 + 0.0003 X
Estadstica en Ciencias Medioambientales
17
Taxa de respiraci
0,30
0,20
0,10
Sq r lineal = 0,786
0,00
0
200
400
600
800
Altitud d'origen
SS (resid ) = SS Y
2
SPXY
161.4 2
= 0.0654
= 0.0140
506667
SS X
sY | X =
SS ( resid )
0.0140
=
= 0.0374
n2
12 2
18
Ejercicio 5.
El cido laetisrico es un compuesto recientemente descubierto cuyos efectos parecen
prometedores en el control de enfermedades causadas por hongos en plantas de cultivo.
En la siguiente tabla se muestran los resultados del crecimiento del hongo Pythium ultimum bajo
diferentes concentraciones de cido laetisrico. Cada valor del crecimiento es el promedio de
cuatro medidas radiales de una colonia de Pythium ultimum cuyo crecimiento se ha desarrollado
en una placa de petri durante 24 horas; se han utilizado dos placas de petri para cada una de
las concentraciones consideradas.
[ ] de cido laetisrico
0
0
3
3
6
6
10
10
20
20
30
30
Media
11,5
SS
1303
Crecimiento
33,3
31,0
29,8
27,8
28,0
29,0
25,5
23,8
18,3
15,5
11,7
10,0
23,64
677,349
SPXY = 927,75
a) Obtener la recta de regresin apropiada para estudiar la relacin entre las variables.
Sea X la concentracin de cido laetisrico e Y el crecimiento medio de cuatro medidas radiales de una colonia de
Pythium ultimum. Vamos a calcular la recta de regresin lineal que ajuste los datos anteriores. Sabemos que:
b1 =
SPXY 927.75
=
= 0.712
1303
SS X
Por tanto, la recta de regresin que nos permiten estimar el crecimiento a partir de la concentracin de cido laetisrico
es:
Y = 31.828 0.712 X
19
Creixement
30
25
20
15
10
0
10
15
20
25
30
Sq r lineal = 0,975
Concentraci
SS (resid ) = SS Y
sY | X =
2
SPXY
(927.75) 2
= 677.349
= 16.781
1303
SS X
SS (resid )
16.781
=
= 1.295
n2
10
20
Or
Orgenes de la regresi
regresin:
El trmino regresin fue introducido por Francis Galton en su llibro Natural
Inheritance (1889), partiendo de los anlisis estadsticos de Karl Pearson.
Sir Francis Galton (18221911), explorador y cientfico britnico, contribuy a
diferentes reas de la ciencia como la psicologa, la biologa, la tecnologa, la
geografa, la estadstica o la meteorologa. Primo de Charles Darwin, aplic sus
principios a numerosos campos, principalmente al estudio del ser humano y de
las diferencias individuales.
Su trabajo se centr en la descripcin de las caracteres fsicos de los descendientes (variable A) a partir de los
de sus padres (variable B).
Estudiando la altura de padres e hijos a
partir de ms de mil registros de grupos
familiares, lleg a la conclusin que los
padres muy altos tenan una tendencia
a tener hijos que heredaban parte de
esta altura, pero que revelaban
tambin una tendencia a regresar a la
media.
Galton generaliz esta tendencia bajo
la "ley de la regresin universal":
Cada peculiaridad en un hombre es
compartida por sus descendientes,
pero en media, en un grado menor.
21
22
Por tanto, para cualquier valor de X, la distribucin condicional Y|X sigue una distribucin con media dada por
0+1X y una desviacin tpica constante que no depende de X.
Ejemplo 1. AMFETAMINAS Y CONSUMO DE COMIDA
En el ejemplo del consumo de comida de los ratones, el modelo lineal afirma que (1) el consumo medio de
comida es una funcin lineal de la dosis y (2) la desviacin tpica de los valores de consumo de comida es la
misma para todas las dosis.
Estadstica en Ciencias Medioambientales
23
Si tenemos dos variables aleatorias X e Y, y suponemos que el modelo lineal es una descripcin
adecuada de la verdadera relacin entre las dos variables, entonces los valores obtenidos en el
anlisis de regresin son estimaciones de los valores poblacionales del correspondiente modelo
lineal:
bo = 0
b0 es una estimacin del parmetro 0
b1 es una estimacin del parmetro 1
b1 = 1
sY | X = Y | X
0 = 301 g
1 = 7.19 g / cm
- la desviacin tpica del peso de las serpientes con una longitud X es X|Y, que se puede estimar con:
Y | X = 12.5
24
Si el modelo lineal es aplicable para estudiar la relacin entre las variables X e Y, podemos
utilizarlo para hacer estimaciones de la media y la desviacin tpica de la poblacin Y dado un
valor concreto de X.
Y | X = x = 0 + 1 x
Y | X = x = sY | X
Si queremos hacer una prediccin del valor de Y para un determinado valor de X, podemos utilizar la estimacin
de la media de la distribucin condicional de Y|X. Esta prediccin de valores en el rango de estudio recibe el
nombre de interpolacin.
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin)
Si queremos hacer una prediccin del peso de una serpiente con una longitud de 68 cm podemos utilizar la
media de la distribucin condicional dada por:
Por ejemplo, si
intentamos estimar la
media del peso para
serpientes de una
longitud de 30 cm
obtenemos un peso de
-85.3g !!!
Departament dEstadstica i Investigaci Operativa
25
Problema 1. (Continuacin)
En un estudio sobre la sntesis de las protenas en el oocito de la rana Xenopus laevis, un bilogo
inyecta leucina etiquetada como radioactiva en oocitos individuales. En diferentes momentos
posteriores a la inyeccin se realizan medidas de la radioactividad y se calcula la cantidad de
leucina que se ha incorporado a la protena. Los resultados se presentan en la siguiente tabla;
cada valor de la leucina es el contenido de leucina registrado en dos oocitos y todos los oocitos
son de la misma hembra.
Media
SS
Tiempo (min)
0
10
20
30
40
50
60
30
2800
Leucina (ng)
0,02
0,25
0,54
0,69
1,07
1,50
1,74
0,83
2,4308
SPXY = 81,9
d) Estimar la media y la desviacin tpica del contenido de leucina a los 25, 50 i 70 minutos
despus de la inyeccin.
Para x = 25 minutos, la media y desviacin tpica estimada del contenido de leucina es:
26
Y | X = 0 + 1 X
donde 1 y 2 son dos parmetros que expresan la relacin entre las variables X e Y en la
poblacin, y que por tanto sern desconocidos.
A partir de la muestra, podemos hacer inferencia de estos parmetros desconocidos y obtener dos
estimaciones muestrales b1 y b2.
0 = b0
1 = b1
27
sY2| X
SS X
12.52
= 0.953 g / cm
172
Podemos ver que el error estndar de la estimacin de la pendiente de la regresin depende de la varianza
residual y de la variabilidad de la variable independiente X. Como SSX est en el denominador, podemos ver
que cuanto mayor sea esta medida, menor es el error estndar de la estimacin b1.
Tambin podemos calcular un intervalo de confianza para la pendiente poblacional 1 con un nivel de
confianza determinado. Por ejemplo, un intervalo de confianza al 95% para la pendiente poblacional de la
relacin entre el peso y la longitud de las serpientes vendr dado por:
IC95% ( 1 ) = [b1 t0.05,n 2 SE (b1 ), b1 + t0.05,n 2 SE (b1 )] = [7.19 2.365 0.953,7.19 + 2.365 0.953] =
= [4.94,9.44]g / cm
28
ts =
b1
que bajo la hiptesis nula sigue una distribucin t de Student con n2 grados de libertad.
SE (b1 )
b1
7.19
= 5.408 < t s = 7.57 < t0.0001 = 7.885
t
=
= 7.57 0.001
SE (b1 ) 0.95
0.0001 < p - valor(bilateral) < 0.001 0.00005 < p - valor < 0.0005
Hay evidencia de que el peso medio de las serpientes aumenta con su longitud.
ts =
29
XY
X Y
x = 63 cm
y = 152 g
SS X = 172
SS Y = 9990
r=
SPXY = 1237
SPXY
1.237
=
= 0 , 9436
SS X SSY
172 9.990
r2 = 1
SS ( resid )
1093.669
= 1
= 0.8905
SS Y
9990
r = r 2 = 0.8905 = 0.9436
31
sY
n 1
(1 r 2 )
n2
1 r2
sY | X
sY
Cuando no ha relacin lineal (r = 0), la desviacin tpica de Y y la desviacin tpica residual de Y despus
del ajuste de la regresin coinciden, por lo que la regresin no est explicando nada de la variabilidad de la
variable dependiente Y.
Cuanto ms prximo a 1 sea r (mejor ajuste lineal), menor ser la desviacin tpica residual de Y despus
de la regresin en comparacin con la desviacin tpica de Y sin regresin.
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES
Tenemos las variables X=longitud (cm) y Y=peso (g). A partir de la muestra tenemos:
sY | X = 12.5
sY = 35.3
r = 0.9436
sY | X
sY
1 r 2 = 1 0.9436 2 = 0.3311
32
x = 63
SS X = 172
y = 152
SSY = 9990
s X = 4.6
sY = 35.3
SPXY = 1237
Recta de regresin de Y (peso) sobre X (longitud)
El coeficiente de correlacin s es
simtrico respecto a las dos variables:
r=
SPXY
SS X SSY
33
XY
X
= XY
= 1 X
2
XY X Y
Y
Por tanto, la hiptesis nula anterior es equivalente a la que ya hemos estudiado anteriormente:
H0: 1 = 0
El estadstico del contraste es:
t=
b1
n2
=r
SE (b1 )
1 r 2
ts = r
n2
92
= 0.9436
= 7.54
2
1 r
1 0.9436 2
34
El coeficiente de determinacin
El coeficiente de determinacin es el cuadrado del coeficiente de correlacib.
Tenemos que
- SS(resid) es una medida de la variabilidad de Y que no es explicada por el modelo de regresin
- SSY es una medida de la variabilidad total de Y
Por tanto:
SS (resid )
es la fraccin de la variabilidad total de Y no explicada por la regresin sobre X
SSY
Luego la fraccin de la variabilidad total de Y que es explicada por el modelo de regresin sera:
1
Tenemos que:
SS (resid )
= r2
SSY
SSY = ( y y ) 2 = ( y y ) 2 + ( y y )
SS (resid .) SSY SS (resid .)
=
=
r = 1
SSY
SSY
2
( y y )
( y y)
2
2
35
Grados de libertad
MS
0,7736
0,0296
Regresin
Residual
SS(resid) = 0.2955
n 2 = 10
Total
SSY = 1.069067
n 1 = 11
= sY2|X
MS
8896.3
156.2
Regresin
SS(regre) = 8896.3
Residual
SS(resid)
= 1093.7
n2=7
Total
SSY
= 9990.0
n1=8
36
MS (regresin)
Fs =
MS (residual )
SS(regresin) = 8896.3
Residual
SS(residual)
Total
SSY
Grados de libertad
MS
8896.3
n2=7
156.2
= 1093.7
= 9990.0
Fs =
MS (regresin) 8896.3
=
= 56.95
MS (residual )
156.2
n1=8
Comparando este estadstico con una distribucin F de Snedecor con 1 grado de libertad en el numerador y 7
grados de libertad en el denominador, tenemos:
Por tanto, el modelo de regresin lineal explica una parte significativa de la variabilidad de la variable
dependiente.
Estadstica en Ciencias Medioambientales
37
pes
longitud
Media
152,00
63,00
Variables
introducidas
longitud a
Modelo
1
Estadsticos descriptivos
Desviacin
tp.
35,338
4,637
Variables introducidas/eliminadasb
Variables
eliminadas
.
Modelo
1
Mtodo
Introducir
R
,944a
R cuadrado
,891
R cuadrado
corregida
,875
Error tp. de la
estimacin
12,500
Coeficientesa
9
9
Coeficientes
estandarizad
os
Coeficientes no
estandarizados
200
Modelo
1
180
(Constante)
longitud
B
-301,087
7,192
Error tp.
60,188
,953
Beta
,944
t
-5,002
7,546
Sig.
,002
,000
F
56,941
Sig.
,000a
pes
160
ANOVAb
140
Modelo
1
Regresin
Residual
Total
120
Suma de
cuadrados
8896,331
1093,669
9990,000
gl
1
7
8
Media
cuadrtica
8896,331
156,238
100
Sq r lineal = 0,891
80
Grfico de dispersin
55
57,5
60
62,5
65
67,5
longitud
Variable dependiente: pes
Correlaciones
Correlacin de Pearson
Sig. (unilateral)
N
pes
longitud
pes
longitud
pes
longitud
pes
1,000
,944
.
,000
9
9
longitud
,944
1,000
,000
.
9
9
-2
-2
38
a) Patrn correcto.
b) No homocedasticidad, tendencia a incrementar
la varianza a medida que la variable
independiente aumenta.
c) No homocedasticidad, tendencia a incrementar
la varianza para valores centrales de la variable
independiente.
d) No linealidad. Subestimacin para valores
pequeos y grandes de la variable independiente.
Sobreestimacin para valores centrales.
Estadstica en Ciencias Medioambientales
39
40
Uso de transformaciones
Si las suposiciones de linealidad, homocedasticidad o normalidad fallan, a veces un remedio
consiste en transformar los datos mediante un cambio de escala que puede afectar X, Y o
ambas variables.
Ejemplo 3. CRECIMIENTO DE LAS PLANTAS DE SOJA
Un botnico plant 60 brotes de soja. A los 12 das de crecimiento, recogi 12 plantas y las pes
despus de secarlas. Repiti el experimento a los 23, 27, 31 y 34 das de crecimiento.
Tenemos dos variables: Tiempo de crecimiento (das) = X
Peso de la planta despus de secarla (gramos) = Y
Una transformacin
logartmica puede
cambiar este grfico
no lineal en otro
aproximadamente
lineal. Adems se
consigue la
homocedasticidad.
41
Ejercicio 6.
Con respecto a los datos del problema 2 y suponiendo que el modelo lineal es aplicable, estimar
la media y la desviacin tpica de la reduccin en la temperatura corporal que debera
producirse en ratones que reciben una dosis de alcohol de 2 gr./kg.
Aplicando el modelo lineal, podemos estimar la media y la desviacin tpica de la reduccin en
la temperatura corporal Y cuando los ratones reciben una dosis de alcohol de 2 g./kg. (X =
log(2) = 0.301) como:
Esta prediccin es vlida, ya que el valor investigado est dentro del rango de estudio.
42
Ejercicio 7.
Con respecto a los datos del peso de las mazorcas de maz del problema 3, y suponiendo que
el modelo lineal es aplicable:
a) Estimar el peso medio de las mazorcas de maz en una parcela que contiene
(i) 100 plantas y (ii) 120 plantas.
Sea X la densidad (nmero de plantas en la parcela) y Y el peso medio de las mazorca (gr. de
grano por mazorca), la recta de regresin que permite la estimacin del peso medio de las
mazorca de maz en funcin del nmero de plantas en la parcela era:
Y = 316.376 0.721 X
Para una parcela con x=100 plantes, el valor estimado de Y con la recta de regresin anterior es:
43
Ejercicio 8.
Con respecto a los datos de la leucina del problema 1, construir un intervalo de confianza al
95% para 1.
La pendiente estimada en el problema 1 era:
b1 =
SPXY 81.9
=
= 0.0292 = 1
2800
SS X
Vamos a construir un intervalo de confianza al 95% para 1, que es el parmetro poblacional de la pendiente de
la relacin lineal entre X e Y.
sY2| X
0.0839 2
=
= 0.0016
SE (b1 ) =
2800
SS X
(
)
=
=
= 0.9609
s
SE
b
Y|X
X
1
misma:
SS X
0.906191
44
Ejercicio 10.
Con respecto a los datos de crecimiento del hongo del problema 5:
a) Calcular el error estndar de la pendiente b1.
El error estndar del estimador de la pendiente de la recta de regresin se calcula como:
sY2| X
1.2954 2
= 0.0359
SS X
1303
b) Consideremos la hiptesis nula de que el cido laetisrico no afecta al crecimiento del hongo. Suponiendo
que el modelo lineal es aplicable, formular esta afirmacin como una hiptesis sobre la verdadera recta de
regresin, y contrastar esta hiptesis contra la alternativa de que el cido laetisrico inhibe el crecimiento del
hongo. Considerar = 0.05.
Vamos a construir un contraste de hiptesis sobre la pendiente de la verdadera recta de regresin entre estas
variables. Consideramos como hiptesis nula que el cido laetisrico no afecta al crecimiento del hongo, o lo
que es lo mismo, que la pendiente de la regresin entre ambas variables es cero. Como hiptesis alternativa
vamos a considerar que el cido inhibe el crecimiento del hongo, o lo que es lo mismo, que la pendiente de la
regresin es negativo:
SE (b1 ) =
H0: 1 = 0
HA: 1 < 0
Luego para un nivel de significacin =0.05 hay evidencia que el cido laetisrico inhibe el crecimiento del
hongo.
Estadstica en Ciencias Medioambientales
45
Ejercicio 11.
Un equipo de fisilogos cultiva 13 tiestos individuales de plantas de soja en un invernadero. En la
tabla siguiente se presentan las medidas del rea total de las hojas (en cm2) y el peso total en
seco (en gr.) de cada planta despus de 16 das de crecimiento.
Media
SS
46
b) Calcular el valor de sY y sY|X especificando las unidades de cada uno. Comprobar que se cumple
la relacin aproximada entre sY, sY|X y r.
La desviacin tpica muestral de la variable Y es:
sY =
SSY
0.363708
=
= 0.1741 g
n 1
12
sY | X =
SS (resid )
0.1223
=
= 0.1054 g
n2
11
Vamos a comprobar que se cumple la relacin aproximada entre estas desviaciones tpicas y el coeficiente de
correlacin:
s
Y|X
sY
0.10544
= 0.6056 1 r 2 = 1 0.8147 2 = 0.3362 = 0.5799
0.1741
2,30
Pes en sec
SP
82.8977
b1 = XY =
= 0.0029
SS X
28465.7
2,40
2,20
2,10
2,00
1,90
1,80
350
400
450
rea fulles
500
550
R Sq Linear = 0,664
47
Ejercicio 12.
Proceder como en el problema 11 pero con los datos del problema 2.
El coeficiente de correlacin entre la reduccin de la temperatura corporal (Y) sobre el logaritmo
de la dosis (X) es:
SPXY
6.92369
=
= 0.9107
r=
0.906191 63.7773
SS X SSY
La desviacin tpica de la variable dependiente es:
SSY
=
n 1
sY =
63.7773
= 2.1344 C
15 1
sY | X
sY
SS ( resid )
10.8773
=
= 0.9147 C
n2
15 2
0.9147
= 0.4286 1 r 2 = 1 0.9107 2 = 0.1706 = 0.4130
2.1344
48
Ejercicio 13.
Un veterinario anatomista mide la densidad de las clulas nerviosa en regiones especficas del
intestino de nueve caballos. Cada valor de la densidad es el promedio del nmero de clulas
nerviosas en cinco secciones iguales de tejido. Los resultados se muestran en la siguiente tabla
para la regin 1 (regin media del yeyuno) y regin 2 (regin mesentrica del yeyuno).
Animal
1
2
3
4
5
6
7
8
9
Media
SS
Regin 1
50.6
39.2
35.2
17.0
11.2
14.2
24.2
37.4
35.2
29.36
1419.82
Regin 2
38.0
18.6
23.2
19.0
6.6
16.4
14.4
37.6
24.4
22.02
853.396
SPXY = 893.689
r=
893.689
SPXY
=
= 0.8119
1419.82 853.396
SS X SSY
49
= r = 0.8119 > 0
El estadstico que nos permite resolver el contraste anterior es:
ts = r
n2
92
= 0.8119
= 3.680
2
1 r
1 0.8119 2
Bajo la hiptesis nula este estadstico sigue una distribucin t de Student con n-2=9-2=7 grados de libertad.
50
Ejercicio 14.
En un estudio, por medio de detectores radioactivos, de la capacidad corporal para absorber
hierro y plomo, participaron diez sujetos. A cada uno se le da una dosis oral idntica de hierro
(sulfato ferroso) y de plomo (cloruro de plomo-203). Despus de doce das se mide la cantidad de
cada componente retenida en el sistema corporal y, a partir de stas, se determinan los
porcentajes absorbidos por el cuerpo. Los datos obtenidos fueron:
Hierro (%) 17 22 35 43 80 85 91 92 96 100
Plomo (%) 8 17 18 25 58 59 41 30 43 58
a) Dibuja la nube de puntos. Basndose en ella, se puede esperar que el coeficiente de correlacin est
prximo a 1, -1 0?.
100,00
80,00
ferro
60,00
40,00
20,00
0,00
0,00
10,00
20,00
30,00
40,00
50,00
60,00
plom
51
x=
x = 35.7
y=
SPXY
= 66.1
sX =
sY =
(x x)
n 1
(
y y)2
= 18.84
SS X = (n 1) s X2 = 3196.1
= 32.90
n
n 1
= ( x x )( y y ) = 1360.07 + 824.67 + 550.47 + 247.17 + 309.97 + 440.37 + 131.97
SPXY 4691 .3
=
= 1.4678 b0 = y b1 x = 66.1 1.4678 35.7 = 13.6988
Y = 13.6988 + 1.4678 X
SS X
3196 .1
A partir de la recta de regresin anterior, podemos predecir el porcentaje de hierro absorbido por un individuo
cuyo sistema corporal absorbe el 15% del plomo ingerido ya que est dentro del rango de estudio:
b1 =
52
Ejercicio 15.
Una de las variables consideradas en los trabajos habituales que se dedican a estudiar la
influencia de las aguas residuales de las alcantarillas en la contaminacin de las aguas de los
lagos es la concentracin de nitrato en el agua. Para monitorizar esta variable se utiliza
habitualmente un antiguo mtodo manual que aunque costoso proporciona una informacin
prcticamente correcta acerca de dicha concentracin. Se propone un nuevo mtodo de lectura
automtica mucho menos costoso que el manual. Si este nuevo mtodo fuera fiable, se
desechara el antiguo mtodo manual pasando a utilizarse de forma habitual el automtico. A tal
efecto se realiza un experimento que consiste en determinar la concentracin de nitrato (en
microgramos de nitrato por litro de agua) en el agua de 10 muestras por ambos mtodos. Los
resultados obtenidos son los siguientes:
Manual: 25 40 120 75 150 300 270 400 450 575
Autom.: 30 80 150 80 190 350 240 360 470 585
a) Dibujar la nube de puntos.
600
Vamos a considerar
X = resultado con el mtodo automtico
Y = resultado con el mtodo manual
500
Manual
400
300
200
100
0
0
100
200
300
400
500
600
Automtic
53
y=
sX =
y = 240.5
sY =
SPXY
SS X SSY
r=
(x x)
= 183.33
n 1
( y y)2
n 1
SS X = (n 1) s X2 = 302502.5
= 189.26
SPXY = ( x x )( y y ) = 308457.5
SS (resid )
7842.8
La suma de cuadrados
SP 2
308457.52
sY | X =
=
= 31.31
SS (resid ) = SSY XY = 322372.5
= 7842.8
y la desviacin tpica
n2
8
SS X
302502.5
residual sera:
308457.5
SPXY
En consecuencia, el coeficiente de correlacin entre
=
= 0.9878
r=
302502.5 322372.5
SS X SSY
ambas variables ser:
b1 =
SPXY 308457.5
=
= 1.02
SS X 302502.5
Por tanto, la recta de regresin que nos permite estimar la medida manual a partir de la medida automtica es:
Y = 18.07 + 1.02 X
d) Te parece que el nuevo mtodo es fiable? Comentar la respuesta.
Depende del grado de exactitud que se necesite en las medidas. Evidentemente, no podemos decir que las
dos medidas sean iguales, ya que:
- La variabilidad no explicada por la regresin es bastante elevada para la magnitud de los datos.
- La ordenada en el origen parece claramente diferente de 0.
Estadstica en Ciencias Medioambientales
54
Ejercicio 16.
Entre las aplicaciones ms frecuentes de las tcnicas de regresin se encuentran los problemas
en los que la variable respuesta considerada es difcil costosa de observar directamente. En
tales casos las tcnicas de regresin utilizan la relacin entre la variable respuesta y la variable
explicativa para, a travs del comportamiento de esta ltima (que debera ser por contra
fcilmente observable) estudiar el comportamiento de la variable respuesta. Por ejemplo, resulta
extremadamente difcil obtener medidas del volumen de un objeto irregular, pero sin embargo
resulta muy fcil pesarlo. En la siguiente tabla se presenta el peso en kilos y el volumen en
decmetros cbicos de 18 nios de edades comprendidas entre los 5 y 8 aos.
Volumen
16.7
10.4
13.5
15.7
11.6
10.2
14.5
15.8
17.6
Peso
15.8
15.1
12.1
18.4
17.1
16.7
16.5
15.1
15.1
Volumen
15.2
14.8
11.9
18.3
16.7
16.6
15.9
15.1
14.5
18,0
volum
Peso
17.1
10.5
13.8
15.7
11.9
10.4
15.0
16.0
17.8
15,0
12,0
x=
x = 15.0
n
y = 14.7
y=
sX =
(x x)
10,0
12,0
14,0
16,0
18,0
pes
n 1
( y y) 2
= 2.38
SS X = (n 1) s X2 = 96.39
SPXY = ( x x )( y y ) = 95.24
sY =
= 2.36
SSY = (n 1) s = 94.75
n
n 1
La recta de regresin del volumen en decmetros cbicos (Y) sobre el peso en kilos (X) sera:
SP
95.24
Y = 0 .104 + 0 .988 X
b0 = y b1 x = 14.7 0.988 15.0 = 0.104
b1 = XY =
= 0.988
SS X 96.39
Estadstica en Ciencias Medioambientales
2
Y
55
ts = r
18 2
n2
= 0.9966
= 48.082
2
1 r
1 0.99662
Bajo la hiptesis nula este estadstico sigue una distribucin t de Student con n 2 =182=16 grados de libertad.
t 0.0001 = 5.134 < t s = 48.082 p - valor(bilateral) < 0.0001 p - valor < 0.00005
Por tanto, hay evidencia que el coeficiente de correlacin entre el peso y el volumen es positivo.
56
Ejercicio 17.
En un estudio metablico, se observaron cuatro cerdos en tres instantes de tiempo determinados:
cuando alcanzaron los 30, 60 y 90 kg. de peso. En cada uno de estos momentos, se analiz la
cantidad de comida ingerida y el volumen fecal y urinario de cada uno de ellos durante 15 das
consecutivos. A partir de estos datos se calcul la cantidad de nitrgeno incorporada en el tejido
corporal por da. Los resultados fueron:
Animal
Cantidad de nitrgeno
Peso corporal
30 kg. 60 kg. 90 kg.
1
15.8 21.3 16.5
2
16.4 20.8 18.2
3
17.3 23.8 17.8
4
16.4 22.1 17.5
Media
16.47 22.00 17.50
Supongamos que los datos son analizados segn el modelo de regresin lineal. Si consideramos que el peso
corporal es la variable explicativa y la cantidad de nitrgeno la variable respuesta, operando obtendramos:
x = 60 y = 18.7 SSX = 7200 SSY = 77 SPXY = 123
La pendiente es b1 = 0.017 con un error estndar SE(b1) = 0.032. El valor del estadstico de contraste es ts = 0.53
que no es significativo a cualquier nivel de significacin razonable. De acuerdo con este anlisis, no existe
suficiente evidencia experimental para concluir que la cantidad de nitrgeno depende del peso corporal bajo las
condiciones de este estudio. El anlisis realizado es errneo en dos sentidos. Cules son?
En primer lugar, no se cumple la independencia en las observaciones, ya que estamos comparando medidas
de un mismo cerdo con datos de otros cerdos.
Adems, si miramos los datos tampoco se cumple la hiptesis de linealidad, ya que los mayores valores se dan
para x=60, mientras que los valores para x=30 y x=90 son ms pequeos. Parece que se ajuste mejor a la
relacin una curva de segundo grado.
57
Ejercicio 18.
Con respecto a los datos del crecimiento del hongo del problema 5
a) Obtener el coeficiente de correlacin entre las dos variables involucradas.
El coeficiente de correlacin entre las dos variables involucradas es:
SPXY
927.75
=
= 0.9875
r=
1303 677.349
SS X SS Y
b) Supongamos que un segundo investigador intenta repetir el experimento utilizando concentraciones de 0, 2, 4,
6 y 10 mg., con dos placas de petri para cada concentracin. El coeficiente de correlacin r que obtendra este
segundo investigador, estara alrededor del valor calculado en el apartado anterior?, sera mayor o menor?
Comentar la respuesta.
A la vista de los datos, parece que cuanto menor sea el rango de valores de X peor ser la calidad esperada
del ajuste, y por tanto menor ser el coeficiente de correlacin.
Ejercicio 19.
En un estudio sobre el grillo mormn (Anabrus simplex), se obtiene para las hembras un
coeficiente de correlacin entre el peso corporal y el peso de los ovarios de r = 0.836. La
desviacin tpica del peso de los ovarios de los grillos hembra fue de 0.429. Suponiendo que
el modelo lineal es aplicable, estimar la desviacin tpica del peso de los ovarios de los
grillos hembra cuyo peso corporal es de 4 gramos.
Sabemos que si el modelo lineal es aplicable, la desviacin tpica del peso de los ovarios de los grillos hembra
con un peso corporal de 4 gramos es:
58
Ejercicio 20.
En un estudio sobre las prdidas en cosechas debidas a la polucin del aire, se utilizan plantas
de habichuelas colocadas en cmaras abiertas por la parte superior, y fumigadas con distintas
concentraciones de dixido de azufre. Despus de un mes de fumigacin, se registra el
rendimiento total de vainas de habichuelas en cada cmara. Los resultados son los siguientes:
Concentracin de dixido de azufre (ppm), X
0
0,06
0,12
0,30
Cosecha (kg.), Y
1,15
1,19
1,21
0,65
1,30
1,64
1,00
0,76
1,57
1,13
1,11
0,69
Media
1,34
1,32
1,11
0,70
Si con estos datos se obtienen los resultados siguientes:
Media x = 0,12
Media y = 1,117
SSX = 0,1512
SSY = 1,069067
SPXY = 0,342
a) Obtener la recta de regresin de Y sobre X.
Los coeficientes de la recta de regresin son:
b1 =
SPXY 0.342
=
= 2.2619
0.1512
SS X
1,75
1,50
collita
1,25
1,00
0,75
0,00
0,05
0,10
0,15
dioxid
0,20
0,25
0,30
Sq r lineal = 0,724
59
SS ( resid ) = SS Y
2
SPXY
(-0.342) 2
= 1.069067
= 0.2955
SS X
0.1512
Y | X =0.24 = sY | X =
SS (resid )
=
n2
0.2955
= 0.1719
12 2
d) Cul de las hiptesis del modelo lineal parece no cumplirse en este problema?
Como se observa en el grfico anterior, no parece asumible la hiptesis de homocedasticidad, ya que la
desviacin tpica de las concentraciones menores es mayor que la de las concentraciones mayores. Es decir,
parece que al incrementarse la concentracin, las cosechas obtenidas tienen menos variabilidad.
e) Consideremos la hiptesis nula de que la concentracin de dixido de azufre no influye en el rendimiento de
las plantas de habichuela. Suponiendo que el modelo lineal es aplicable, formular esta afirmacin como un
contraste de hiptesis sobre la verdadera recta de regresin. Utilizar los datos para contrastar la hiptesis contra
una alternativa direccional.
Suponiendo que el modelo lineal es aplicable, vamos a resolver el siguiente contraste de hiptesis:
H0: La concentracin de dixido de azufre no influye en la cosecha
H0: 1 = 0
HA: La concentracin de dixido de azufre influye negativamente en la cosecha
HA: 1 < 0
Para nuestros datos tenemos que:
Para resolver este contraste sobre la pendiente de la relacin lineal entre ambas
variables, vamos a considerar el siguiente estadstico de contraste:
b
ts =
b1 =
SPXY
= 2.2619
SS X
SS (resid ) = SS Y
2
SPXY
= 0.2955
SS X
SE (b1 ) =
sY2| X
SS X
SE (b1 )
0.1719 2
= 0.4421
0.1512
ts =
60
b1
2.2619
=
= 5.117
SE (b1 )
0.4421
Hay una fuerte evidencia de que la concentracin de dixido de azufre influye negativamente en la cosecha.
f) Utilizar un anlisis de la varianza para contrastar la hiptesis de que la concentracin de dixido de azufre no
influye en el rendimiento de las plantas de habichuela. Comparar con los resultados del apartado anterior. (Se
puede comprobar que SS(entre) = 0.7984).
Suma de Cuadrados
La tabla ANOVA
correspondiente a este
problema es:
Grados de
libertad
MS
0,7736
Regresin
Residual
SS(resid) = 0.2955
n 2 = 10
0,0296
Total
SSY = 1.069067
n 1 = 11
0,0972
61
Ejercicio 21.
Otra forma de analizar los datos del problema anterior es considerar como observacin a la media
de cada tratamiento. En este caso los datos podran resumirse en la siguiente tabla:
Dixido de azufre, X Rendimiento medio, Y
0
1.34
0.06
1.32
0.12
1.11
0.30
0.70
Media
0.12
1.117
SS
0.0504
0.264875
SPXY = -0.114
a) Para la regresin del rendimiento medio sobre X, calcular la recta de regresin y la desviacin tpica residual.
Comparar los resultados obtenidos con los del problema anterior.
Los coeficientes de la recta de regresin son:
SP
0.114
b0 = y b1 x = 1.117 (2.2619) 0.12 = 1.3884
= 2.2619
b1 = XY =
0.0504
SS X
Por tanto, la recta de regresin sobre las medias para cada tratamiento es la misma que la que habamos
obtenido con los valores individuales. La desviacin tpica residual es:
SS (resid ) = SS Y
2
SPXY
(-0.114) 2
= 0.264875
= 0.0070
0.0504
SS X
sY | X =
SS (resid )
0.0070
=
= 0.0592
n2
42
Luego la desviacin tpica residual sobre las medias es menor que la obtenida sobre los valores individuales.
b) Obtener el coeficiente de correlacin entre el rendimiento medio y el dixido de azufre. Obtener tambin el
coeficiente de correlacin entre el rendimiento individual por cmaras y el dixido de azufre. Comentar los
resultados obtenidos.
r=
SPXY
SS X SS Y
r=
SPXY
SS X SS Y
=
=
0.114
0.0504 0.264875
0.342
0.1512 1.069067
= 0.9867
= 0,8506
El coeficiente de correlacin
sobre las medias es mayor que
sobre los valores individuales.
62
Ejercicio 22.
A lo largo de las costas protegidas del rea IndoPacfica se ha descubierto una especie de
lapas que se pegan a las rocas. Un bilogo desea estudiar la relacin entre la altura de la
concha del Patelloida Pygmaea (nombre con el que se ha bautizado la lapa) y su longitud. La
informacin obtenida observando 13 ejemplares fue la siguiente:
Altura:
0.9, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0, 2.1, 2.2, 2.2, 2.3, 2.4, 2.7
Longitud: 3.1, 3.6, 4.3, 5.5, 5.2, 5.3, 5.3, 5.7, 5.3, 5.8, 6.4, 6.3, 6.3
Altura Media Longitud Media SS(altura) SS(longitud) SPxy
1.95mm
5.24mm
2.5523
12.3508 5.157
Realiza el correspondiente anlisis de regresin lineal y valora la conveniencia de utilizar la recta de regresin
obtenida para predecir la longitud a partir de la altura de la concha.
Sea X la altura de la concha y Y su longitud. Los coeficientes de la recta de regresin seran:
SP
5.157
= 2.0205
b1 = XY =
b0 = y b1 x = 5.24 (2.0205) 1.95 = 1.3000
SS X
2.5523
La recta de regresin de Y sobre X es:
Y = 1.3 + 2.0205 X
Vamos a dibujar una nube de punto con los datos y la recta de regresin obtenida:
El coeficiente de correlacin es:
r=
longitud
6,0
4,0
Sq r lineal = 0,844
1,0
1,5
2,0
alria
2,5
SPXY
SS X SS Y
5.157
2.5523 12.3508
= 0.9185
63
Suponiendo que has decidido utilizar la recta como una descripcin de la relacin entre ambas
variables, contesta a las siguientes preguntas, argumentando tus respuestas:
i) Cul ser aproximadamente la longitud de una concha cuya altura es de 1.4 mm.?, y de
una de 3 mm.?
Vamos a estimar la longitud de una concha de altura 1,4 mm. Como este valor est en el rango
de estudio, podemos utilizar la recta de regresin anterior:
r 2 = 0.9185 2 = 0.8437
Por tanto, el 84.37% de las diferencias observadas en las longitudes de las conchas queda explicada por las
diferentes alturas.
iii) Da un estimador de la desviacin tpica de las longitudes de las lapas cuyas alturas son iguales a 1.4 mm.
SS (resid ) = SS Y
2
SPXY
5.157 2
= 12.3508
= 1.9309
SS X
2.5523
Y | X =1.4 = sY | X =
SS (resid )
1.9309
=
= 0.4190
n2
13 2
Con qu valor estimaras la longitud media de esta subpoblacin de lapas? dem para la poblacin de lapas de
altura igual a 1.7 mm.
Y | X =1.4 = b0 + b1 1.4 = 1.3 + 2.0205 1.4 = 4.1287
64
Ejercicio 23.
La siguiente tabla muestra las cantidades de metil mercurio consumidas al ingerir pescado
contaminado y las correspondientes cantidades totales de mercurio en sangre de 12 individuos
participantes en un estudio sobre los efectos de la contaminacin marina.
Cantidad de metil mercurio
(g Hg/da)
180
200
230
410
600
550
275
580
105
250
460
650
Existe relacin lineal entre ambas variables? Obtener una medida de la fuerza de dicha relacin lineal y valorar
el resultado obtenido.
Sea X = cantidad de metil mercurio consumido y Y = cantidad de mercurio en sangre, vamos a estudiar si hay
relacin lineal entre ambas variables. A partir de la muestra tenemos:
x = 374.2
x=
n
y=
y = 219.2
n
sX =
sY =
(x x)
= 189.63
n 1
( y y)
SS X = (n 1) s X2 = 395541.667
SPXY = 253441.644
2
n 1
= 129.30
65
500
400
SPXY 253441.644
=
= 0.641
395541.667
SS X
300
sang
b1 =
200
100
0
100
200
300
400
ingerit
500
600
700
Sq r lineal = 0,774
Podemos ver que su valor est prximo a 1, lo que quiere decir que la relacin entre las dos variables est muy
ajustada a una recta y, adems, es una relacin creciente.
Cul sera la cantidad media de mercurio en sangre que correspondera a una persona que hubiera consumido
300 g Hg/da? Podramos calcularla para un consumo de 800 g Hg/da?
Segn la relacin anterior, la cantidad media de mercurio en sangre que correspondera a una persona que
hubiera consumido 300 g Hg/da sera:
66
Ejercicio 24.
En un estudio sobre la interaccin de bicicletas y coches se intenta establecer la posible
relacin entre una variable x = espacio disponible de trnsito (definido como la distancia entre el
ciclista y el centro de la calle, medida en pies) e y = distancia de separacin entre el ciclista y un
coche que pasa a su lado. Los datos de diez calles son:
x 12.8 12.9 12.9 13.6 14.5 14.6 15.1 17.5 19.5 20.8
y 5.5 6.2 6.3 7.0 7.8 8.3 7.1 10.0 10.8 11.0
i) Puede considerarse que las variables siguen una relacin lineal?
Vamos a representar grficamente los datos recogidos para estudiar si este modelo es o no aceptable:
11,0
10,0
9,0
8,0
7,0
6,0
Sq r lineal = 0,923
5,0
12,0
14,0
16,0
18,0
20,0
22,0
x=
x = 15.42
n
y = 8.00
y=
sX =
(x x)
n 1
( y y)
= 2.875
SS X = (n 1) s X2 = 74.416
sY =
= 1.977
n
n 1
Estadstica en Ciencias Medioambientales
SPXY = ( x x )( y y ) = 49.140
SSY = (n 1) s = 35.160
2
Y
67
b1 =
SPXY 49.140
=
= 0.660
74.416
SS X
Y = 2.182 + 0.660 X
iii) Cul sera la separacin media estimada entre bicicleta y coche en una calle con espacio disponible de
trnsito de 15 pies? Cul sera la estimacin de la desviacin tpica residual en este caso?
Para un espacio disponible de trnsito (definido como la distancia entre el ciclista y el centro de la calle) de x =
15 pies, la distancia de separacin media entre el ciclista y un coche que pasa a su lado es:
Y | X =15 = 2.182 + 0.660 15 = 7.718
La desviacin tpica residual estimada en este caso es:
SS (resid )
2.711
=
= 0.5821
n2
10 2
iv) Cmo variara la separacin media entre bicicleta y coche si el espacio disponible de trnsito de la calle
fuese de 12 pies?
SS (resid ) = SS Y
2
SPXY
49.140 2
= 35.160
= 2.711
SS X
74.416
Y | X =15 = sY | X =
En este caso, el valor estara fuera del rango de estudio, por la que no podemos estar seguros de la validez de
nuestras predicciones.
v) Qu porcentaje de la variacin de la separacin es explicado por el modelo?
El coeficiente de correlacin es:
r=
SPXY
SS X SS Y
49.140
74.416 35.160
= 0.9607
r 2 = 0.9607 2 = 0.9229