Documentos de Académico
Documentos de Profesional
Documentos de Cultura
IA AMBIENTAL
ESTAD
ISTICA Introducci
on
TEMA 2
DATOS BIVARIANTES
Sonia Hern
andez Alonso
Esto puede ayudar a predecir el valor de una variable a partir del valor
de la otra.
Diagramas de dispersi
on Ejemplo: niveles de NO2 en Madrid (2007-2008)
Un gr aco muy u til para visualizar la relacion entre dos variables Para ilustrar el an
alisis de conjunto de dos variables cuantitativas,
num ericas, X e Y , es el diagrama de dispersi on (tambi
en llamado vamos a considerar los niveles de di ogeno (NO2) alcan-
oxido de nitr
nube de puntos, o scatterplot). Se construye representando sobre zados en las estaciones de la red de medicion de la contaminaci on
el plano cada dato bivariante, (xi, yi), con sus dos coordenadas, como atmosferica del Ayuntamiento de Madrid en 2007 y 2008.
se muestra en el esquema:
N
otese que en este ejemplo ambas variables son continuas.
Los datos se han extrado de los balances anuales sobre la calidad del
aire elaborados por Ecologistas en Accion. No se incluyen las estacio-
nes de la Glorieta de Carlos V ni de Villaverde, por encontrarse fuera
de servicio durante todo este periodo.
2
Datos sobre niveles de NO2 en Madrid (2007- 2008) Ejemplo: diagramas de dispersi
on
Relaci
on entre NO2-2007 y NO2-2008
Tipos de relaci
on
entre dos variables num
ericas
Es decir, la relaci
on que hay entre en nivel de NO2 en 2007 y el de
2008 es lineal y positiva.
Sonia Hern andez Alonso
Estadstica-Ingeniera Ambiental (URJC) 3
Relaci
on lineal positiva. Otros tipos de relaci
on Relaci
on lineal negativa
66
positiva entre los valores de NO2 de 2007 y los de 2008.
Esta forma de dependencia entre dos variables num ericas aparece con
64
frecuencia en la naturaleza. Otros ejemplos son la relacion entre la
altura de los padres y la de sus cras, o entre los pesos y las estaturas
62
ritmo cardiaco
en una misma especie.
60
En otros casos, ocurre que las dos variables est
an muy relacionadas
pero la relaci
on es de otro tipo. Tambi
en hay ocasiones en las que las
58
dos variables no parecen estar relacionadas.
56
Los diagramas de dispersi on ayudan a identicar el tipo de relaci
on
existente entre dos variables num
ericas.
86 88 90 92 94
tiempo en recorrer 2 km
Relaci
on lineal negativa (continuaci
on) Relaci
on lineal negativa (continuaci
on)
En este caso los datos se agrupan alrededor de una recta, pero los Las variables tiempo en recorrer 2 km y ritmo cardiacode los
valores altos de una variable aparecen con m
as frecuencia asociados antlopes tienen una relaci
on lineal negativa, ya que los datos bivarian-
a valores bajos de la otra, y viceversa: tes estan agrupados alrededor de una recta con pendiente negativa.
66
470
60
460
ventas
450
58
440
56
430
86 88 90 92 94
420
tiempo en recorrer 2 km
4
30 40 50 60 70
precio
Relaciones no lineales Ausencia de relaci
on entre las variables
En muchos casos la relacion entre las dos variables no es lineal, sino Por
ultimo, existen casos en los que no hay ninguna relaci
on entre las
de otro tipo: exponencial, cuadr
atica, logartmica... dos variables. Esto ocurre cuando las variables son independientes:
39.5
120
100
39.0
110
95
38.5
100
Y
38.0
90
Y
37.5
90
85
37.0
80
80
5 10 15 20 25 30 35 3 2 1 0 1 2 3
70
X X
Covarianza
Cuando las variables X e Y son ambas num ericas, se pueden calcular Consideremos un conjunto de n observaciones bidimensionales,
estadsticos que resuman determinados aspectos del comportamiento
(x1, y1), (x2, y2), . . . , (xn, yn)
de cada una de ellas por separado.
ericas, X e Y .
de dos variable num
Por ejemplo, para obtener un resumen b asico de cada variable, se
pueden utilizar sus medias, x e y, que indican c ual es el centro de La covarianza entre X e Y se dene como
cada una de ellas, y sus varianzas, s2
x y s 2 que miden sus respectivos
y n
grados de dispersi
on. (xi x
)(yi y)
i=1
sxy =
Para completar este resumen, sera adecuado contar con alg un es- n
tadstico que indique c
omo es la relaci
on entre las dos variables.
La covarianza es una medida de la variabilidad conjunta de dos
La covarianza entre dos variables cumple con este objetivo.
variables.
Interpretaci
on de la covarianza Esquema: signo de la covarianza
Desarrollando la f
ormula de la covarianza puede comprobarse que, La siguiente tabla recoge la supercie (X) de una selecci on de vi-
una expresi
on alternativa, que hace los c
alculos m
as sencillos, es la viendas costeras de Piriapolis (Uruguay) y sus precios de venta (Y ):
siguiente:
n
Supercie (X) 106 73 114 132 86 117 125 68 71 111
x i yi
Precio (Y ) 178 91 188 165 132 115 173 116 97 204
sxy = i=1 x
y
n Supercie (X) 92 114 116 114 126 113 124 76 100 97
Precio (Y ) 119 101 137 203 186 181 214 50 131 124
Es decir, la covarianza entre dos variables es el promedio de sus
productos menos el producto de sus promedios.
an medidas en m2 y los precios en
Las supercies de las viviendas est
Cuesti al es la covarianza entre una variable y ella misma, sxx?
on: cu miles de pesos uruguayos.
n i=1 20
Precio
n
1 1
y = yi = (178 + 91 + . . . + 124) = 145.214 pesos
100
n i=1 20
50
Superficie
7
Ejemplo: viviendas de Piriapolis (continuaci
on) Ejemplo: covarianza datos de NO2 en 2007 y 2008
Por otra parte, el promedio de los productos es Vamos a calcular ahora la covarianza entre los niveles de NO2 en el
n
municipio de Madrid en los a nos 2007 (X) y 2008 (Y ). Como hemos
x i yi visto, el diagrama de dispersi
on de estos datos, indica que existe una
i=1 106 178 + 73 91 + . . . . . . + 97 124
= = 15667.413 fuerte dependencia positiva entre ambas variables:
n 20
Puesto que la covarianza es positiva (sxy = 157.04 > 0), se conrma Por tanto, las variables independientes son siempre variables in-
que existe una dependencia lineal positiva entre X e Y . correlacionadas.
Puede sorprender que esta covarianza sea inferior a la que existe entre
supercies y precios de las casas de Piri
apolis... 8
Incorrelaci
on e independencia de variables Vector de medias y matriz de varianzas-covarianzas
Las variables independientes son siempre variables incorrelacio- Dado un conjunto de n observaciones bidimensionales,
nadas, pero el recproco de esta armaci
on no es cierto, ya que dos (x1, y1), (x2, y2), . . . , (xn, yn)
variables pueden tener covarianza cero y ser dependientes. Es de dos variable num ericas, X e Y , se llama vector de medias de
decir, la incorrelaci
on no implica independencia. (X, Y ) al vector bi-dimensional
Esto es as porque la covarianza entre X e Y lo que mide es la co- x
dependencia lineal entre dos variables. Pero, evidentemente, dos
y
variables pueden depender la una de la otra mediante otro tipo de
relaci
on. Por ejemplo, la covarianza entre las variables representadas Se llama matriz de varianzas y covarianzas de (X, Y ) a la matriz
en el siguiente diagrama de dispersion es 0, a pesar de que existe entre
s2
x sxy
ellas una clara relaci
on cuadr
atica:
S=
sxy s2
y
Ejemplo: vector de medias y matriz de covarianzas Ejemplo: vector de medias y matriz de covarianzas
Retomemos los datos sobre la supercie (X) y el precio (Y ) de las El vector de medias correspondientes a la supercie (X) y el precio
viviendas de Piri
apolis: (Y ) de las viviendas de Piri
apolis son por tanto,
Coeciente de correlaci
on entre dos variables Correlaci
on y dependencia lineal entre dos variables
10
Cotas del coeciente de correlaci
on Interpretaci
on del coeciente de correlaci
on
El coeciente de correlaci
on es un estadstico adimensional, es decir, Si rxy = 0, es decir, si X e Y estan incorrelacionadas, no existe
no depende de las unidades en las que est en medidas los datos. ninguna dependencia de tipo lineal entre ellas.
Gr
aco: coeciente de correlaci
on lineal Ejemplo: coeciente de correlaci
on
on lineal entre X e Y es
Por tanto, el coeciente de correlaci
157.04
rxy = = 0.9359
202.71 138.89
Ejemplo: no de cig
ue
nas y nacimientos de beb
es
Un ornit
ologo est
a estudiando si existe alguna relaci
on entre el n
umero
de nacimientos de ni
n@s en una localidad (N ) y el numero de cig ue
nas
avistadas (C).
12
12
12
n2
i = 15565 c2
i = 86099 nici = 36604
i=1 i=1 i=1
A partir de los sumatorios de los que disponemos se pueden calcular la Con los estadsticos anteriores podemos calcular el coeciente de co-
medias y varianzas de las variables N y C y la covarianza entre ellas: rrelaci
on entre el numero de nacimientos y la cantidad de cig uenas
12
12
observadas:
ni ci snc 153.43
i=1 421 i=1 991 rnc = = = 0.998
n= = = 35.08 c= = = 82.58 s2 s 2 66.48 355.46
12 12 12 12 n c
Puesto que se trata de un coeciente de correlaci on muy proximo a
12
n2 1, indica que existe una dependencia lineal positiva muy fuerte entre
i
i=1 15565 N y C.
= = 1297.08 s2 2
n = 1297.08 35.08 = 66.48
12 12
12
c2
i
i=1 86099
= = 7174.92 s2 2
c = 7174.92 82.58 = 355.46
12 12
12
n i ci
i=1 36604
= = 3050.33 snc = 3050.33 35.08 82.58 = 153.43
12 12
13
Otro ejemplo de correlaci
on espuria Consumo de helados y n
umero de sofocos
Los ni
nos que duermen con la luz encendida son m
as propensos a Para casi cualquier ciudad, si se analizan las variables venta de helados
desarrollar miopa en la edad adulta y cantidad de sofocos registrados, en distintas epocas de ano, es muy
probable que se obtenga un coeciente de correlaci on proximo a 1.
sta fue la conclusi
E on de un estudio del centro medico de la Univer-
sidad de Pensilvania, publicada el 13 de mayo de 1999 en la revista Quiere esto decir que el consumo de helados es el causante de los
Nature, y que tuvo gran repercusion en la prensa. sofocos?
Sin embargo, un posterior estudio de la Universidad Estatal de Ohio De nuevo, la respuesta es no. Lo que ocurre es que los helados tienden
no encontr
o ningun enlace entre el hecho de ni
nos durmiendo con la a consumirse bastante m as en las
epocas m as calurosas, y el calor
luz encendida y el desarrollo de miopa s puede provocar sofocos.
Lo que s encontr
o este segundo estudio fue una fuerte relaci on entre En este caso, la variable escondida es la temperatura. Los datos se
la miopa parental y el desarrollo en los ni
nos de este defecto. toman en distintas
epocas, y la temperatura vara a lo largo de ellas,
inuyendo tanto en el consumo de helados como en el n umero de
Tambi en observo que los padres miopes tenan una mayor tendencia
sofocos. Pero estas dos variables no se afectan entre s de manera
a dejar las luces encendidas en las habitaciones de sus hijos. Esta es
directa.
la variable escondida de este ejemplo.
Bibliografa
Captulo 3, secci
on 7.
Captulo 2, secci
on 6.
Bibliografa
Pe
na, D. (2001) Fundamentos de Estadstica. Alianza Editorial
Captulo 3.
Captulo 12.