Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Intro Corr
Intro Corr
CORRELACION
SION
Objetivo
Medir y ajustar una relaci
on lineal entre dos
variables cuantitativas.
Bibliografia recomendada
Pe
na y Romo (1997), Captulos 8 y 9.
Indice
1.
2.
Correlaci
on y sus propiedades
3.
C
omo calcular la covarianza y correlaci
on con datos
agrupados
4.
La recta de regresi
on y sus propiedades
130
Covarianza
Se ve en el Ejemplo 63 que existe una relaci
on
creciente y m
as o menos lineal entre el peso
p
erdido y el peso original de las pacientes. La
covarianza es una medida de la fuerza de la
relaci
on lineal entre dos variables cuantitativas.
Definici
on 18 Para una muestra de n datos
bivariantes
(x1, y1), . . . , (xn , yn)
la covarianza entre las dos variables es
n
1
sxy =
(xi x
)(yi y)
n i=1
n
n
1
1
donde x
= n i=1 xi e y
= n i=1 yi son las
131
x
=
1
{(225 181,375)(15 18,125)+
16
(235 181,375)(44 18,125) + . . . +
(149 181,375)(10 18,125)}
361,64
132
n
1
xiyi n
xy
sxy =
n i=1
El c
alculo a trav
es de este resultado es mucho
m
as r
apido, ya que no se tiene que restar las
medias de todos los datos.
133
Demostraci
on
n
sxy
1
(xi x
)(yi y
)
n i=1
n
1
x
yi + x
y]
[xi yi xi y
n i=1
n
n
n
n
1
xiyi
xi y
x
yi +
x
y
n i=1
i=1
i=1
i=1
n
n
n
1
xiyi y
xi x
yi + n
xy
n i=1
i=1
i=1
n
n
n
1
1
1
xiyi n
y
xi n
x
yi + n
xy
n i=1
n i=1
n i=1
n
1
xiyi n
yx
n
xy + n
xy
n i=1
n
1
xiyi n
xy
n i=1
134
16
i=1
Diagrama de dispersin
240
210
180
150
120
90
20
24
28
32
36
40
44
136
y =
14
i=1
1
(42,7 + . . . + 20,2)
14
29,56
1
(92 + . . . + 213)
14
167,43
La cuasi covarianza
Igual que con la varianza, en muchos casos, se
prefiere definir la covarianza con un denominador de n 1, es decir
n
1
scxy =
(xi x
)(yi y
).
n 1 i=1
138
C
alculo de la covarianza para datos agrupados
Dada la tabla de doble entrada,
Y
x1
x2
..
X
xI
y1 y2 . . . y J
f11 f12 . . . f1J f1
f21 f22 . . . f2J f2
..
..
..
..
..
fI1 fI2 . . . fIJ fI
f1 f2 . . . fJ
1
la media de X es x
=
s2
x =
I
i=1 fi xi con varianza
I
i=1
2
fix2
.
i
I
J
i=1 j=1
fij xiyj x
y
.
139
0
1
X 2
3
5
,3
,08
0
0
,38
Y
6
7
,1 ,06
,16 ,04
,04 ,02
0
0
,3 ,12
8
,04 ,5
,02 ,3
,06 ,12
,08 ,08
,2
1
i
fij xiyj x
y
fij xiyj = 0 5 ,3 + 0 6 ,1 + . . . +
3 7 0 + 3 8 ,08
= 5,44
sxy = 5,44 ,78 6,14
= 0,6508
140
Correlaci
on
Si, por ejemplo las unidades de la variable X
son centimetros y las unidades de la variable Y
son gramos, entonces las unidades de la covarianza son cm g y si cambiamos la escala de
las variables, cambia la covarianza. Esto hace
que el valor de la covarianza sea difcil de interpretar.
Una medida normalizada es la correlaci
on.
Definici
on 19 Para una muestra bivariante
(x1, y1), . . . , (xn, yn),
la correlaci
on entre las dos variables es
sxy
sxy
rxy =
=
2
sxsy
s2
x sy
donde sx y sy son las desviaciones tpicas y s2
x
2
e sy son las varianzas.
La correlaci
on es independiente de las unidades
de las variables.
141
Propiedades
1 rxy 1.
rxy = 1 si y s
olo si existen constantes y
> 0 donde yi = +xi para i = 1, . . . n. Es
decir que existe una relaci
on lineal positiva
exacta entre las dos variables.
rxy = 1 si y s
olo si existen constantes y
< 0 donde yi = +xi para i = 1, . . . n. Es
decir que existe una relaci
on lineal negativa
exacta entre las dos variables.
n
1
x2
2
i nx
n i=1
1
2
2
2
=
42,7 + . . . + 20,2 14 29,56
14
54,43 y de manera parecida,
s2
y 1868,82.
s2
x =
Entonces la correlaci
on es
283,2
0,89
rxy =
54,43 1868,82
Existe una relaci
on negativa aproximadamente
lineal entre las dos variables.
143
Si no hay relaci
on entre las variables, la
correlaci
on es aproximadamente cero
Ejemplo 71 Los datos son 30 parejas de n
umeros
aleatorios.
Correlacin = -0.03
(X 10000)
10
8
6
4
2
0
0
10
(X 10000)
La correlaci
on es casi cero.
Al rev
es no es verdad.
145
400
40
300
30
yy
Correlacin = 0.97
200
100
20
10
0
0
12
16
20
-6
-4
-2
xx
En ambas gr
aficas se ha utilizado la f
ormula y = x2 para generar los datos. Una fuerte
relaci
on no lineal.
146