Está en la página 1de 15

Covarianza y coeficiente de correlacin

Cuando analizbamos las variables unidimensionales considerbamos, entre otras medidas


importantes, la media y la varianza. Ahora hemos visto que estas medidas tambin podemos
considerarlas de forma individual para cada una de las componentes de la variable bidimensional.
.
La covarianza

, es una manera de generalizar la varianza y se define como:

si las observaciones estn ordenadas en una tabla de doble entrada.


Si las observaciones no estn ordenadas en una tabla de doble entrada, entonces se tiene que

o lo que es lo mismo

Ejemplo
Se han clasificado 100 familias segn el nmero de hijos varones ( ) o hembras (
siguiente:

), en la tabla

0 1 2 3 4
0

4 6 9 4 1

5 10 7 4 2

7 8 5 3 1

5 5 3 2 1

2 3 2 1 0

1.
Hallar las medias, varianzas y desviaciones tpicas relativas a los hijos varones y hembra por
separado.

2.
Qu nmero medio de hijas hay en aquellas familias que tienen 2 hijos?
3.
Qu nmero medio de hijos varones hay en aquellas familias que no tienen hijas?
4
Hallar la covarianza
Solucin:En primer lugar, definimos las variables X= nmero de hijos varones, e Y=nmero de
hijas y construimos la tabla de doble entrada con sus totales y otras cantidades que nos son tiles en
el clculo de medias y varianzas:
y1 y2

y3

y4

y5

24

5 10

28

28

28

44

24

48

96

62

16

48

144

63

32

128

40

23 32 26

14

5 100

156

396

209

0 32 52

42 20 146

0 32 104 126 80 342


de este modo, las medias correspondientes a las variables X e Y son

Calculamos despus las varianzas de esas variables X e Y.

que nos dan directamente las desviaciones tpicas marginales,

El nmero medio de hijas en las familias con 2 hijos varones se obtiene calculando la distribucin
condicionada de
n3j n3j yj
7

10

24

31

Del mismo modo, el nmero medio de hijos varones de las familias sin hijas, se calcula con la
distribucin condicionada
ni1 ni1 xi
4

14

15

23

42

La covarianza es:

Una interpretacin geomtrica de la covarianza


Consideremos la nube de puntos formadas por las n parejas de datos (xi,yi). El centro de gravedad
de esta nube de puntos es

. Trasladamos los ejes XY al nuevo centro de coordenadas

Queda as dividida la nube de puntos en cuatro cuadrantes como se observa en la figura 3.3. Los
puntos que se encuentran en el primer y tercer cuadrante contribuyen positivamente al valor de
, y los que se encuentran en el segundo y el cuarto lo hacen negativamente.

Figura: Interpretacin geomtrica de

De este modo:
Si hay mayora de puntos en el tercer y primer cuadrante, ocurrir que

, lo que se

puede interpretar como que la variable Y tiende a aumentar cuando lo hace X;


Si la mayora de puntos estn repartidos entre el segundo y cuarto cuadrante entonces
, es decir, las observaciones Y tienen tendencia a disminuir cuando las de X
aumentan;
Si los puntos se reparten con igual intensidad alrededor de

, entonces se tendr que

. Vase la figura 3.4 como ilustracin.


Figura: Cuando los puntos se reparte de modo ms o menos homogneo entre los cuadrantes primero y tercero, y
segundo y cuarto, se tiene que
. Eso no quiere decir de ningn modo que no pueda existir ninguna relacin
entre las dos variables, ya que sta puede existir como se aprecia en la figura de la derecha.

LA COVARIANZA
Si
Si

las dos variables crecen o decrecen a la vez (nube de puntos creciente).


cuando una variable crece, la otra tiene tendencia a decrecer (nube de puntos
decreciente).

Si los puntos se reparten con igual intensidad alrededor de

(no hay relacin

lineal).
De este modo podemos utilizar la covarianza para medir la variacin conjunta (covariacin) de las
variables X e Y. Esta medida no debe ser utilizada de modo exclusivo para medir la relacin entre
las dos variables, ya que es sensible al cambio de unidad de medida, como se observa en el
siguiente resultado:
As pues, es necesario definir una medida de la relacin entre dos variables, y que no est afectada
por los cambios de unidad de medida. Una forma posible de conseguir este objetivo es dividir la
covarianza por el producto de las desviaciones tpicas de cada variable, ya que as se obtiene un
coeficiente adimensional, r, que se denomina coeficiente de correlacin lineal de Pearson

El coeficiente de correlacin lineal posee las siguientes propiedades:

Bondad de un ajuste
Consideremos un conjunto de observaciones sobre n individuos de una poblacin, en los que se
miden ciertas variables X e Y:

Estamos interesamos en hacer regresin para determinar, de modo aproximado, los valores de Y
conocidos los de X, debemos definir cierta variable
, que debe tomar los valores

de modo que:

Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre los autnticos
valores de Y y los tericos suministrados por la regresin,

y calculando
de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe ser una
variable cuya media debe ser 0 , y cuya varianza
debe ser pequea (en comparacin con la de

Y). Por ello se define el coeficiente de determinacin de la regresin de Y sobre X,

Si el ajuste de Y mediante la curva de regresin

, como

es bueno, cabe esperar que la cantidad

tome un valor prximo a 1.

Regresin
Las tcnicas de regresin permiten hacer predicciones sobre los valores de cierta variable Y
(dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una
relacin. Para ilustrarlo usaremos el caso de un grupo de personas en el que observamos los valores
que toman las variables

no es necesario hacer grandes esfuerzos para intuir que la relacin que hay entre ambas es:

Obtener esta relacin es menos evidente cuando lo que medimos sobre el mismo grupo de personas
es

La razn es que no es cierto que conocida la altura xi de un individuo, podamos determinar de modo
exacto su peso yi (v.g. dos personas que miden 1,70 m pueden tener pesos de 60 y 65 kilos). Sin
embargo, alguna relacin entre ellas debe existir, pues parece mucho ms probable que un individuo
de 2 m pese ms que otro que mida 1,20 m. Es ms, nos puede parecer ms o menos aproximada
una relacin entre ambas variables como la siguiente

A la deduccin, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que
denominamos regresin.
Figura: Mediante las tcnicas de regresin de una variable Y sobre una variable X, buscamos una funcin que sea una
buena aproximacin de una nube de puntos (xi,yi), mediante una curva del tipo
asegurarnos de que la diferencia entre los valores yi e

. Para ello hemos de

sea tan pequea como sea posible.

Mediante las tcnicas de regresin inventamos una variable


viceversa),

como funcin de otra variable X (o

Esto es lo que denominamos relacin funcional. El criterio para construir


anteriormente, es que la diferencia entre Y e
sea pequea.

, tal como citamos

El trmino que hemos denominado error debe ser tan pequeo como sea posible . El objetivo ser
buscar la funcin (tambin denominada modelo de regresin)
que lo minimice.
Figura: Diferentes nubes de puntos y modelos de regresin para ellas.

Regresin lineal
La forma de la funcin f en principio podra ser arbitraria, y tal vez se tenga que la relacin ms
exacta entre las variables peso y altura definidas anteriormente sea algo de la forma

Por el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos
vamos a limitar al caso de la regresin lineal. Con este tipo de regresiones nos conformamos con
encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se
pueda escribir

con el menor error posible entre

e Y.

Esta relacin explica cosas como que si X vara en 1 unidad,

vara la cantidad b. Por tanto:

Si b>0, las dos variables aumentan o disminuyen a la vez;


Si b<0, cuando una variable aumenta, la otra disminuye.
Por tanto, en el caso de las variables peso y altura lo lgico ser encontrar que b>0.
El problema que se plantea es entonces el de cmo calcular las cantidades a y b a partir de un
conjunto de n observaciones

de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar
son de forma esquemtica, las que siguen:
1.
Dadas dos variables X, Y, sobre las que definimos

medimos el error que se comete al aproximar Y mediante


calculando la suma de las
diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y
no se compensen los errores):

2.
Una aproximacin

de Y, se define a partir de dos cantidades a y b. Vamos a

calcular aquellas que minimizan la funcin

3.
Posteriormente encontraremos frmulas para el clculo directo de a y b que sirvan para
cualquier problema.

Regresin de Y sobre X
Para calcular la recta de regresin de Y sobre X nos basamos en la figura
Figura: Los errores a minimizar son las cantidades

Una vez que tenemos definido el error de aproximacin mediante la relacin las cantidades que lo
minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los
mnimos cuadrados):

Resolviendo este sistema nos da las relaciones buscadas:

La cantidad b se denomina coeficiente de regresin de Ysobre X.

Ejemplo
En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropomtricas X e Y. Los
resultados se muestran resumidos en los siguientes estadsticos:

Obtener el modelo de regresin lineal que mejor aproxima Y en funcin de X. Utilizando este
modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15.
Solucin: Lo que se busca es la recta,

, que mejor aproxima los valores de Y (segn

el criterio de los mnimos cuadrados) en la nube de puntos que resulta de representar en un plano
(X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:

As, el modelo lineal consiste en:


Por tanto, si x=15, el modelo lineal predice un valor de Y de:
En este punto hay que preguntarse si realmente esta prediccin puede considerarse fiable. Para dar
una respuesta, es necesario estudiar propiedades de la regresin lineal que estn a continuacin.

Propiedades de la regresin lineal


Una vez que ya tenemos perfectamente definida , nos preguntamos las relaciones que hay entre la
media y la varianza de esta y la de Y (o la de X). La respuesta nos la ofrece la siguiente proposicin:

3.12.4.6 Proposicin
En los ajustes lineales se conservan las medias, es decir

En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las
variables X e Y y sus aproximaciones
y , pues slo se mantienen en un factor de r2, es decir,

donde r es el coeficiente de correlacin ya definido.

Como consecuencia de este resultado, podemos decir que la proporcin de varianza explicada por
la regresin lineal es del
.Nos gustara tener que r=1, pues en ese caso ambas variables
tendran la misma varianza, pero esto no es cierto en general. Todo lo que se puede afirmar, como
sabemos, es que

y por tanto

La cantidad que le falta a la varianza de regresin,

, para llegar hasta la varianza total de Y,

, es lo que se denomina varianza residual, que no es ms que la varianza de

Por ello

Obsrvese que entonces la bondad del ajuste es

Por ello:
Si

el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de

X y viceversa).
Si
las variables X e Y no estn relacionadas (linealmente al menos), por tanto no
tiene sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos variables no
posean ninguna relacin en el caso r=0, ya que si bien el ajuste lineal puede no ser
procedente, tal vez otro tipo de ajuste s lo sea.

Ejemplo De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se


obtiene la siguiente informacin:

Calcule:
1.
La recta de regresin de Y sobre X. Explique el significado de los parmetros.

2.
El coeficiente de determinacin. Comente el resultado e indique el tanto por ciento de la
variacin de Y que no est explicada por el modelo lineal de regresin.
3.
Si el modelo es adecuado, cul es la prediccin

para x=4.

Solucin:
1.
En primer lugar calculamos las medias y las covarianza entre ambas variables:

Con estas cantidades podemos determinar los parmetros a y b de la recta. La pendiente de la


misma es b, y mide la variacin de Ycuando X aumenta en una unidad:

Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a
medida que X aumenta, la tendencia es a la disminucin de Y. En cuanto al valor de la
ordenada en el origen, a, tenemos:

As, la recta de regresin de Y como funcin de X es:

2.El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinacin:

Es decir, el modelo de regresin lineal explica el


de X. Por tanto queda un

de la variabilidad de Y en funcin de la

de variabilidad no explicada.

3.
La prediccin que realiza el modelo lineal de regresin para x=4 es:

la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado
anterior,hay una razonable cantidad de variabilidad que no es explicada por el modelo.
Ejemplo
En un grupo de 8 pacientes se miden las cantidades antropomtricas peso y edad, obtenindose los
siguientes resultados:
Resultado de las mediciones
edad 12

8 10 11

7 10 14

peso 58 42 51 54 40 39 49 56
Existe una relacin lineal importante entre ambas variables? Calcular la recta de regresin del peso
en funcin de la edad . Calcular la bondad del ajuste En qu medida, por trmino medio, vara el
peso cada ao? En cunto aumenta la edad por cada kilo de peso?
Solucin:
Para saber si existe una relacin lineal entre ambas variables se calcula el coeficiente de correlacin
lineal, que vale:

ya que

Por tanto el ajuste lineal es muy bueno.


La recta de regresin del peso en funcin de la edad es

que como se puede comprobar, no resulta de despejar en la recta de regresin de Y sobre X.


La bondad del ajuste es

por tanto podemos decir que el

de la variabilidad del peso en funcin de la edad es

explicada mediante la recta de regresin correspondiente. . Del mismo modo puede decirse que hay
un
de varianza que no es explicada por las rectas de regresin. Por tanto
la varianza residual de la regresin del peso en funcin de la edad es

Por ltimo la cantidad en que vara el peso de un paciente cada ao es, segn la recta de regresin
del peso en funcin de la edad, la pendiente de esta recta, es decir, b1=2,8367 Kg/ao. Cuando dos
personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad
b2=0,3136 aos/Kg de diferencia.

También podría gustarte