Está en la página 1de 14

GRUPO 04

COEFICIENTE DE
CORRELACIN DE KARL
PEARSON
[ESTADSTICA Y PROBABILIDADES]

Asenjo Padilla Carlos Alberto


Mera Hurtado Rafael
Piana Arrascue Kiomara Ileana
Tipacti Requejo Joseph
Valdez Castaeda Valentn

DEFINICIONES BSICAS
DESVIACIN ESTNDAR
En caso de que las variables presenten alguna frecuencia se
multiplicara el producto de las deviaciones con la frecuencia de cada
variable.

= 2

( xi )2 ( x )2
n

Siendo:
2

=Varianza

COVARIANZA
La covarianza es el valor que indica el grado de variacin conjunta de
dos variables aleatorias1; la cual est representada por la media
aritmtica de la sumatoria de los productos de las desviaciones de
cada una de las variables respecto a sus medias respectivas.

S xy =

(Xi X)(Yi
Y )
n

Que en forma simplificada, viene dada por:

1 Una variable aleatoria o variable estocstica es una funcin que asigna al


resultado de un experimento aleatorio.

S xy =

(x i . y i ) x . y
n

El valor de la covarianza obtenido indica el sentido de la correlacin


entre las variables. El cual se expresa en dos casos:
Si

xy >0

es decir, es mayor a cero, significa que la correlacin es

lineal dependiente directa.


Si

xy <0

es decir, es mayor a cero, significa que la correlacin es

lineal dependiente inversa.


Si

xy =0

es decir, es igual a cero, significa que la correlacin es

independiente o que la relacin no es lineal.

INCONVENIENTES
El valor de la covarianza depende de la escala elegida para
sus ejes. (El resultado ser diferente si se expresa en metros o
en centmetros)
El resultado de la covarianza tiene como unidades el producto
de las unidades de ambas variables.

No podemos acotarla

Para entender la interpretacin de la covarianza, se utilizar un


grfico basado en la base de datos a continuacin. De los datos se
obtendr la media de ambas variables en cuestin

x =3

y =51 ,

las cuales corresponden a una lnea vertical y a un horizontal


respectivamente. Esto permitir separa el grfico en cuatros
cuadrantes con la media (3; 51) como eje.

Los puntos del cuadrante I corresponden a valores de


que

y a valores de

cuadrante II a valores de

yi

mayores de

x i menores a

xi

mayores

y , los puntos del


y a valores de

yi

y , y as sucesivamente.

mayores de

Entonces, el valor de

( x ix)( y i y )

debe ser positivo para los

puntos ubicados en el cuadrante I, negativo para puntos del II,


positivo para puntos del III y negativo para los del IV.
Si el valor de

xy , es positivo, los puntos que tuvieron la mxima

influencia sobre

xy

deben estar en los cuadrantes I y III. Por

consiguientee, un valor positivo de


positiva entre

xy , indica una asociacin lineal

y ; esto es, al aumentar el valo de

xy

aumenta. Sin embargo, si el valor de

puntos que tuvieron la mayor influencia sobre

el valor de

el valor de

disminuye

indicando que no hay asociacin lineal entre

, el de

es negativo, los

xy

cuadrantes II y IV. Por consiguiente, un valor negativo de


una asociacin lineal negativa entre

estn los

xy

indica

y ; esto es, al aumentar


xy
x

ser cercano a cero,


y

y .

xy >0 , positivo (x y y tienen una relacin lineal positiva)

xy =0 , positivo (x y y no estn relacionados


linealmente)

xy <0 , positivo (x y y tienen una relacin lineal


negativa)

COEFICIENTE DE CORRELACIN DE PEARSON

El coeficiente de correlacin 2 de Pearson corrige los inconvenientes


analticos del producto de unidades obtenidos como resultado de la
covarianza, al dividirla entre la desviacin estndar de cada variable.
Con la finalidad de trabajar con un valor adimensional.
El coeficiente de correlacin de Pearson de dos o ms variable se
expresa como

r=

r . Siendo calculada con la siguiente ecuacin:

S xy
x. y

2 Correspondencia o relacin entre dos o ms acciones o fenmenos.

El valor obtenido est comprendido entre

1 r 1 .

Si

r=1 , existe una correlacin positiva perfecta.

Si

0<r <1 , existe una correlacin positiva.

Si

r=0 , no existe una correlacin lineal.

Si

1<r < 0 , existe una correlacin negativa.

Si

r=1 , existe una correlacin negativa perfecta.

Si el ndice presenta una correlacin perfecta; ambas unidades


aumentarn en proporciones constantes si es directa. De lo contrario,
si la correlacin es inversa, una variable aumentar mientras la otra
disminuir.
Grficamente se entiende de la siguiente forma:

Figura N01: Diagrama de dis percin para dos variables (x,y) que pres entan una relacin lineal directa.

r >0 Relacin Lineal Directa


La nube de puntos del grfico presenta una tendencia lineal donde se puede
observar una dependencia estocstica 3 entre las variables. Hay una relacin
entre los valores de las variables donde a los menores valores de una le
corresponde otro menor valor de la otra variable y a los mayores de una le
corresponden los mayores de la otra. A esto se le llama relacin lineal
directa donde al calcular el coeficiente de Pearson este ser menor de cero.

3 Dependencia estocstica: Todos los puntos no estn sobre el modelo pero


existe una tendencia entre los puntos que representan una funcin.

Figura N 02: Diagrama de dispercin para dos variables (x,y) que presentan una relacin lineal inversa.

r <0 Relacin Lineal Inversa


En el siguiente grfico se observa que los puntos, nuevamente, presentan
una tendencia lineal pero en este caso de forma inversa donde a los
menores valores de una de las variables le corresponde los mayores de la
otra y a los mayores valores de una de las variables le corresponden los
menores de la otra. A esto se le conoce como una relacin lineal inversa
donde al calcular el coeficiente de Pearson este ser mayor de cero.

Figura N03: Diagrama de dispercin para dos variables(x,y) donde o las variables son independientes o existe una relacin no lineal.

r0
En el siguiente grfico se observa que no hay una relacin clara a las que
estn sujetas las variables. Al calcular el coeficiente de Pearson, ste
tendera a cero y podremos asumir
cualquiera de los dos posibles
comportamientos: O las variables son independientes o la relacin es no
lineal.

FRMULAS
VARIANZA
(xi )2

2
=
( x )
2

DESVIACIN
AGRUPADOS

ESTNDAR

DE

DATOS

= 2

COVARIANZA

S xy =

(x i . y i ) x . y
n

COEFICIENTE DE CORRELACIN DE PEARSON

r=

S xy
x. y

FUNCIN Y DEPENDIENTE DE X

y= y +

PASOS

Se
Se
Se
Se
Se
Se

xy
x2

(xx )

PARA EL CLCULO
calcula el nmero de datos estudiados.
calcula la media aritmtica.
calcula las varianzas.
calcula la desviacin tpica.
calcula la covarianza.
aplica la frmula del coeficiente de correlacin lineal.

EJEMPLO
Una compaa de seguros considera que el nmero de vehculos

120 km /h

circulan por una determinada autopista a ms de

(x)

ponerse en funcin del nmero de accidentes


Durante

( y)

que

, puede

que ocurren en ella.

das obtuvo los siguientes resultados:

xi
(Accidentes)

yi

(Vehculos)

15

18

10

20

a) Calcula el coeficiente de correlacin lineal.


b) Si ayer se produjeron 6 accidentes, cuntos vehculos podemos
supones que circulaban por la autopista a ms de
c) Es buena la prediccin?

Solucin a)

120 Km/h ?

1. Nmero de datos estudiados:

n=5

xi

n=5
SUMA
2. Media aritmtica:

yi
5
7
2
1
9
24

x i2

15
18
10
8
20
71

25
49
4
1
81
160

x =

xi = 5+7+2+1+ 9 = 24 =4.8

y =

y i = 15+ 18+10+8+20 = 71 =14.2

y i2
225
324
100
64
400
1113

3. Varianza:

x=

(x i)2 ( x )2= 52+ 72 +22+ 12+ 92 4.82 =8.96

2y =

( y i)2 ( y )2 152 +182 +102 +82 +20 2 14.22=20.96

4. Desviacin Tpica:

x = x2 = 8.96=2.993
y = y 2= 20.96=4.578

5. Covarianza:

xi . yi
75
126
20
8
180
409

S xy =

(x i . y i ) x . y = 409 4.814.2=13.64
n

6. Correlacin lineal de Pearson (r):

r=

S xy
13.64
=
=0.995
x . y 2.9934.578

Interpretacin
Al ser la covarianza positiva, la correlacin ser dependiente
(directa); es decir, que al aumentar la velocidad aumentar
tambin el nmero de accidentes. Por otro lado, el valor del
coeficiente de correlacin de Pearson es muy prximo a 1; por
lo que la estimacin realizada estar muy cerca al valor real.

Solucin b)
Regresin de

y= y +

xy
x2

y=14.2+

sobre

(xx )

13.64
( x4.8)
8.96

y=1.52 x+ 6.9

Para un
es

y=16

x=6

(accidentes) el nmero de vehculos estimado

vehculos.

Esto supone que ayer circulaban

16

vehculos a

120 Km/h .

Solucin c)
La prediccin hecha es buena, ya que como vimos antes, el
coeficiente de correlacin de Pearson est muy prximo a 1.

EJERCICIOS PROPUESTOS
1. En un saln de clases de 40 alumnos, se disponen los resultados de
los exmenes parciales con respecto a las asignaturas de
Matemticas y Fsica.

Se busca evaluar dichos resultados calculando el coeficiente de


correlacin lineal de Pearson r entre las dos variables (asignaturas),
que dependen de la covarianza y de las desviaciones tpicas de cada
variable.

2. En una tarea de clasificacin de patrones que constaba de 10 lminas


se obtuvieron los siguientes datos de las diferencias de las distancias
logartmicas del estmulo a clasificar con respecto a los prototipos de
las dos clases en que poda ser encuadrado y del nmero de errores
cometidos por los sujetos:

Calcule el coeficiente de correlacin de Pearson e interprete el


resultado.
3. En el mismo trabajo del problema anterior, se calcul tambin la
diferencia de las distancias eucldeas del patrn a clasificar con
respecto a los prototipos de ambas clases, obtenindose el siguiente
resultado:

Calcule el coeficiente de correlacin de Pearson e interprete el


resultado.
4. Se ha medido la motivacin ante el estudio a 38 sujetos, antes y
despus de participar en un programa de innovacin didctica;
obtenindose los siguientes datos:

Calcule el coeficiente de correlacin de Pearson e interprete el


resultado.

REFERENCIAS
Anderson, David, Dennis Sweeney, y Thomas Williams. Estadstica
para administracin y economa. Mexico D.F.: Thomson, 2004.