Correlacion

Correlación.
El análisis de correlación es un método usado por los estadísticos para determinar la fuerza de la
relación o dependencia lineal existente entre las variables; si la fuerza de dependencia lineal es
pequeña, entonces no será fructífero usar análisis de regresión para encontrar la relación lineal y
usarla con propósito de predicción.
La correlación lineal o fuerza de la dependencia lineal, puede medirse por la covarianza muestral;
pero hay dos problemas al usarla para medir la fuerza de la relación lineal o dependencia lineal
entre dos variables; primero, la covarianza depende de las unidades de medida. Si cambiamos las
unidades para x y y, entonces la covarianza cambia. Segundo; no hay cotas en los valores de la
covarianza.
Lo que necesitamos para medir la fuerza de la relación lineal es un índice que posea las cuatro
propiedades siguientes:
1. No estar ligado a las unidades de medida; sus valores no dependen de las unidades de
medida de cada variable.
2. Su valor es igual a 1 si los puntos están en una línea recta con pendiente positiva.
3. Su valor es igual a -1 si los puntos están en una línea recta con pendiente negativa.
4. Su valor es cero si no hay relación lineal entre las variables.
Recordar que la media y la desviación estándar de una colección de medidas tienen la misma
unidad de medida que las medidas de la colección; en consecuencia, las desviaciones de los
valores para un conjunto de medidas tiene las misma unidad de medida que las medidas
individuales.
Si dividimos las desviaciones de los valores entre la desviación estándar, tendremos un conjunto
de números que no tienen unidad de medida, son libres de unidades. Estos cocientes se refieren a
puntajes z; si una desviación de un valor es positiva o negativa, su puntaje z será también positivo
o negativo.
Si en lugar de usar la suma de los productos de las desviaciones de los valores para x y y en el
numerador de la formula covarianza muestral, para obtener un índice de la dependencia,
usáramos la suma de los productos de los puntajes z, ∑zx zy, donde zx representa un puntaje z para
x y zy el puntaje z para y, obtendríamos un índice que cumpliría con las cuatro propiedades ya
mencionadas. Este nuevo indicador se llama coeficiente de Pearson y se denota por r:
Coeficiente de correlación de
Pearson
r=
∑ zxz y
n−1
1
Donde n en el número de parejas usadas en la muestra. Si el valor de r es igual a 1 o a -1, entonces
existe una correlación lineal o relación lineal perfecta entre las variables, mientras que si r=0 no
hay correlación o relación lineal, lo cual significa que cuando x crece, no hay una tendencia
definida de los valores de y a crecer o a decrecer.
Un valor de r=0 no necesariamente significa una falta de una relación entre x y y. Puede existir una
relación no lineal.
2
Ejemplo:
Los siguientes datos se obtuvieron de un estudio de la relación entre el peso y el tamaño del tórax
de recién nacidos.
 Calcular e interpretar el coeficiente de correlación entre las variables.
T. del tórax
Peso (Kg) en cm
2.75 29.5
2.15 26.3
4.41 32.2
5.52 36.5
3.21 27.2
4.32 27.7
2.31 28.3
4.3 30.3
3.71 28.7
3
x(Kg) y(cm) x - 3.63111 y - 29.63333 zx zy zxzy
2.75 29.5 -0.88111111 -0.13333333 -0.78826755 -0.04280524 0.03374198
2.15 26.3 -1.48111111 -3.33333333 -1.32504496 -1.07013094 1.4179716
4.41 32.2 0.77888889 2.56666667 0.69681659 0.824000822 0.574177442
5.52 36.5 1.88888889 6.86666667 1.68985478 2.204469731 3.725233716
3.21 27.2 -0.42111111 -2.43333333 -0.37673821 -0.78119558 0.294306229
4.32 27.7 0.68888889 -1.93333333 0.61629998 -0.62067594 -0.38252257
2.31 28.3 -1.32111111 -1.33333333 -1.18190432 -0.42805237 0.505916949
4.3 30.3 0.66888889 0.66666667 0.5984074 0.214026187 0.128074854
3.71 28.7 0.07888889 -0.93333333 0.07057629 -0.29963666 -0.02114724
6.275752956
3.63111111
Media x 1
29.6333333
Media y 3
1.11778178
D. estándar x 2
3.11488362
D. estándar Y 5
r= 0.78446912
40
35
30
tamaño del tórax en cm
25
20
15
10
0
1.5 2 2.5 3 3.5 4 4.5 5 5.5 6
peso en Kg
4
x (lb) y(cm) x - 3.63111 y - 29.63333 zx zy zxzy
6.06271221 29.5 -1.94251749 -0.13333333 -0.78826755 -0.04280524 0.03374198
4.73993864 26.3 -3.26529106 -3.33333333 -1.32504496 -1.07013094 1.4179716
9.72238576 32.2 1.71715606 2.56666667 0.69681659 0.82400082 0.57417744
12.1695169 36.5 4.16428717 6.86666667 1.68985478 2.20446973 3.72523372
7.07683862 27.2 -0.92839108 -2.43333333 -0.37673821 -0.78119558 0.29430623
9.52396973 27.7 1.51874003 -1.93333333 0.61629998 -0.62067594 -0.38252257
5.09267826 28.3 -2.91255144 -1.33333333 -1.18190432 -0.42805237 0.50591695
9.47987727 30.3 1.47464758 0.66666667 0.5984074 0.21402619 0.12807485
8.17914993 28.7 0.17392023 -0.93333333 0.07057629 -0.29963666 -0.02114724
6.27575296
Media x 8.0052297
29.633333
Media y 3
D. estándar x 2.464287
D. estándar 3.1148836
Y 3
r= 0.78446912
5
40
35
30
t. del tórax en cm
25
20
15
10
0
4 5 6 7 8 9 10 11 12 13
peso en lb
Peso (Kg) T. del tórax X² Y² XY

2.75 29.5 7.5625 870.25 81.125
2.15 26.3 4.6225 691.69 56.545
4.41 32.2 19.4481 1036.84 142.002
5.52 36.5 30.4704 1332.25 201.48
3.21 27.2 10.3041 739.84 87.312
4.32 27.7 18.6624 767.29 119.664
2.31 28.3 5.3361 800.89 65.373
4.30 30.3 18.49 918.09 130.29
3.71 28.7 13.7641 823.69 106.477
Totales 32.68 266.7 128.6602 7980.83 990.268
( ∑ X )( ∑ Y )
∑ XY − N
r=
√((
2 2
∑X 2
−
(∑ X )
N ))((∑ Y − 2 (∑ Y )
N ))
( 32. 68 )(266 .7 )
990. 268− 6
9
r= =0. 784
√(( 128 . 6602−

( 32 .68 )2
9 ))(( 7980 . 83−
( 266 . 7 )2
9 ))
El resultado anterior nos hace saber que existe una dependencia muy fuerte entre ambas variables
r 2 =( 0 .784 )2 =0 .62
Esto significa que el 62% de la variabilidad en Y puede quedar explicada por X, es decir, el peso
explica el 62% de la variabilidad en el promedio de los tamaños de tórax.
x (lb) y (in) x – 8.0052297 y – 11.6667 zx zy zxzy

6.06271221 11.6141732 -1.94251749 -0.05249344 -0.78826755 -0.04280524 0.03374198
4.73993864 10.3543307 -3.26529106 -1.31233596 -1.32504496 -1.07013094 1.4179716
9.72238576 12.6771654 1.71715606 1.01049868 0.69681659 0.82400082 0.57417744
12.1695169 14.3700787 4.16428717 2.70341207 1.68985478 2.20446973 3.72523372
7.07683862 10.7086614 -0.92839108 -0.95800525 -0.37673821 -0.78119558 0.29430623
9.52396973 10.9055118 1.51874003 -0.76115486 0.61629998 -0.62067594 -0.38252257
5.09267826 11.1417323 -2.91255144 -0.52493439 -1.18190432 -0.42805238 0.50591695
9.47987727 11.9291339 1.47464758 0.26246719 0.5984074 0.21402619 0.12807486
8.17914993 11.2992126 0.17392023 -0.36745407 0.07057629 -0.29963666 -0.02114724
6.27575296
Media x 0.78446912
8.0052297
11.666666
Media y 7
D. estándar x 2.464287
1.2263321 7
D. estándar Y 4
r=
16
14
12
t. del tórax en (in)
10
0
4 5 6 7 8 9 10 11 12 13
peso en lb
Regresión y predicción:
Si la fuerza de la relación lineal se determina usando el coeficiente de correlación r y ésta resulta

ser alta, puede ser deseable describir la relación en términos de una ecuación; determinar la
relación lineal requiere el estudio de regresión, una ecuación de regresión puede usarse con
propósitos de predicción.
Una relación lineal entre dos variables x y y puede definirse por la ecuación lineal y = mx +b: la
constante m representa la pendiente de la línea recta y la b, es la ordenada al origen, es decir, b
representa la intercepción con el eje y.
En muchas aplicaciones prácticas que utilizan datos bivariados, los puntos del diagrama de
dispersión no caen en una línea recta; entonces el problema es identificar una línea recta cercana
a todos los puntos del diagrama de dispersión, donde la “cercanía” se juzga mediante los
cuadrados de las distancias verticales de los puntos a la línea recta. Esta recta se representa por la
ecuación ^y =mx +b y se llama recta de mejor ajuste o recta de regresión.
Para esta recta, la suma de los cuadrados de las distancias verticales es lo más pequeña posible; el
procedimiento para determinar la recta de mejor ajuste se llama método de mínimos cuadrado;
8
este método identificara, entre todas las rectas que pueden dibujarse en un diagrama de
dispersión, a la que produce la suma mínima de los cuadrados de las desviaciones de los puntos
del diagrama respecto a la recta.
Las fórmulas de mínimos cuadrados para encontrar m y b son:
Constantes para la recta de regresión
SS xy
m=
SS x
b= ȳ−m x̄
Peso (Kg) T. del tórax X² Y² XY

2.75 29.5 7.5625 870.25 81.125
2.15 26.3 4.6225 691.69 56.545
4.41 32.2 19.4481 1036.84 142.002
5.52 36.5 30.4704 1332.25 201.48
3.21 27.2 10.3041 739.84 87.312
4.32 27.7 18.6624 767.29 119.664
2.31 28.3 5.3361 800.89 65.373
4.30 30.3 18.49 918.09 130.29
3.71 28.7 13.7641 823.69 106.477
Totales 32.68 266.7 128.6602 7980.83 990.268
9
40
35
f(x) = 2.19 x + 21.7
30 R² = 0.62
T. del tórax en cm
25
20
15 Linear ()
10
0
1.5 2 2.5 3 3.5 4 4.5 5 5.5 6
Peso en Kg
x (lb) y (in) X2 xy
6.06271221 11.6141732 36.75647934 70.4133899
4.73993864 10.3543307 22.46701828 49.0788922
9.72238576 12.6771654 94.52478491 123.252292
12.1695169 14.3700787 148.0971409 174.876916
7.07683862 10.7086614 50.0816448 75.7834687
9.52396973 10.9055118 90.70599935 103.863764
5.09267826 11.1417323 25.93537182 56.7412577
9.47987727 11.9291339 89.86807313 113.086725
8.17914993 11.2992126 66.89849353 92.4179539
totales 72.0470673 105 625.3350061 859.514659
10
media x 8.0052297
media y 11.6666667
15
14.5
14
13.5
f(x) = 0.39 x + 8.54
13 R² = 0.62
12.5
t. del tórax en (in)
12
11.5
11
10.5
10
9.5
Linear ()
9
4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9 9.5 10 10.5 11 11.5 12 12.5 13
peso en lb
Método de mínimos cuadrados: técnica empleada para obtener la ecuación de regresión,

minimizando la suma de los cuadrados de las distancias verticales entre los valores verdaderos de
Y y los valores pronosticados de Y.
1. Se llevó un estudio acerca de la cantidad de azúcar refinada mediante un cierto proceso a

varias temperaturas diferentes. Los datos se codificaron y se registraron en el siguiente
cuadro.
Tem X Az. Trans Y

1.0 8.1
1.1 7.8
1.2 8.5
1.3 9.8
11
1.4 9.5
1.5 8.9
1.6 8.6
1.7 10.2
1.8 9.3
1.9 9.2
2.0 10.5
a) Dibujar el diagrama de dispersión
b) Determinar la línea de regresión por mínimos cuadrados.
c) Calcular la cantidad promedio de azúcar refinada que se produce cuando la temperatura
es 17.5°
12

Correlacion

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Correlacion

Cargado por

Copyright:

Formatos disponibles

Correlación.

 Calcular e interpretar el coeficiente de correlación entre las variables.

Peso (Kg) T. del tórax X² Y² XY

√(( 128 . 6602−

x (lb) y (in) x – 8.0052297 y – 11.6667 zx zy zxzy

Si la fuerza de la relación lineal se determina usando el coeficiente de correlación r y ésta resulta

ecuación ^y =mx +b y se llama recta de mejor ajuste o recta de regresión.

Las fórmulas de mínimos cuadrados para encontrar m y b son:

Constantes para la recta de regresión

Peso (Kg) T. del tórax X² Y² XY

Método de mínimos cuadrados: técnica empleada para obtener la ecuación de regresión,

1. Se llevó un estudio acerca de la cantidad de azúcar refinada mediante un cierto proceso a

Tem X Az. Trans Y

También podría gustarte