Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El análisis de correlación es un método usado por los estadísticos para determinar la fuerza de la
relación o dependencia lineal existente entre las variables; si la fuerza de dependencia lineal es
pequeña, entonces no será fructífero usar análisis de regresión para encontrar la relación lineal y
usarla con propósito de predicción.
La correlación lineal o fuerza de la dependencia lineal, puede medirse por la covarianza muestral;
pero hay dos problemas al usarla para medir la fuerza de la relación lineal o dependencia lineal
entre dos variables; primero, la covarianza depende de las unidades de medida. Si cambiamos las
unidades para x y y, entonces la covarianza cambia. Segundo; no hay cotas en los valores de la
covarianza.
Lo que necesitamos para medir la fuerza de la relación lineal es un índice que posea las cuatro
propiedades siguientes:
1. No estar ligado a las unidades de medida; sus valores no dependen de las unidades de
medida de cada variable.
2. Su valor es igual a 1 si los puntos están en una línea recta con pendiente positiva.
3. Su valor es igual a -1 si los puntos están en una línea recta con pendiente negativa.
4. Su valor es cero si no hay relación lineal entre las variables.
Recordar que la media y la desviación estándar de una colección de medidas tienen la misma
unidad de medida que las medidas de la colección; en consecuencia, las desviaciones de los
valores para un conjunto de medidas tiene las misma unidad de medida que las medidas
individuales.
Si dividimos las desviaciones de los valores entre la desviación estándar, tendremos un conjunto
de números que no tienen unidad de medida, son libres de unidades. Estos cocientes se refieren a
puntajes z; si una desviación de un valor es positiva o negativa, su puntaje z será también positivo
o negativo.
Si en lugar de usar la suma de los productos de las desviaciones de los valores para x y y en el
numerador de la formula covarianza muestral, para obtener un índice de la dependencia,
usáramos la suma de los productos de los puntajes z, ∑zx zy, donde zx representa un puntaje z para
x y zy el puntaje z para y, obtendríamos un índice que cumpliría con las cuatro propiedades ya
mencionadas. Este nuevo indicador se llama coeficiente de Pearson y se denota por r:
Coeficiente de correlación de
Pearson
r=
∑ zxz y
n−1
1
Donde n en el número de parejas usadas en la muestra. Si el valor de r es igual a 1 o a -1, entonces
existe una correlación lineal o relación lineal perfecta entre las variables, mientras que si r=0 no
hay correlación o relación lineal, lo cual significa que cuando x crece, no hay una tendencia
definida de los valores de y a crecer o a decrecer.
Un valor de r=0 no necesariamente significa una falta de una relación entre x y y. Puede existir una
relación no lineal.
2
Ejemplo:
Los siguientes datos se obtuvieron de un estudio de la relación entre el peso y el tamaño del tórax
de recién nacidos.
T. del tórax
Peso (Kg) en cm
2.75 29.5
2.15 26.3
4.41 32.2
5.52 36.5
3.21 27.2
4.32 27.7
2.31 28.3
4.3 30.3
3.71 28.7
3
x(Kg) y(cm) x - 3.63111 y - 29.63333 zx zy zxzy
2.75 29.5 -0.88111111 -0.13333333 -0.78826755 -0.04280524 0.03374198
2.15 26.3 -1.48111111 -3.33333333 -1.32504496 -1.07013094 1.4179716
4.41 32.2 0.77888889 2.56666667 0.69681659 0.824000822 0.574177442
5.52 36.5 1.88888889 6.86666667 1.68985478 2.204469731 3.725233716
3.21 27.2 -0.42111111 -2.43333333 -0.37673821 -0.78119558 0.294306229
4.32 27.7 0.68888889 -1.93333333 0.61629998 -0.62067594 -0.38252257
2.31 28.3 -1.32111111 -1.33333333 -1.18190432 -0.42805237 0.505916949
4.3 30.3 0.66888889 0.66666667 0.5984074 0.214026187 0.128074854
3.71 28.7 0.07888889 -0.93333333 0.07057629 -0.29963666 -0.02114724
6.275752956
3.63111111
Media x 1
29.6333333
Media y 3
1.11778178
D. estándar x 2
3.11488362
D. estándar Y 5
r= 0.78446912
40
35
30
tamaño del tórax en cm
25
20
15
10
0
1.5 2 2.5 3 3.5 4 4.5 5 5.5 6
peso en Kg
4
x (lb) y(cm) x - 3.63111 y - 29.63333 zx zy zxzy
6.06271221 29.5 -1.94251749 -0.13333333 -0.78826755 -0.04280524 0.03374198
4.73993864 26.3 -3.26529106 -3.33333333 -1.32504496 -1.07013094 1.4179716
9.72238576 32.2 1.71715606 2.56666667 0.69681659 0.82400082 0.57417744
12.1695169 36.5 4.16428717 6.86666667 1.68985478 2.20446973 3.72523372
7.07683862 27.2 -0.92839108 -2.43333333 -0.37673821 -0.78119558 0.29430623
9.52396973 27.7 1.51874003 -1.93333333 0.61629998 -0.62067594 -0.38252257
5.09267826 28.3 -2.91255144 -1.33333333 -1.18190432 -0.42805237 0.50591695
9.47987727 30.3 1.47464758 0.66666667 0.5984074 0.21402619 0.12807485
8.17914993 28.7 0.17392023 -0.93333333 0.07057629 -0.29963666 -0.02114724
6.27575296
Media x 8.0052297
29.633333
Media y 3
D. estándar x 2.464287
D. estándar 3.1148836
Y 3
r= 0.78446912
5
40
35
30
t. del tórax en cm
25
20
15
10
0
4 5 6 7 8 9 10 11 12 13
peso en lb
( ∑ X )( ∑ Y )
∑ XY − N
r=
√((
2 2
∑X 2
−
(∑ X )
N ))((∑ Y − 2 (∑ Y )
N ))
( 32. 68 )(266 .7 )
990. 268− 6
9
r= =0. 784
r 2 =( 0 .784 )2 =0 .62
Esto significa que el 62% de la variabilidad en Y puede quedar explicada por X, es decir, el peso
explica el 62% de la variabilidad en el promedio de los tamaños de tórax.
Media x 0.78446912
8.0052297
11.666666
Media y 7
D. estándar x 2.464287
1.2263321 7
D. estándar Y 4
r=
16
14
12
t. del tórax en (in)
10
0
4 5 6 7 8 9 10 11 12 13
peso en lb
Regresión y predicción:
Una relación lineal entre dos variables x y y puede definirse por la ecuación lineal y = mx +b: la
constante m representa la pendiente de la línea recta y la b, es la ordenada al origen, es decir, b
representa la intercepción con el eje y.
En muchas aplicaciones prácticas que utilizan datos bivariados, los puntos del diagrama de
dispersión no caen en una línea recta; entonces el problema es identificar una línea recta cercana
a todos los puntos del diagrama de dispersión, donde la “cercanía” se juzga mediante los
cuadrados de las distancias verticales de los puntos a la línea recta. Esta recta se representa por la
Para esta recta, la suma de los cuadrados de las distancias verticales es lo más pequeña posible; el
procedimiento para determinar la recta de mejor ajuste se llama método de mínimos cuadrado;
8
este método identificara, entre todas las rectas que pueden dibujarse en un diagrama de
dispersión, a la que produce la suma mínima de los cuadrados de las desviaciones de los puntos
del diagrama respecto a la recta.
SS xy
m=
SS x
b= ȳ−m x̄
9
40
35
f(x) = 2.19 x + 21.7
30 R² = 0.62
T. del tórax en cm
25
20
15 Linear ()
10
0
1.5 2 2.5 3 3.5 4 4.5 5 5.5 6
Peso en Kg
x (lb) y (in) X2 xy
6.06271221 11.6141732 36.75647934 70.4133899
4.73993864 10.3543307 22.46701828 49.0788922
9.72238576 12.6771654 94.52478491 123.252292
12.1695169 14.3700787 148.0971409 174.876916
7.07683862 10.7086614 50.0816448 75.7834687
9.52396973 10.9055118 90.70599935 103.863764
5.09267826 11.1417323 25.93537182 56.7412577
9.47987727 11.9291339 89.86807313 113.086725
8.17914993 11.2992126 66.89849353 92.4179539
totales 72.0470673 105 625.3350061 859.514659
10
media x 8.0052297
media y 11.6666667
15
14.5
14
13.5
f(x) = 0.39 x + 8.54
13 R² = 0.62
12.5
t. del tórax en (in)
12
11.5
11
10.5
10
9.5
Linear ()
9
4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9 9.5 10 10.5 11 11.5 12 12.5 13
peso en lb
11
1.4 9.5
1.5 8.9
1.6 8.6
1.7 10.2
1.8 9.3
1.9 9.2
2.0 10.5
a) Dibujar el diagrama de dispersión
b) Determinar la línea de regresión por mínimos cuadrados.
c) Calcular la cantidad promedio de azúcar refinada que se produce cuando la temperatura
es 17.5°
12