Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DISTRIBUCIONES BIVARIANTES
El estudio de la relacin existente entre dos variables X e Y conduce a la consideracin simultnea de ambas variables
estadsticas. Tal distribucin de las dos variables se denomina bivariante.
La presentacin de los datos experimentalmente observados puede hacerse :
a) Mediante los pares (Xi , Yi) :
Y
Y1
Y2
n
n1
n2
....
....
....
Xn
Yn
nn
Y2
n12
n22
....
....
....
n21
....
....
n2m
....
Xn
nn1
nn2
....
nnm
X1
X2
Y
....
Y1
n11
....
Ym
n1m
Distribuciones marginales :
Son las obtenidas de la distribucin bivariante, al considerar de forma independiente cada una de las dos
variables.
De ellas obtendremos los parmetros de centralizacin y dispersin caractersticos : media y desviacin tpica.
X , s 2X
, Y , s 2Y
, sX
, sY
Covarianza :
Este ndice de variacin conjunta de X e Y se define como :
s XY =
s XY =
n .(X
i
X )(
. Yi Y )
n . X .Y
N
nij .(X i X ).(Y j Y )
i
X .Y
n .X .Y
ij
X .Y
entrada.
Si sXY = 0 expresar que las variables X e Y son independientes.
RECTAS DE REGRESIN
Representando los pares de observaciones (X,Y) como
puntos en un plano cartesiano, obtenemos el denominado
diagrama de dispersin o nube de puntos.
Por recta de regresin o de ajuste entendemos la recta que
ms se aproxima a los puntos representativos de las
observaciones (X,Y).
El mtodo de los mnimos cuadrados proporciona un sistema
de obtencin de tales rectas, estableciendo que sea mnima
la suma de los cuadrados de las separaciones existentes
entre cada punto y la recta.
Segn se consideren estas separaciones en vertical (lo representado en la figura) o en horizontal, se obtienen,
respectivamente, las rectas de regresin de Y sobre X y de X sobre Y.
a = ordenada en el origen
b = coeficiente de regresin de Y sobre X = pendiente de la recta de regresin = tangente del
ngulo que forma con el eje horizontal.
Y' = predicciones de Y para el valor X observado.
a. f . X
+ b. n. X
s XY
s 2X
b=
b. n. X
a.N
n.Y
n.X .Y
=
=
a = Y b. X
Los coeficientes a' y b' de la recta de regresin de X sobre Y se obtienen igualmente al resolver :
+ b'. n.Y
+ b'. n.Y 2
a'.N
a '. f .Y
b' =
o directamente :
s XY
s Y2
n. X
n.X .Y
=
=
a ' = X b'. Y
Otro procedimiento de clculo simplificado permite obtener los coeficientes de regresin del siguiente modo :
b=
N . X .Y ( X )(
. Y )
b' =
N . X 2 ( X )
N . X .Y ( X )(
. Y )
N . Y 2 ( Y )
r = b . b' =
s XY
sX . sY
ya que : r =
b . b' =
s XY s XY
.
=
s 2X s 2Y
s 2XY
s
= XY
2
2
sX . sY
sX . sY
Segn las expresiones finales obtenidas para b y b', podemos tambin calcularlo como :
r=
La expresin
. Y )
N . X .Y ( X )(
[N . X
][
( X ) . N . Y 2 ( Y )
2
n conduce a las siguientes relaciones (sin ms que multiplicar y dividir por sX o por sY ) :
r = b.
sX
sY
r = b'.
sY
sX
De aqu resulta que, si se trabaja con puntuaciones tipificadas (las desviaciones tpicas son iguales a 1) :
r = b = b' y las rectas de regresin son : z'Y = r.z'X ; z'X = r.z'Y
El coeficiente de correlacin toma siempre valores comprendidos entre -1 y 1 : -1 r 1
Interpretacin :
r
prximo a 0
prximo a 1
prximo a -1
Razn de correlacin :
2 = 1
ni .s y2
1
. 2 i
N
sY
1
a
c
1
0
0
b
d
ad bc
(a + b )(. c + d )(. a + c )(. b + d )
rbp =
X1 X0
. p. q
sX
Siendo :
X1
X0
sX
p
q=1-p
= 1
6. d 2
N. N 2 1
Los coeficientes de correlacin anteriores no son ms que una adaptacin del coeficiente de correlacin de Pearson
para tipos especiales de variables. En consecuencia, su valor coincide con el que habramos obtenido siguiendo el
procedimiento de Pearson (r); por ello, su interpretacin es la establecida para r .
1
0
1
a
c
0
b
d
rt = n + R
con : R =
CA
100 . ( B A )
B) Mtodo exacto :
El coeficiente de correlacin tetracrico rt ser el resultado de resolver la siguiente ecuacin :
rt + z. z'.
rt 2
r3
r4
a. d b. c
+ ( z 2 1) . ( z' 2 1) . t + ( z 3 3z) . ( z' 3 3z') . t + ... = 2
2!
3!
4!
n . f ( z). f ( z' )
Como es lgico, la mayor exactitud en el clculo rt , se obtiene al considerar un mayor nmero de sumandos
del desarrollo en serie anterior. Esta dificultad aconseja seguir el mtodo abreviado descrito anteriormente.
En la ecuacin que permite calcular rt :
z
valor de la curva normal tipificada N(0,1), que deja a su derecha un rea m, igual a la menor de las
cantidades (a+c)/n o (b+d)/n.
z'
valor de la curva normal tipificada N(0,1), que deja a su derecha un rea m, igual a la menor de las
cantidades (a+b)/n o (c+d)/n.
f(z) y f(z')
ordenadas de la curva normal, correspondientes a los valores z y z' anteriores. Tabuladas
para cada m.
X X0 p. q
rb = 1
.
sX
f ( z)
La ordenada f(z) :
Siendo :
X1
X0
sX
p
la proporcin de unos en Y.
q=1-p la proporcin de ceros en Y.
z
el valor normal tipificado (N(0,1)) que deja a su derecha (o a su izquierda) el
rea p.
f(z)
Np Ni
n.( n 1)
2
Siendo :
n el nmero de pares de valores (X , Y)
Np el nmero total de "permanencias"
Ni el nmero total de "inversiones"
(Y Y ')
(Y 'Y )
(Y Y ) = (Y Y ') + (Y 'Y )
(Y Y ) = (Y Y ') + (Y 'Y )
(Y Y ')
+
2
En trminos de varianzas :
(Y Y )
(Y 'Y )
Varianza total
Dividiendo los sumandos anteriores por la varianza de Y obtendremos la proporcin de varianza de Y no explicada y
explicada por la variable X. La manipulacin de esta operacin conduce a las expresiones y definiciones siguientes :
(Y Y )
(Y Y )
2
2
(Y Y ') + (Y 'Y )
=1=
(Y Y ) (Y Y )
(Y 'Y )
2
(Y Y ')
=
(Y Y )
+ r2
s =
2
Y'
s 2Y'
= r2
s 2Y
(Y Y ')
=
s =s
2
e
2
Y .X
(Y Y ) . (Y Y ')
=
N
(Y Y )
2
= sY2 . 1 r 2
n.x
x=
N
2
x
n.x
=
n. y
y=
Recta de regresin de y
sobre x
(puntuaciones directas)
y' = a + b. x
Predicciones : y ' = y
Recta de regresin de x
sobre y
(puntuaciones directas)
2
y
n. y
=
N
y2
s xy =
a.N
+ b. n.x
a. n.x + b. n.x 2
=
=
n. y
n.x. y
b'. n. y
n.x
n.x. y
a'.N
a'. n. y + b'. n. y 2
n.x. y x. y
N
b=
sxy
s2x
a = y b. x
b' =
sxy
s2y
a ' = x b'. y
r = b. b' =
Ph
sxy
sx . sy
sy
s
r = b. x = b'.
sy
sx
Biserial puntual
ad bc
( a + b).( c + d ).( a + c).( b + d )
rbp =
x1 x0
. p. q
sx
Rangos de Spearman
= 1
6. d 2
N. ( N 2 1)
rt = n + R
Puntuaciones
directas
(x,y)
y' = a + b. x
Tetracrico
Biserial
(Tabulado)
X X0 p. q
rb = 1
.
sX
f ( z)
con : R =
CA
100 . ( B A )
Puntuaciones diferenciales
(d x
= x x , dy = y y)
Tau de Kendall
Np Ni
n.( n 1)
2
Puntuaciones tipificadas
xx
y y
, zy =
zx =
sx
sy
zx = 0 , zy = 0
szx = 1 , szy = 1 , szxzy =
(a = 0 ; b = r)
r=
sxy
sx . sy
d y ' = b. d x
Relacin fundamental :
Varianza de y =
= Varianza residual (de errores) + Varianza de las
predicciones.
Varianza de las predicciones :
z y ' = r. z x
( y ' y ) 2
=
N
s2y '
s2y
= r2
sxy
sx . s y
=r
se2
s2y.x
( y y') 2 2
=
= s .( 1 r 2 )
N
s y.x = s y . 1 r 2
se2
= 1 r2
s2y
-1 r 1
0 r2 1
EJERCICIOS RESUELTOS
1
La tabla siguiente contiene los resultados de las calificaciones en Matemticas (X) y Lengua (Y) de un
grupo de 40 alumnos de Secundaria.
X
3
3
5
6
6
6
7
8
Y
4
5
5
6
7
8
7
8
n
3
5
12
4
5
3
6
2
a)
b)
c)
d)
e)
Tabla de clculos :
X
3
3
5
6
6
6
7
8
a)
Y
4
5
5
6
7
8
7
8
n
3
5
12
4
5
3
6
2
40
n.Y
12
25
60
24
35
24
42
16
238
n.X2
27
45
300
144
180
108
294
128
1226
Y=
238
= 5' 95
40
n.Y2
48
125
300
144
245
192
294
128
1476
n.X.Y
36
75
300
144
210
144
294
128
1331
b=
n.X
9
15
60
24
30
18
42
16
214
N . X .Y ( X )(
. Y )
N . X ( X )
2
214
= 5' 35
40
b)
c)
d)
Calculada la varianza de Y :
n .Y
i
Y 2 =
1476
5'95 2 = 1'4975
40
e)
2
De la distribucin bivariante siguiente :
a)
b)
c)
d)
e)
Y
1
1
9
0
0
0
0
8
2
4
6
2
5
0
0
X
2
4
6
n
6
9
8
23
Y
1
1
9
0
10
0
0
0
8
8
2
4
6
n.X2
24
144
288
456
n.X
12
36
48
96
2
5
0
0
5
Y
0
1
2
6
9
8
23
n
8
10
5
23
n.Y
0
10
10
20
n.Y2
0
10
20
30
X .Y = n .X .Y
ij
Como puede observarse, slo realizamos los productos correspondientes a frecuencias y valores de variables no nulos.
X . Y = 1.2.1 + 5.2.2 + 9.4.1 = 58
X=
96
= 4' 1739
23
20
= 0' 8696
23
Y=
n . X .Y
ij
Covarianza =
a)
s XY =
s 2X =
X .Y =
456
4' 1739 2 = 2' 4045
23
s Y2 =
30
0' 8696 2 = 0' 5482
23
X .Y X .Y = 58 4'1739.0'8696 = 1'1078
N
23
s XY 1' 1078
=
= 0' 4607
2' 4045
s X2
s XY 1' 1078
=
= 2' 0207
0' 5482
s Y2
a ' = X b'. Y = 4' 1739 ( 2' 0207 ). 0' 8696 = 5' 9310
Coeficiente de correlacin :
Utilizando la expresin r = b.b' = ( 0'4607 )(
. 2'0207 ) = 0'9648
al signo del coeficiente de correlacin. Este signo es el de b y b', ya que es el que proporciona la covarianza.
Calculado como r =
s XY
=
sX . sY
1' 1078
d)
Varianza residual :
2
se2 = sY2. X = sY2 . 1 r 2 = 0'5482. 1 ( 0'9648) = 0'0379
e)
Coeficiente de determinacin :
Es el cuadrado del coeficiente de correlacin, representando la proporcin de varianza explicada por la variable
X (en el ajuste de Y sobre X).
R 2 = r 2 = ( 0'9648) = 0'9309
2
3
De la siguiente distribucin bivariante :
a)
b)
c)
d)
e)
[0,1)
1
3
1
2
3
4
Y
[1,2)
2
6
2
[2,3]
1
3
1
X
2
3
4
n
4
12
4
20
X .Y = n .X .Y
ij
a)
2
3
4
n.X2
16
108
64
188
n.X
8
36
16
60
j
Y
1'5
2
6
2
10
0'5
1
3
1
5
2'5
1
3
1
5
Y
0'5
1'5
2'5
4
12
4
20
n
5
10
5
20
n.Y
2'5
15
12'5
30
n.Y2
1'25
22'5
31'25
55
Covarianza :
X=
n . X .Y
ij
Covarianza =
s XY =
60
=3
20
X .Y =
Y=
30
= 1' 5
20
20
Interpretacin :
Las variables son independientes.
Siendo nula la covarianza, tambin los sern los coeficientes de regresin, el coeficiente de correlacin
y el de determinacin, dado que en sus clculos interviene la covarianza en el numerador.
Al ser nulos los coeficientes de regresin, a coincidir con la media de Y y a' con la de X.
b)
c)
s XY
0
= 2 =0
2
sX
sX
a = Y b . X = 1' 5 0 . 3 = 1' 5
Y' = 1'5
X' = 3
s XY
0
= 2 =0
2
sY
sY
d)
r = b . b' = 0 . 0 = 0
e)
r=
s XY
0
=
=0
sX . sY sX . sY
R 2 = r2 = 0
4
Se desea estudiar la relacin entre las calificaciones obtenidas en un test (puntuado de 0 a 5) y el sexo
del alumno que lo realiza. Los resultados observados fueron :
Test
1
1
2
2
3
4
4
5
5
Sexo
Varn
Hembra
Varn
Hembra
Varn
Hembra
Varn
Hembra
Varn
N de alumnos
3
1
2
4
3
5
1
1
2
a)
Mida el grado de asociacin existente entre las dos variables mediante el coeficiente ms
adecuado.
b)
Calcule el coeficiente de correlacin de Pearson y compare su valor con el calculado en el
apartado anterior.
a)
Y
1
0
1
0
1
0
1
0
1
n
3
1
2
4
3
5
1
1
2
N= 22
n.X
3
1
4
8
9
20
4
5
10
64
n.X2
3
1
8
16
27
80
16
25
50
226
X1
1
2
3
4
5
n
3
2
3
1
2
11
p
n.X1
3
4
9
4
10
30
X0
1
2
4
5
n
1
4
5
1
11
q
n.X0
1
8
20
5
34
30
34
11
11
X0 =
p=
= 0' 5
q=
= 0' 5 = 1 p
= 2' 7273
= 3' 0909
11
11
22
22
64
226
X=
= 2' 9091
s 2X =
2' 90912 = 1' 8099 s X = 1' 8099 = 1' 3453
22
22
X X0
2' 7273 3' 0909
Con esto : rbp = 1
. p. q =
. 0' 5 . 0' 5 = 0' 1351
sX
1' 3453
X1 =
b)
Y=
s XY
f.Y
n.Y2
n.X.Y
1
1
2
2
3
4
4
5
5
1
0
1
0
1
0
1
0
1
3
1
2
4
3
5
1
1
2
22
3
0
2
0
3
0
1
0
2
11
3
0
2
0
3
0
1
0
2
11
3
0
4
0
9
0
4
0
10
30
11
11
0' 5 2 = 0' 25 s Y = 0' 25 = 0' 5
= 0' 5 s 2Y =
22
22
0' 0909
30
=
2' 9091. 0' 5 = 0' 0909
r=
= 0' 1351
22
1' 3453. 0' 5
5
La siguiente tabla nos muestra la distribucin por sexo de un grupo de 167 personas, indicando si
fuman o no.
Fuma
85
10
Hombre
Mujer
No fuma
12
60
a) Calcule el coeficiente de ms adecuado para medir el grado de asociacin existente entre el sexo y
el ser o no fumador.
b) Calcule el coeficiente de correlacin de Pearson y compare su valor con el calculado en el apartado
anterior.
a)
Las dos variables son dicotmicas. El coeficiente especfico para esta situacin es el coeficiente de
correlacin (phi) . Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y
X
=
b)
1 (Fuma)
a = 85
c = 10
95
1 (Hombre)
0 (Mujer)
ad bc
0 (No fuma)
b = 12
d = 60
72
85.60 12.10
97.70.95.72
97
70
= 0'7307
Y
1
0
1
0
n
85
12
10
60
167
n.X
85
12
0
0
97
n.Y
85
0
10
0
95
n.X2
85
12
0
0
97
n.Y2
85
0
10
0
95
n.X.Y
85
0
0
0
85
97
97
= 0' 5808
s 2X =
0' 5808 2 = 0' 2435 s X = 0' 2435 = 0' 4934
167
167
95
95
Y=
= 0' 5689
s 2Y =
0' 5689 2 = 0' 2453 s Y = 0' 2453 = 0' 4952
167
167
85
0' 1786
s XY =
0' 5808 . 0' 5689 = 0' 1786
r=
= 0' 7307
167
0' 4934 . 0' 4952
X=
6
Doce atletas (A, B, C, ..., L) participan en una carrera de 100 metros y en otra de lanzamiento de peso.
Las clasificaciones en dichas pruebas fueron :
100 metros :
A,B,C,D,E,F,G,H,I,J,K,L
Peso :
K,I,J,L,G,H,F,D,E,B,C,A
a)
Determine la relacin existente entre las dos clasificaciones en las pruebas descritas, mediante
el coeficiente ms adecuado.
b)
Calcule el coeficiente de correlacin de Pearson y compare su valor con el calculado en el
apartado anterior.
Nos encontramos ante dos reordenaciones distintas de los 12 individuos. Calcularemos pues el coeficiente de
correlacin por el mtodo de los rangos de Spearman.
a)
Coeficiente de correlacin :
6. d 2
6.552
= 1
= 1
= 0'9301
2
N. N 1
12. 12 2 1
A continuacin se ofrecen las tablas auxiliares de clculos de y r , calculados para comprobar que coinciden.
X
1
2
3
4
5
6
7
8
9
10
11
12
78
b)
Para el clculo de
Y
d
11
-10
9
-7
10
-7
12
-8
7
-2
8
-2
6
1
4
4
5
4
2
8
3
8
1
11
78
0
d2
100
49
49
64
4
4
1
16
16
64
64
121
552
X
1
2
3
4
5
6
7
8
9
10
11
12
78
Para el clculo de r
Y
X2
Y2
11
1
121
9
4
81
10
9
100
12
16
144
7
25
49
8
36
64
6
49
36
4
64
16
5
81
25
2
100
4
3
121
9
1
144
1
78
650
650
X.Y
11
18
30
48
35
48
42
32
45
20
33
12
374
En efecto coinciden los coeficientes de correlacin obtenidos por los dos mtodos.
Su alto valor negativo (prximo a -1) nos indica que existe una fuerte relacin entre las dos clasificaciones en
las pruebas atlticas, quedando mejor clasificados en una los peor clasificados en la otra.
7
De los archivos de la Direccin provincial de Trfico se han seleccionado los expedientes de 64
conductores, realizando el siguiente recuento en funcin del sexo (M = mujer ; H = hombre) y el nmero
de multas impuestas durante el ltimo ao.
Sexo
N de multas
en el ltimo ao
1
2
3
4
5
6
M
9
7
6
1
1
0
H
0
0
2
9
11
18
Qu conclusin puede deducirse acerca de la relacin existente entre sexo y nmero de denuncias ?.
Utilice para ello el ndice de asociacin ms apropiado.
Al ser dicotmica la variable sexo, obtendremos el coeficiente de correlacin biserial puntual :
Regresin y correlacin (F. lvarez) - 13
Y
X
1
2
3
4
5
6
M=1
H=0
n.X
n.X2
Y=1
n.X1
Y=0
n.X0
9
7
6
1
1
0
24
0
0
2
9
11
18
40
9
7
8
10
12
18
N=64
9
14
24
40
60
108
255
9
28
72
160
300
648
1217
9
14
18
4
5
0
50
0
0
6
36
55
108
205
50
205
24
40
= 2' 0833
= 5' 125
X0 =
p=
= 0' 375 q =
= 0' 625 = 1 p
24
40
64
64
1217
255
X=
= 3' 9844
s 2X =
3' 9844 2 = 3' 1404 s X = 3' 1404 = 1' 7721
64
64
X X0
2' 0833 5' 125
Con esto : rbp = 1
. p. q =
. 0' 375 . 0' 625 = 0' 831
sX
1' 7721
X1 =
Es decir existe una fuerte relacin, de sentido inverso, entre ambas variables. Algo que poda advertirse al
analizar el recuento de las observaciones.
8
Para analizar si existe o no relacin entre las calificaciones en materias cientficas y las del rea
literaria, seleccionamos ocho alumnos a los que sometemos a dos pruebas (una de cada rea).
Clasificados por orden de puntuacin result :
Alumno
P. Cientfica
P. Literaria
1
3
3
2
6
5
3
7
7
4
1
4
5
2
1
6
8
8
7
5
2
8
4
6
Utilizando el ndice adecuado establezca el grado de relacin que existe entre las calificaciones de
dichas reas de conocimiento.
Calcularemos el coeficiente de correlacin (rangos de Spearman) al presentarse dos variables ordinales (dos
reordenaciones de los 8 alumnos).
Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en la prueba cientfica y en la
literaria . Ordenadas las primeras, calculemos sus diferencias :
X
1
2
3
4
5
6
7
8
Con ello :
= 1
6. d 2
Y
4
1
3
6
2
5
7
8
N. N 1
2
= 1
d
-3
1
0
-2
3
1
0
0
d2
9
1
0
4
9
1
0
0
24
6.24
= 0'7143
8. 8 2 1
Es decir, existe una alta relacin entre las calificaciones. Generalmente un alumno con altas calificaciones en el
rea cientfica tendr altas calificaciones en el rea de conocimientos literarios.
9
Un grupo de COU integran 17 alumnos de Ciencias y 14 de Letras. De ellos repiten curso 16 de Ciencias
y slo 2 de Letras. Calcule el coeficiente de correlacin ms adecuado para medir el grado de
asociacin existente entre las variables descritas.
Se trata de analizar la relacin que puede existir entre la especialidad (Ciencias o Letras) y el ser repetidor o no serlo.
Siendo las dos variables dicotmicas, calculamos el coeficiente de correlacin (phi) .
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y
X
1 (Repite)
a = 16
c=2
18
1 (Ciencias)
0 (Letras)
0 (No repite)
b=1
d = 12
13
17
14
ad bc
16.12 1.2
=
= 0'8051 alta relacin entre las variables.
(a + b )(. c + d )(. a + c )(. b + d ) 17.14.18.13
10
Se somete a 10 alumnos a dos test diferentes encaminados a medir su percepcin visual. Los
resultados fueron los siguientes :
Test A
Test B
3
4
4
5
5
5
5
6
6
7
7
8
8
8
9
10
10
11
12
14
a) Obtenga las ecuaciones de las rectas de regresin del test A sobre el B, en puntuaciones directas,
diferenciales y tpicas.
b) Determine la proporcin de varianza residual que se presenta en dicho ajuste.
Denominando Y a las puntuaciones en el test A (variable dependiente en el ajuste) y X a las correspondientes al text B,
procedemos a realizar los clculos necesarios :
X
3
4
5
5
6
7
8
9
10
12
69
b=
a)
b)
[N . X
X.Y
12
20
25
30
42
56
64
90
110
168
617
. Y )
N . X .Y ( X )(
2
Y2
16
25
25
36
49
64
64
100
121
196
696
. Y ) 10.617 69.78
N . X .Y ( X )(
=
= 1'0809
2
10.549 69 2
N . X 2 ( X )
a = Y b. X =
r=
X2
9
16
25
25
36
49
64
81
100
144
549
Y
4
5
5
6
7
8
8
10
11
14
78
][
10
( X ) . N . Y ( Y )
2
10
10.617 69.78
= 0'9861
Rectas de regresin :
1.- En puntuaciones directas :
Y' = a + b . X
y' = b . x
y' = 1'0809 . x
zy' = r .zx
2
Y .X
2
Y
s
s
s .1 r
sY2
2
Y
) = 1 r
= 1 0'98612 = 0'0277
Slo representa un 2'77% de la varianza del test A (Y), siendo la proporcin de varianza no explicada por el test
B (X).
11
A partir de los seis pares de valores, correspondientes a una variable bidimensional (X,Y) ,
(1 , 4) , (2 , 5) , (3 , 5) , (4 , 6) , (5 , 7)
a)
b)
c)
Clculos necesarios (realizados en este ejemplo a partir de las medias y varianzas de X e Y y de la covarianza) :
X
1
2
3
4
5
15
X=
a)
15
=3
5
b=
s 2X =
1' 4
= 0' 7
2
55
32 = 2
5
Y
4
5
5
6
7
27
Y=
X2
1
4
9
16
25
55
27
= 5' 4
5
Y2
16
25
25
36
49
151
s Y2 =
X.Y
4
10
15
24
35
88
151
5' 4 2 = 1' 04
5
s XY =
88
3. 5' 4 = 1' 4
5
Y = 3'3 + 0'7 . X
b)
Para X = 0
Para X = 5
Y = 3'3
Y = 6'8
(0 , 3'3)
(5 , 6'8)
c)
r=
1' 4
= 0' 9707
2 . 1' 04
Elevada relacin entre las variables y de signo positivo.
La recta de regresin es una buena funcin de ajuste, siendo creciente (r > 0).
Para representar grficamente la recta de regresin, localizamos dos puntos cualesquiera de ella :
Y = 3'3 + 0'7 . X
12
La recta de regresin de Y sobre X, calculada en el estudio de la relacin existente entre dos variables,
tiene por ecuacin Y' = 5'4 - 0'9 . X , siendo la varianza de la variable dependiente Y igual a 1'84.
Si la distribucin de las predicciones de Y tiene como media 3'6 y varianza 1'619936,
a)
calcule la media y varianza de X
b)
determine la ecuacin de la recta de regresin de X sobre Y
c)
obtenga el valor del coeficiente de correlacin.
Iniciamos aqu una serie de ejemplos que requieren para su resolucin el empleo de las diferentes relaciones
funcionales (frmulas para entendernos) tratadas en el tema.
Resulta de utilidad escribir las expresiones en las que intervienen los datos suministrados, sustituyendo sus valores
conocidos. Tal vez as podamos obtener los que nos pida el problema.
1.2.3.-
(a = Y b. X )
5'4 = Y + 0'9. X
s
b = XY
= 0'9
2
sX
s 2Y = 1' 84
s Y = 1' 84 = 1' 3565
Y' = Y = 3'6
s 2Y' = 1' 619936
5' 4 = Y + 0' 9 . X
X=
5' 4 3' 6
=2
0' 9
La varianza de X no puede obtenerse de momento (para extraerla del valor del coeficiente de regresin b necesitamos
conocer antes la covarianza o el coeficiente de correlacin).
Partiendo, por ejemplo, de la proporcin de varianza explicada (hace referencia a la varianza de las predicciones) :
r2 =
El coeficiente de correlacin ser negativo, ya que lo es el coeficiente de regresin b (b = -0'9), luego : r = 0'9383 .
sX
nos permitir calcular la desviacin tpica de X :
sY
sX
0' 9383. 1' 3565
0' 9383 = 0' 9 .
sX =
= 1' 4142 s X2 = 1' 4142 2 = 2
1' 3565
0' 9
La expresin r = b .
r = b.
sX
sY
b' =
s
s XY
1' 4142
= r . X = 0' 9383.
= 0' 9783
sY
1' 3565
s Y2
Su ecuacin es :
X' = 5'5217 - 0'9783 . Y
13
La recta de regresin de Y sobre X corta a los ejes coordenados en los puntos (0'5,0) y (0,-0'4), siendo la
proporcin de varianza no explicada por X del 25'58%.
a)
Calcule los coeficientes de correlacin y de determinacin.
b)
Siendo X = 5, qu pronstico diferencial corresponde a una puntuacin directa X = 4 ?.
a)
R2 = r2 = 0'7442
Coeficiente de correlacin :
b)
La recta de regresin es :
en puntuaciones directas :
en puntuaciones diferenciales :
14
A las puntuaciones directas 2 y 6 de la variable X le corresponden predicciones 3'2 y 7'2
respectivamente.
Si la proporcin de varianza asociada a X es del 70'42% y los valores de la variable dependiente Y son:
1 , 3 , 5 , 6 y 11
a)
obtenga las ecuaciones de las dos rectas de regresin
b)
calcule el coeficiente de correlacin
c)
un pronstico tipificado 1'1868 , a qu puntuacin directa de X corresponde ?.
a)
En la recta de regresin de Y sobre X :
Y' = a + b.X
- Para X = 2 , Y' = 3'2 :
3'2 = a + 2.b
- Para X = 6 , Y' = 7'2 :
7'2 = a + 6.b
Resolviendo el sistema obtenemos :
a = 1'2 b = 1
Y' = 1'2 + X
b)
Con los valores conocidos de Y calculamos su media, varianza y desviacin tpica :
Y=
1 + 3 + 5 + 6 + 11
= 5' 2
5
s 2Y =
12 + 3 2 + 5 2 + 6 2 + 112
5' 2 2 = 11' 36
5
Si la proporcin de varianza asociada es del 70'42%, deducimos que : r2 = 0'7042 y, siendo b = 1 > 0 , el
coeficiente de correlacin r tambin ser positivo. Es decir :
Y ' = Y = 1' 2 + X
r = b.
sX
sY
sX =
s X2 = 2' 8284 2 = 8
a bis)
Estamos en condiciones de calcular la recta de regresin de X sobre Y :
s
r . s X 0' 8392. 2' 8284
r = b'. Y
b' =
=
= 0' 7042
c)
zX =
1' 1868
X X
X4
= 1' 4142 =
=
0' 8392
sX
2' 8284
15
En un grupo de 10 sujetos se han aplicado dos pruebas (X,Y). Las puntuaciones obtenidas en X fueron
dicotomizadas por la Mediana formndose dos categoras: altos (A) y bajos (B). Los resultados son los
siguientes :
Sujeto
X
Y
1
B
5
2
A
3
3
B
3
4
A
0
5
A
1
6
B
3
7
B
2
8
A
0
9
A
1
10
B
2
Elija y calcule el ndice de correlacin adecuado para medir la relacin existente entre X e Y.
18 - Regresin y correlacin (F. lvarez)
nA nA.X nB nB.X X
0
1
2
3
4
5
XA =
2
2
0
1
0
0
0
2
0
3
0
0
0
0
2
2
0
1
0
0
4
6
0
5
15
0
1
2
3
4
5
n.X n.X2
2
2
2
3
0
1
0
2
4
9
0
5
0
2
8
27
0
25
10
20
62
5
15
20
62
= 1; XB = = 3 ; X =
= 2 ; SX =
2 2 = 1483
'
5
5
10
10
rbp =
XA X B
1 3
5 5
. p. q =
.
. = 0'674
SX
1483
'
10 10
Cierta relacin entre las variables, de signo inverso. A mayor puntuacin en la prueba Y menor nivel en X.
16
La puntuacin estimada de la variable Y para un valor 0 de la variable X es 05454, siendo la varianza de
esta variable 165. Sabiendo que el porcentaje de varianza de la variable Y no asociada a la variacin de
X es 4545% y que la varianza del error es 0318297, hallar :
a) la correlacin de Pearson entre X e Y.
b) la ecuacin de regresin para pronosticar Y a partir de X.
c) la varianza de las puntuaciones pronosticadas.
Datos
S e2
S 2y
a)
b)
a = 05454
= 1 r 2 = 0'04545 ; S e2 = 0'318297
0'318297
= 0'04545 S 2Y = 7'003 S Y = 2'646
S 2Y
S
r.S Y 0'977.2'646
r = b. X b =
=
= 0'6364
Y' = 0'5454 + 0'6364. X
SY
SX
16'5
S 2Y = S e2 + S Y2 '
c)
17
Las puntuaciones estimadas de la variable Y para los valores 3 y 5 de la variable X son 24545 y 37272
respectivamente. El coeficiente de correlacin entre X e Y es 0977, y la varianza de la variable X es 165.
Con estos datos calcular :
a) la ecuacin de la recta de regresin.
b) la varianza de las puntuaciones pronosticadas.
c) la proporcin de varianza de la variable Y no asociada a la variacin de X.
Datos :
2'4545 = a + 3. b
Y' = a + b. X
3'7272 = a + 5. b
a)
b)
r2 =
r = b.
c)
s2y '
s2y
a = 054545
r = 0'977
b = 063635
S2X = 16'5
Y = 054545 + 063635.X
SX
16'5
0'977 = 0'63635.
= 0'6364 SY = 2'656594 SY2 ' = 0'977 2 .2'656594 2 = 6'7366
SY
SY
1 - r2 = 1 - 09772 = 0045471
(45471%)
Regresin y correlacin (F. lvarez) - 19
18
Las puntuaciones directas obtenidas por 5 sujetos en la escala LKS (Escala de Lucas) y las obtenidas
por esos mismos sujetos en el factor C (Control Social) del PSI son las que figura en la tabla final.
a) Encuentre la puntuacin pronosticada en LKS de un sujeto cuya puntuacin directa en C es
15.
b) Encuentre la parte de la varianza de LKS asociada a la variacin de C.
c) Interprete el resultado obtenido al calcular el estadstico que expresa la relacin entre LKS y
C.
Sujetos
LKS
C
Y = LKS
A
49
8
B
40
16
C
43
14
D
31
20
E
37
12
X=C
X
8
16
14
20
12
70
Y
49
40
43
31
37
200
X2
64
256
196
400
144
1060
Y2
2401
1600
1849
961
1369
8180
X.Y
392
640
602
620
444
2698
70
200
1060
= 14 ; Y =
= 40 ; S 2X =
14 2 = 16 ; S X = 4
5
5
5
8180
2698
S 2Y =
40 2 = 36 ; S Y = 6 ; S XY =
14.40 = 20'4
5
5
X=
b = -204 / 16 = -1275
a = 40 - (.1275).14 = 5785
a)
Y = 5785 - 1275.X = 5785 - 1275 . 15 = 38725
b)
c) Alta relacin entre las dos pruebas (r=-085) y de signo inverso. Es decir, un sujeto con alta puntuacin en LKS
tendr baja puntuacin en C
19
La empresa de publicidad VENDEBIEN quiere saber si la aceptacin o rechazo dependen del sexo.
Para ello se encuesta a 200 personas de las cules el 50% son mujeres; 40 hombres rechazan el
producto mientras que 30 mujeres lo aceptan.
Elija y calcule el ndice de correlacin adecuado para interpretar estos datos.
Aceptan
Rechazan
H
a=60
c=40
M
b=30
d=70
60.70 30.40
ad bc
=
= 0'3015
( a + b).( c + d ).( a + c).( b + d )
90110
. .100.100
Escasa relacin entre la aceptacin y el sexo. De aceptarla, el mayor rechazo se produce en mujeres.
20
La ecuacin de la recta de regresin que permite pronosticar las calificaciones en Psicologa
Matemtica II (Y) a partir de las calificaciones en Psicologa Matemtica I (X) es la siguiente : Y = 08.X
- 025
Sabiendo que Sx
= (4/5).Sy ; Sy = 3
, X , Y.
y que
X Y = 1'74 , calcule :
a) rxy
b) la varianza de las puntuaciones pronosticadas.
c) la proporcin de varianza error cometida al pronosticar, utilizando la recta de regresin
anterior.
Datos :
4
. S ; S = 3 ; X Y = 1'74
5 Y Y
a)
b = 0'8
2'4
S
4
r = b. X = 0'8.
= 0'64
S X = .3 = 2'4
3
SY
5
a = Y b. X 0'25 = Y 0'8. X X = 7'45
'
X Y = 174
Y = 5'71
b)
r =
c)
s2y '
s2y
21
La recta de regresin de Y sobre X, que permite el pronstico en el rendimiento en un trabajo manual a
partir de las puntuaciones en un test de destreza manual, corta al eje de ordenadas en Y = 8 y al de
abscisas en X = -4, en puntuaciones directas.
a) Calcule la ecuacin de la recta de regresin anterior en puntuaciones directas.
b) Represente grficamente la recta de regresin anterior.
c) Calcule el coeficiente de correlacin entre X e Y sabiendo que la varianza de los errores es la
cuarta parte de la varianza de Y.
b)
a)
Para X = 0 , Y = 8 y, para X = -4, Y = 0
8=a
a = 8
Y' = a + b. X
Y' = 8 + 2. X
b = 2
0 = a 4. b
c)
1
S 2e = .S 2Y
4
S e2 = S 2Y . ( 1 r 2 )
1 2
.S Y 3
4
r2 = 1 2 = 1 2 =
4
SY
SY
S 2e
r = 0'866
22
Estudiando la relacin entre las variables X e Y se obtuvieron los siguientes datos :
a)
b = r.
sy
sx
= 0'7.
Sy.x
0'55
= 0'0385 ; a = 130
' 0'0385x119 = 3'2815 Y' = 3'2815 + 0'0385. X
10
c)
23
La siguiente grfica muestra las calificaciones obtenidas
por dos grupos de alumnos que han estudiado con dos
mtodos de enseanza distintos (A y B). Elija, calcule e
interprete el coeficiente de correlacin ms adecuado para
estudiar la relacin entre el mtodo de enseanza y las
calificaciones.
XA
XB
2
4
6
8
2
4
5
6
9
10
36
20
X
X2
10
56
16
36
64
16
25
36
81
100
382
XA =
20
36
56
= 5 ; XB =
= 6; X =
= 5'6 ; S X =
4
6
10
rbp =
382
5'6 2 = 2'61
10
XA X B
5 6 4 6
. p. q =
.
. = 0187
'
SX
2'61 10 10
r2 = 0035 (35%)
Existe una relacin muy baja (del 35%) entre el mtodo seguido y las calificaciones. De aceptarse la relacin
diramos que los alumnos que siguen el mtodo B obtienen mejores resultados (signo negativo de r).
24
Sabemos que las puntuaciones diferenciales pronosticadas (y) son cinco veces las puntuaciones
diferenciales de la variable X, y que la proporcin de varianza asociada entre X e Y es igual a 025.
Calcular :
a) La pendiente de la recta de regresin de Y sobre X en puntuaciones directas y diferenciales.
b) La pendiente de la recta de regresin de Y sobre X en puntuaciones tpicas.
c) La pendiente de la recta de regresin de X sobre Y en puntuaciones directas.
y = 5x
Datos :
r =
2
s2y '
s2y
= 0'25
a)
b=5
b)
r2 = 025 r = 05
c)
25
Para un grupo de 100 sujetos y en dos variables X e Y, disponemos de los siguientes datos :
xy=480 ; x2=400 ; y2=Y=900.
Sabiendo adems que X e Y son dos variables cuantitativas que mantienen una relacin lineal y que,
lgicamente,
x = y = 0
a) Cunto valdr el coeficiente de correlacin de Pearson entre X e Y ?.
b) Cunto valdr la desviacin tpica de los errores cometidos al pronosticar Y a partir de X ?.
c) Qu puntuacin directa pronosticaremos en Y a un sujeto que ha obtenido una puntuacin x=-2 ?.
Se sigue en el enunciado la notacin usual de representacin de puntuaciones directas (mayscula) y diferenciales
(minscula).
Recordemos que :
22 - Regresin y correlacin (F. lvarez)
En puntuaciones directas
S XY =
ni .(X i X )(. Yi Y )
i
S X2 =
a)
n .(X
i
X)
s xy
xy = 480 = 4'8
=
n
sx =
100
ni . X i .Yi
i
n .X
i
x2
n
2
i
En puntuaciones diferenciales
X .Y
S XY =
S X2 =
X2
400
=
=2
100
sy =
y2
n
n .x . y
i
n .x
i
2
i
900
=3
100
r = 48 / 2'3 = 08
b)
se = s y.x = s y . 1 r 2 = 3. 1 0'8 2 = 18
'
c)
sy
3
= 0'8. = 12
'
sx
2
100
26
La empresa de publicidad VENDEBIEN quiere
saber si existe relacin entre la duracin de un
anuncio en T.V. y la aceptacin o rechazo del
mismo. Los resultados de la encuesta se
incluyen en la siguiente tabla.
Elija y calcule el ndice de correlacin
adecuado para interpretar estos datos.
Duracin
5-9
10 - 14
15 - 19
20 - 24
25 - 29
n.X
n.X2
3
5
6
4
2
21
60
102
88
54
147
720
1734
1936
1458
20
325
5995
5-9
10-14
15-19
20-24
25-29
XA =
7
12
17
22
27
nA nA.X nR nR.X X
3
4
4
1
0
21
48
68
22
0
0
1
2
3
2
0
12
34
66
54
12
159
166
7
12
17
22
27
Aceptacin
3
4
4
1
0
Rechazo
0
1
2
3
2
159
166
325
5995
= 13'25 ; X R =
= 20'75 ; X =
= 16'25 ; S X =
16'252 = 5'974
12
8
20
20
X XR
13'25 20'75 12 8
rbp = A
. p. q =
= 0'615
.
.
SX
5'974
20 20
Cierta relacin entre las variables, de signo inverso. A mayor duracin mayor rechazo.
27
El gabinete de estudios sobre Malestar Social desea conocer si existe relacin entre la consumicin
de drogas y la comisin de delitos sobre la propiedad. Para ello se selecciona una muestra y se
comprueba que 50 individuos han consumido algn tipo de droga y a la vez han estado implicados en
delitos contra la propiedad. Teniendo en cuenta que un 20% de la muestra ha cometido delitos contra la
propiedad, que 250 no consumen drogas ni han estado implicados en delitos contra la propiedad y que
la muestra constaba de 500 individuos, qu conclusin obtendr el gabinete de estudios ?. (Elija,
calcule e interprete el coeficiente de correlacin adecuado).
Droga SI
a=50
c=150
Delito SI
Delito NO
Droga NO
b=50
d=250
.
ad bc
50.250 50150
= 0144
'
=
(a + b).( c + d ).( a + c).( b + d )
100.400.200.300
Escasa relacin entre consumo de drogas y comisin de delitos. De aceptarla, la mayor comisin de delitos se
produce en consumidores de drogas.
28
Un grupo de hombres y mujeres responde a una
prueba (X). Los datos obtenidos aparecen en la
siguiente tabla.
Elija razonadamente, calcule e interprete el
coeficiente de correlacin adecuado, para estudiar
la relacin entre las puntuaciones de la prueba y la
variable sexo.
2-4
5-7
8-10
11-13
XM =
Mujeres
8
6
5
1
X
11 - 13
8 - 10
5-7
2-4
X nM nM.X nH nH.X X
n.X
n.X2
3
6
9
12
7
11
11
11
21
66
99
132
63
396
891
1584
40
318
2934
1
5
6
8
3
30
54
96
6
6
5
3
18
36
45
36
20
183
20
135
3
6
9
12
Hombres
3
5
6
6
183
135
318
2934
= 9'15 ; X H =
= 6'75 ; X =
= 7'95 ; S X =
7'952 = 3186
'
40
40
20
20
rbp =
XM XH
9'15 6'75 20 20
. p. q =
.
.
= 0'377
SX
3186
'
40 40
Muy dbil relacin entre las variables, de signo directo. De aceptarse, la mayor calificacin se produce en
mujeres.
29
Elija el coeficiente de correlacin ms apropiado
entre las variables puntuaciones en un test de
inteligencia (X), y prejuicio antiprotestante (Y),
teniendo en cuenta el cuadro adjunto.
En este cuadro, fA significa frecuencia con alto
prejuicio y fB frecuencia con bajo. Calcule el
coeficiente de correlacin elegido y comente
brevemente el resultado obtenido.
0-2
3-5
6-8
9-11
XA =
9 - 11
6-8
3-5
0-2
nA nA.X nB nB.X X
n.X
n.X2
1
4
7
10
0
0
40
40
0
0
280
400
10
10
0
0
10
40
0
0
10
10
40
40
10
40
280
400
10
160
1960
4000
80
680
20
50
100
730
6130
1
4
7
10
Y
fA
40
40
0
0
fB
0
0
10
10
730
6130
680
50
= 8'5 ; X B =
= 2'5 ; X =
= 7'3 ; S X =
7'32 = 2'83
80
20
100
100
rbp =
XA X B
8'5 2'5 80 20
. p. q =
.
.
= 0'848
SX
2'83
100 100
Elevada relacin entre las variables, de signo directo. A mayor puntuacin en el test mayor prejuicio
antiprotestante.
30
Estudiando la relacin entre las variables X e Y se obtuvieron los siguientes datos :
X = 50 , Y = 6 , S x = 6 , S Y = 2 , rxy = 0'8 , n = 5
a) Qu puntuacin directa en Y pronosticaremos a un sujeto que obtuvo una puntuacin directa en X
de 52 ?.)
b) Cunto valen
S y.x
?.
sy
2
= 0'8. = 0'267 ; a = 6 0'267 x50 = 7'35
sx
6
Y' = 7'35 + 0'267. X Y' = 7'35 + 0'267 x52 = 6'534
b = r.
a)
S 2y'
S Y.X = S Y . 1 r 2 = 2. 1 0'8 2 = 12
'
b)
S Y2 ' = S Y2 S Y2 .X = 4 144
' = 2'56
31
Estudiando una muestra de 50 alumnos de BUP se observ que una proporcin de 010 estaba
compuesta por alumnos hijos nicos. De los 50 alumnos, una proporcin de 06 coman en el Colegio.
Si sabemos que una proporcin de 004, con respecto al total, son hijos nicos que no comen en el
Colegio. Existe una relacin entre ser hijo nico o no y comer o no en el Colegio ?. Halle el coeficiente
de correlacin que corresponda e interprete el resultado.
Comen SI
Comen NO
nico SI
a=3
c=2
nico NO
b=27
d=18
318
. 27.2
ad bc
=0
=
(a + b).( c + d ).(a + c).( b + d )
30.20.5.45
Las variables son independientes. No existe ningn tipo de relacin entre ser hijo nico y comer en el colegio.
32
La desviacin tpica de un determinado grupo de personas en la variable ansiedad (X) es igual a 2.
Tambin conocemos para esta variable la media de los varones (10) y la de las mujeres (5). Sabiendo
que el ndice de asociacin entre las variables ansiedad y sexo es igual a +1, y que el nmero de
varones es superior al de mujeres :
a) Qu coeficiente de correlacin habr sido utilizado ?.
b) Interprete el valor del coeficiente de correlacin.
c) Calcule la proporcin de varones que componen nuestra muestra.
a)
b)
Relacin perfecta. Los varones presentan altas puntuaciones en ansiedad y las mujeres bajas.
rbp =
c)
xv xm
10 5
2
. p. q = 1 =
. p. q p. q = = 0'4 p. q = 016
'
2
5
sx
' p p 2 = 016
' p 2 p + 016
' =0p=
p.(1 p) = 016
33
0
X 1
2
3
[0,10)
0
0
5
3
Y
[10,20)
1
5
18
2
[20,30)
0
20
6
1
[30,40]
16
3
0
0
Compare los resultados obtenidos en los apartados a), b) con los de los apartados c), d). Interprete el
significado de la razn de correlacin calculada.
Regresin y correlacin (F. lvarez) - 25
a) b)
Para cada valor de la variable X, determinamos la media de los correspondientes valores de Y. Obtendremos
tambin las varianzas de cada valor Y para calcular posteriormente la razn de correlacin (apartado e).
[0,10)
[10,20)
[20,30)
[30,40]
X=0
X=1
X=2
X=3
y
f
5
0
15
1
25
0
f.y
f.y2
35
16
15
560
= 575
225
1960
= 2185
= 17
[0,10)
[10,20)
[20,30)
[30,40]
y
f
5
0
15
5
25
20
35
3
f.y
75
500
105
= 680
f.y2
1125
12500
3675
= 17300
[0,10)
[10,20)
[20,30)
[30,40]
5
5
15
18
25
6
35
0
= 29
y
f
= 28
f.y
25
270
150
= 445
f.y2
125
4050
3750
= 7925
[0,10)
[10,20)
[20,30)
[30,40]
5
3
15
2
25
1
35
0
=6
f.y
15
30
25
= 70
75
450
625
= 1150
y
f
f.y
Y (*)
X=0
y 1 = 33'8
= 22 '1453
33'8
17
X=1
y 2 = 24 '3
= 28'0612
24'3
28
X=2
y 3 = 15'3
= 37 '8121
15'3
29
X=3
y 4 = 11'7
11'7
s 2y1
s 2y 2
s 2y 3
s 2y 4
= 55'5556
( )
Con esta distribucin procedemos a calcular la recta de regresin y el coeficiente de correlacin (omitimos la tabla de
clculos) :
n.X
n.X2
n.Y
n.Y2
n.X.Y
=
=
=
=
=
104
198
1768'9
43565'15
1778'4
Media de X = 1'3
Varianza de X = 0'785
Media de Y = 22'11
Varianza de Y = 55'657
Covarianza = -6'5146
c) d)
0
0
0
0
1
1
1
1
2
2
2
2
3
3
3
3
5
15
25
35
5
15
25
35
5
15
25
35
5
15
25
35
n.X
n.X
n.Y
n.Y
n.X.Y
0
1
0
16
0
5
20
3
5
18
6
0
3
2
1
0
0
0
0
0
0
5
20
3
10
36
12
0
9
6
3
0
0
0
0
0
0
5
20
3
20
72
24
0
27
18
9
0
0
15
0
560
0
75
500
105
25
270
150
0
15
30
25
0
0
225
0
19600
0
1125
12500
3675
125
4050
3750
0
75
450
625
0
0
0
0
0
0
75
500
105
50
540
300
0
45
90
75
0
80
104
198
1770
46200
1780
Media de X = 1'3
Varianza de X = 0'785
Media de Y = 22'125
Varianza de Y = 87'9844
Covarianza = -6'5125
e)
Razn de correlacin :
2
ni .s y
1
1 17.22'1453 + 28.28'0612 + 29.37'8121 + 6.55'5556
= 1 . 2 i = 1 .
= 0'6317
N
80
87'9844
sY
2
Conclusiones :
Comprobamos que 2 toma un valor comprendido entre 0 y 1 y verifica que 2 r2 (0'6317 0'6141).
Al ser muy prximo 2 a r2, concluimos que la relacin entre las variables X , Y es de tipo lineal.
Esta ltima conclusin habramos deducido al comprobar que las rectas de ajuste de Y sobre X y la de la
media de Y condicionada a X prcticamente coinciden :
Y' = 32'91 - 8'2962.X
Y' = 32'8998 - 8'2989.X
La sustitucin de las observaciones Yi por su promedio, ha permitido aumentar el valor del coeficiente de
correlacin :
r = -0'7836
r = -0'9856
incrementando as la proporcin de varianza explicada por el ajuste :
2
r2 = 0'9714 (97'14%)
r = 0'6141 (61'41%)
34
De un grupo de COU, integrado `por 40 alumnos, conocemos sus calificaciones finales en Matemticas
y en Filosofa. El nmero de aprobados en ambas ascendi a 15, suspendiendo 12 las dos materias,
mientras que slo aprob Matemticas el 10% de los alumnos.
a) Calcule el coeficiente de correlacin ms adecuado para medir el grado de asociacin existente
entre las variables descritas.
b) Asumiendo que las calificaciones en Matemticas y en Filosofa se distribuyen normalmente,
determine otro coeficiente que estudie el nivel de asociacin y no est basado en el concepto de
correlacin de Pearson
Se trata de analizar la relacin que puede existir entre las calificaciones en las dos materias.
a)
Siendo las dos variables dicotmicas, calculamos el coeficiente de correlacin (phi) .
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
X
Matemticas
ad bc
1 (Aprueban)
0 (Suspenden)
Y - Filosofa
1 (Aprueban)
0 (Suspenden)
a = 15
b=4
c=9
d = 12
24
16
15.12 4.9
19.21.24.16
19
21
R=
CA
5 4'8305
=
= 0'00958rt = 0'56 + R = 0'56 + 0'00958 = 0'56958
100.(B A) 100.(5'0075 4'8305)
NOTA :
Generalmente se verifica que el coeficiente de correlacin tetracrica y el coeficiente verifican la
relacin :
Regresin y correlacin (F. lvarez) - 27
rt 1'5 .
(con mayor rigor para valores del coeficiente tetracrico, menores o iguales a 0'5).
En nuestro caso : 1'5 . = 1'5 . 0'3679 = 0'55185 rt
Esto permite tener una referencia sobre el intervalo (-1 , 1), a la hora de interpretar el valor obtenido
con el coeficiente de correlacin tetracrica. Calculando el valor aproximado de , podremos medir el
grado de asociacin :
rt 0'56958
=
= 0'37972
15
'
15
'
35
Con el fin de estudiar si existe o no relacin entre las calificaciones en Matemticas y en Filosofa de
COU, seleccionamos seis alumnos. Clasificados por orden de puntuacin final en cada materia result :
Alumno
Matemticas
Filosofa
1
3
3
2
6
5
3
4
6
4
1
4
5
2
1
6
5
2
= 1
Con ello :
Y
4
1
3
6
2
5
d
-3
1
0
-2
3
1
6. d 2
N. ( N 2 1)
= 1
6 . 24
d2
9
1
0
4
9
1
24
6. ( 6 2 1)
= 0'3143
Y
4
1
3
6
2
5
(4,1) I
(4,3) I
(4,6) P
(4,2) I
(4,5) P
(1,3) P
(1,6) P
(1,2) P
(1,5) P
(3,6) P
(3,2) I
(3,5) P
(2,5) P
Np Ni
84
4
=
=
= 0'2667
n.( n 1) 6.(6 1) 15
2
2
Es decir, como ocurri con el coeficiente , existe una escasa relacin entre las calificaciones en Matemticas y
Filosofa.
36
Con el fin de estudiar si existe o no relacin entre las calificaciones en Matemticas y en Filosofa de
COU, seleccionamos 30 alumnos analizando la puntuacin final en cada materia . Teniendo en cuenta
que se nos proporcion en Filosofa solamente si el alumno aprob (A) o suspendi, establezca el
grado de relacin que existe entre las calificaciones en dichas materias.
2
3
4
5
6
8
X
Matemticas
Y
Filosofa
A
S
2
1
5
0
10
2
4
0
3
1
1
1
2
3
4
5
6
8
S=0
n.X
n.X2
Y=1
n.X1
2
5
10
4
3
1
25
1
0
2
0
1
1
5
3
5
12
4
4
2
N=30
6
15
48
20
24
16
129
12
45
192
100
144
128
621
4
15
40
20
18
8
105
Y=0
n.X0
2
0
8
0
6
8
24
5
24
25
q=
= 0167
'
= 4'8
p=
= 0'833
30
5
30
621
4'32 = 2'21 s X = 2'21 = 1487
'
s2X =
30
105
= 4'2
25
129
X=
= 4'3
30
X0 =
X1 =
Con esto :
A=1
rbp =
X1 X 0
4'2 4'8
. p. q =
. 0'833.0167
'
'
= 01505
1487
'
sX
p. q
(Tabla XXIII), que resulta ser igual a 0'55609 .
f ( z)
X1 X 0 p. q 4'2 4'8
rb =
=
.
.0'55609 = 0'2244
1487
'
sX
f ( z)
Aunque no coincide su valor con el coeficiente de correlacin biserial puntual, tambin podemos concluir que
apenas existe relacin entre ambas variables.
37
Hemos encontrado, utilizando el criterio de mnimos cuadrados, que las rectas de regresin de Y sobre
X en puntuaciones directas y tpicas son, respectivamente :
Y' = 1'2 . X + 4
zy' = 0'8 . zx
r = b.
SX
SY
r=
a)
S XY
S X . SY
S XY = r. S X . SY = 0'8.2.3 = 4'8
b=
Luego :
S XY
= 1'2
S2X
a = Y b. X = 10 12
' . 10 = 2 Y' = 2 + 12
' .X
c)
Si a los valores de Y les sumamos 3, la nueva media se incrementa en 3, pero las medidas de
dispersin se mantienen inalterables.
Si los valores de X los multiplicamos por 2, la nueva media se multiplica por 2, y las medidas de
dispersin tambin (la varianza por el cuadrado).
Resulta as :
X = 5 . 2 = 10 , Y = 10 + 3 = 13 , S X = 2 . 2 = 4 , SY = 3, S XY = 4' 8. 2 = 9'6
Luego :
b=
S XY
S2X
2. S XY 2
= . b = 0'6
2 2 . S2X 4
38
Se desea estudiar si existe relacin entre `padecer diabetes y ceguera en la tercera edad. Para ello se
analiza una muestra de 1000 personas del INSERSO encontrndose que de todas ellas un 50%
presentan simultneamente diabetes y ceguera, el 40% no presentan ninguna de ambas deficiencias y
el resto presentan en la misma medida slo una u otra deficiencia. Con estos datos elija, calcule e
interprete el coeficiente de correlacin adecuado a dicho estudio.
Se trata de analizar la relacin que puede existir entre las dos enfermedades.
Siendo las dos variables dicotmicas, calculamos el coeficiente de correlacin (phi) .
Padecen ambas
50% de 1000
500
No padecen ninguna 40% de 1000
400
Padecen slo diabetes La mitad de los 100 restantes
50
Padecen slo ceguera La mitad de los 100 restantes
50
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
X
Diabetes
1 (Padece)
0 (No padece)
ad bc
( a + b) .( c + d).( a + c) .( b + d)
Y - Ceguera
1 (Padece)
0 (No padece)
a = 500
b = 50
c = 50
d = 400
550
450
500.400 50.50
= 0'798
550.450.550.450
550
450
EJERCICIOS PROPUESTOS
1
X
4
4
5
6
6
6
0
1
2
2
3
4
3
5
6
2
8
1
0
1
2
2
3
0
0
2
Y
4
1
6
2
6
0
4
4
8
0
0
5
3
De los 10 pares de valores que se representan en el
diagrama de dispersin de la izquierda,
a) Calcular la recta de regresin de Y sobre X.
b) Calcular e interpretar el coeficiente de correlacin
lineal
c) Determinar la proporcin de varianza asociada a X.
d) Calcular la media y varianza de las predicciones Y'.
.
4
Y
3
4
5
0
0
3
5
1
1
7
2
5
15
1
3
12
2
0
5
Edad
Hermanos
[10,15)
[10,15)
[10,15)
[15,20)
[15,20)
[20,25]
[20,25]
0
1
2
1
2
1
2
3
5
9
5
10
3
5
6
Las siguientes distribuciones bivariantes pretenden estudiar el grado de relacin existente entre las variables :
a) Puntuacin en un test de agresividad y sexo.
b) Clasificacin (de mayor a menor) segn la nota media obtenida en las asignaturas del curso y en una
prueba tendente a determinar su coeficiente intelectual.
c) Ser bebedor y ser fumador.
Determine y calcule en cada caso el ndice adecuado que permite medir el grado de relacin entre las variables
descritas.
(I)
Puntos
test
[ 0,10)
[10,20)
[20,30)
[30,40)
[40,50)
[50,60)
Sexo
Hombre
Mujer
0
2
5
3
11
9
20
22
14
9
6
6
(II)
Alumno
Nota media
C.I.
1
2
3
2
4
4
3
5
6
4
1
1
S
No
Fuman
S
No
4
31
41
14
(III)
Beben
5
6
5
6
3
2
7
La proporcin de varianza residual, en un ajuste de Y sobre X, es del 22'12%.
a)
Determine dicha recta de ajuste sabiendo que a una puntuacin directa X=2 corresponde una
prediccin 2'1 y que dicha recta corta al eje de ordenadas en el punto (0,0'3).
b)
Calcule el coeficiente de correlacin.
c)
Qu pronstico diferencial corresponde a una puntuacin directa X=5, si X = 0 ?.
8
En el estudio de la relacin lineal existente entre dos variables X e Y se observ que eran independientes.
Sabiendo que sus respectivas medias son iguales a 2 y 1, y que tienen por varianzas 0'1538 y 0'6154,
a)
calcule las ecuaciones de las dos rectas de regresin
b)
determine el error tpico de la prediccin.
9
De los clculos realizados para estudiar la relacin existente entre las variables X e Y, se conoce que :
- la recta de ajuste de Y sobre X pasa por el punto (2,2)
- las media de X es igual a 1 y la de Y vale 4
- la varianza de la variable dependiente es igual a 2'2857, y la de las predicciones es 1'9047.
A la vista de estos datos, calcule :
a)
Ecuaciones de las dos rectas de regresin en puntuaciones directas, diferenciales y tpicas.
b)
Proporcin de varianza no asociada a X.
10
Determinar las ecuaciones en puntuaciones diferenciales de las rectas de regresin correspondientes a la
distribucin bivariante (X,Y), sabiendo que las varianzas de ambas variables son 4 y 9 respectivamente y que
existe una relacin lineal perfecta y directa entre ellas.
11
En el estudio de la relacin lineal existente entre dos variables X e Y, sabemos que a las puntuaciones directas
0 y 2 de X le corresponden unos pronsticos respectivos 33243 y 77567. Sabiendo que la proporcin de
varianza asociada al ajuste es del 9465% y que la variable dependiente tiene por media 82 y varianza 1536,
calcular :
a) Ecuacin de la recta de ajuste.
b) Coeficiente de correlacin.
c) Media y varianza de la variable X.
d) Varianza residual y de las predicciones.
12
Analizamos las edades de 8 personas que acuden a un examen para la obtencin del carnet de conducir.
Sabiendo que aprueban 5 con edades : 28, 24, 32, 45 y 30 y que los que suspenden tienen 23, 21 y 27 aos,
determine el coeficiente ms adecuado para medir el grado de relacin de la edad con la superacin o no del
examen.
13
Para los siguientes pares de valores de las variables X e Y :
(12 , 4) , (10 , 7) , (12 , 5) , ( 11 , 65) , (14 , 2) , (11, 85) , (12, 3) , (14 , 15) , (10, 9) , ( 11, 7)
calcular la proporcin de varianza que explica el ajuste de Y sobre X.
14
X
Y
f
0
-6
3
1
-2
6
1
-1
11
1
1
16
2
3
3
3
8
1
3
9
4
5
12
2
15
En un grupo de 10 alumnos se han obtenido las calificaciones en Anatoma, separando el ejercicio terico del
prctico. El profesor encargado orden tales calificaciones de mayor a menor puntuacin, encontrando los
resultados siguientes :
Alumno
Clasificacin teora
Clasificacin prctica
1
6
6
2
2
10
3
7
4
4
10
3
5
4
9
6
1
7
7
8
2
8
5
5
9
9
1
10
3
8
Elija y calcule el ndice de correlacin adecuado para medir si existe relacin o no entre las calificaciones en las
dos partes del examen.
16
Para los valores 0 y 2 de la variable X se obtuvieron unos pronsticos de la variable dependiente iguales a
68617 y 140531 respectivamente.
Sabiendo que la proporcin de varianza de la variable Y no asociada a la variacin de X es del 1732%, y la
varianza de la variable independiente es 29375, calcular :
a) la ecuacin de la recta de regresin de Y sobre X.
b) la varianza de las puntuaciones pronosticadas y la varianza residual.
c) el coeficiente de correlacin entre X e Y
17
Y
0
1
2
1
6
0
2
2
8
7
0
3
3
10
5
4
0
1
8
5
1
0
6
e) razn de correlacin.
f) Compare los resultados obtenidos en los apartados a), b) con los de los apartados c), d). Interprete el
significado de la razn de correlacin calculada.
18
Determine y calcule en cada uno de los siguioentes supuestos, el ndice adecuado (no basado en el concepto
de correlacin de Pearson) que permita medir el grado de asociacin entre las variables X e Y.
(I)
Y
X
-2
-1
0
1
2
0
6
4
2
0
1
1
1
4
6
5
8
(II) (ordinales)
X
Y
A
C
B
F
C
D
D
E
1
0
1
2
50
(III)
E
A
F
B
Y
X
0
40
8
X = 5'12
a) b = 1'133
b) r = 0'909
c) 1 - r2 = 0'1737
s 2Y = 1'1584
Y = 1'96
s XY = 0'8448
y' = 1'133 . x
zy' = 0'909 . zx
La proporcin de varianza no explicada por X supone el 17'37% de la de Y.
2
s 2X = 0'5216
X = 1'28
a) a = 2'6871
b) R2 = r2 = 0'5711
c) s 2 = 1'5097
Y.X
s 2Y = 3'52
Y = 5'2
s XY = 1'024
3
s 2X = 8'25
X = 5'5
a) a = 1'9333
b) r = 0'8188
c) R2 = r2 = 0'6704
d)
Y ' = Y = 405
s 2Y = 1'8225
Y = 4'05
s XY = 3'175
s 2Y' = 1'2218
4
s 2X = 0'5714
X =4
a) n = 12
b) b = -0'9167
c) 1 - r2 = 0'4813
y' = -0'9167 . x
X = 16'375
s 2X = 14'3594
Y = 1'6508
s 2Y = 0'9257
s XY = -0'5238
Y = 1'525
s 2Y = 0'3994
s XY = 0'4656
5
a = 0'994
b = 0'0324
a' = 14'597
b' = 1'1659
r = 0'1944
y' = 0'0324 . x
zy' = 0'1944 . zx
a) Y' = 0'994 + 0'0324 . X
X' = 14'597 + 1'1659 . Y
x' = 1'1659 .y
zx' = 0'1944 . zy
Las variables no estn relacionadas linealmente (son independientes)
b) r = 0'1944
6
(I)
rbp = 0'0389
(II)
= 0'8857
(III)
Coeficiente
= - 0'6154
7
a)
Y = 0'3 + 0'9 . X
a)
Y' = 1
b)
r = 0'8825
b)
sY.X = sY = 0'7845
c)
y' = 4'5
8
X' = 2
9
a) Y' = 6 - 2 . X
X' = 2'6667 - 0'4167 . Y
b) 1 - r2 = 0'1667
10
y' = 1'5 . x
x' = 0'6667 . y
y' = -2 . x
x' = -0'4167 .y
zy' = -0'9129 . zx
zx' = -0'9129 . zy
11
a)
b)
c)
d)
Y = 33243 + 22162.X
09729
22, 296
08216, 145384
12
rbp = 056
13
08331
(o bien el 8331%)
14
19543 ; 155069
15
= -08667
16
a)
b)
c)
Y = 68617 + 35957 . X
3998 y 796
09093
a)
b)
c)
d)
e)
YM = 1'9317 + 0'9049 . X
rM = 0'9924
Y = 1'9268 + 0'8862 . X
r = 0'6067
2 = 03749 (prximo a r2 = 0'3681)
17
18
(I)
Coeficiente biserial
rb = - 0'7250
(II)
Coeficiente de Kendall
= - 0'3333
(III)
Coeficiente tetracrico
rt = - 0'7744
min(p,q)
0'00
0'01
0'02
0'03
0'04
0'05
0'06
0'07
0'08
0'09
0'10
0'11
0'12
0'13
0'14
0'15
0'16
0'17
0'18
0'19
0'20
0'21
0'22
0'23
0'24
0'25
0'26
0'27
0'28
0'29
0'30
0'31
0'32
0'33
0'34
0'35
0'36
0'37
0'38
0'39
0'40
0'41
0'42
0'43
0'44
0'45
0'46
0'47
0'48
0'49
0'50
0'000
0'37186
0'40502
0'42781
0'44569
0'46061
0'47349
0'48487
0'49508
0'50435
0'51284
0'52066
0'52791
0'53465
0'54096
0'54686
0'55240
0'55762
0'56253
0'56716
0'57154
0'57568
0'57958
0'58328
0'58677
0'59007
0'59319
0'59614
0'59892
0'60154
0'60401
0'60633
0'60851
0'61055
0'61245
0'61422
0'61586
0'61738
0'61878
0'62006
0'62122
0'62226
0'62319
0'62401
0'62471
0'62531
0'62579
0'62617
0'62644
0'62660
0'62666
p.q
f ( z)
0'001
0'002
0'003
0'004
0'005
0'006
0'007
0'008
0'009
0'29788
0'37603
0'40762
0'42977
0'44729
0'46198
0'47469
0'48594
0'49605
0'50523
0'51365
0'52141
0'52860
0'53530
0'54156
0'54743
0'55294
0'55812
0'56301
0'56761
0'57196
0'57608
0'57996
0'58364
0'58711
0'59039
0'59350
0'59643
0'59919
0'60180
0'60425
0'60656
0'60872
0'61074
0'61263
0'61439
0'61602
0'61753
0'61891
0'62018
0'62133
0'62236
0'62328
0'62408
0'62478
0'62536
0'62584
0'62620
0'62646
0'62661
0'31576
0'37994
0'41014
0'43169
0'44887
0'46333
0'47587
0'48700
0'49701
0'50611
0'51445
0'52215
0'52929
0'53595
0'54217
0'54800
0'55347
0'55862
0'56348
0'56806
0'57239
0'57647
0'58034
0'58399
0'58745
0'59071
0'59380
0'59671
0'59946
0'60205
0'60449
0'60678
0'60893
0'61094
0'61281
0'61456
0'61618
0'61767
0'61904
0'62030
0'62143
0'62245
0'62336
0'62416
0'62484
0'62541
0'62588
0'62623
0'62648
0'62662
0'32772
0'38363
0'41257
0'43357
0'45042
0'46466
0'47704
0'48804
0'49795
0'50697
0'51525
0'52289
0'52998
0'53659
0'54277
0'54856
0'55400
0'55912
0'56395
0'56850
0'57281
0'57687
0'58071
0'58435
0'58778
0'59103
0'59410
0'59699
0'59973
0'60230
0'60472
0'60700
0'60913
0'61113
0'61299
0'61473
0'61633
0'61781
0'61917
0'62042
0'62154
0'62255
0'62345
0'62423
0'62490
0'62547
0'62592
0'62626
0'62650
0'62663
0'33699
0'38712
0'41493
0'43540
0'45195
0'46597
0'47820
0'48908
0'49889
0'50783
0'51604
0'52362
0'53066
0'53723
0'54336
0'54912
0'55453
0'55962
0'56442
0'56895
0'57322
0'57726
0'58109
0'58470
0'58811
0'59134
0'59439
0'59727
0'59999
0'60255
0'60496
0'60722
0'60934
0'61132
0'61317
0'61489
0'61649
0'61796
0'61930
0'62053
0'62165
0'62264
0'62353
0'62430
0'62496
0'62552
0'62596
0'62629
0'62652
0'62664
0'34469
0'39044
0'41722
0'43720
0'45345
0'46726
0'47934
0'49011
0'49982
0'50868
0'51682
0'52435
0'53134
0'53786
0'54396
0'54967
0'55505
0'56011
0'56488
0'56938
0'57364
0'57766
0'58146
0'58505
0'58845
0'59166
0'59469
0'59755
0'60025
0'60280
0'60519
0'60744
0'60954
0'61151
0'61335
0'61506
0'61664
0'61810
0'61943
0'62065
0'62175
0'62274
0'62361
0'62437
0'62502
0'62556
0'62600
0'62632
0'62654
0'62664
0'35133
0'39360
0'41945
0'43897
0'45492
0'46854
0'48047
0'49112
0'50074
0'50953
0'51760
0'52507
0'53201
0'53849
0'54454
0'55023
0'55557
0'56060
0'56534
0'56982
0'57405
0'57805
0'58182
0'58540
0'58878
0'59197
0'59498
0'59783
0'60051
0'60304
0'60542
0'60765
0'60975
0'61170
0'61353
0'61522
0'61679
0'61824
0'61956
0'62077
0'62186
0'62283
0'62369
0'62444
0'62508
0'62561
0'62603
0'62635
0'62655
0'62665
0'35722
0'39663
0'42162
0'44069
0'45638
0'46980
0'48159
0'49213
0'50166
0'51036
0'51838
0'52579
0'53268
0'53911
0'54513
0'55078
0'55609
0'56109
0'56580
0'57025
0'57446
0'57843
0'58219
0'58574
0'58910
0'59228
0'59528
0'59811
0'60077
0'60329
0'60565
0'60787
0'60995
0'61189
0'61370
0'61538
0'61694
0'61837
0'61969
0'62088
0'62196
0'62292
0'62377
0'62451
0'62514
0'62566
0'62607
0'62637
0'62657
0'62665
0'36253
0'39954
0'42373
0'44239
0'45781
0'47105
0'48270
0'49312
0'50256
0'51120
0'51914
0'52650
0'53334
0'53973
0'54571
0'55132
0'55660
0'56157
0'56626
0'57069
0'57487
0'57882
0'58256
0'58609
0'58943
0'59258
0'59557
0'59838
0'60103
0'60353
0'60588
0'60808
0'61015
0'61208
0'61388
0'61554
0'61709
0'61851
0'61981
0'62099
0'62206
0'62301
0'62385
0'62458
0'62520
0'62571
0'62611
0'62640
0'62658
0'62665
0'36738
0'40233
0'42579
0'44406
0'45922
0'47228
0'48379
0'49411
0'50346
0'51202
0'51990
0'52721
0'53400
0'54034
0'54629
0'55186
0'55711
0'56205
0'56671
0'57111
0'57527
0'57920
0'58292
0'58643
0'58975
0'59289
0'59585
0'59865
0'60129
0'60377
0'60611
0'60830
0'61035
0'61226
0'61405
0'61570
0'61724
0'61865
0'61993
0'62111
0'62216
0'62310
0'62393
0'62465
0'62525
0'62575
0'62614
0'62642
0'62659
0'62666