Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tema2-Regresion y Correlacion PDF
Tema2-Regresion y Correlacion PDF
DISTRIBUCIONES BIVARIANTES
El estudio de la relación existente entre dos variables X e Y conduce a la consideración simultánea de ambas variables
estadísticas. Tal distribución de las dos variables se denomina bivariante.
La presentación de los datos experimentalmente observados puede hacerse :
a) Mediante los pares (Xi , Yi) : (X1 , Y1) , (X2 , Y2) , (X3 , Y3) , ...
b) Tabla simple de frecuencias : c) Tabla de frecuencias de doble entrada :
X Y n Y
X1 Y1 n1 Y1 Y2 .... Ym
X2 Y2 n2 X1 n11 n12 .... n1m
.... .... .... X X2 n21 n22 .... n2m
Xn Yn nn .... .... .... .... ....
Xn nn1 nn2 .... nnm
Distribuciones marginales :
Son las obtenidas de la distribución bivariante, al considerar de forma independiente cada una de las dos
variables.
De ellas obtendremos los parámetros de centralización y dispersión característicos : media y desviación típica.
X , s 2X , sX , Y , s 2Y , sY
Covarianza :
Este índice de variación conjunta de X e Y se define como :
∑ n .(X
i i − X )(
. Yi − Y ) ∑ n . X .Y
i i i
s XY = i
= i
− X .Y para tablas simples de frecuencias
N N
∑∑ nij .(X i − X ).(Y j − Y ) ∑∑ n .X .Y ij i j
s XY = = − X .Y
i j i j
para tablas de frecuencias de doble
N N
entrada.
Si sXY = 0 expresará que las variables X e Y son independientes.
RECTAS DE REGRESIÓN
Representando los pares de observaciones (X,Y) como
puntos en un plano cartesiano, obtenemos el denominado
diagrama de dispersión o nube de puntos.
Según se consideren estas separaciones en vertical (lo representado en la figura) o en horizontal, se obtienen,
respectivamente, las rectas de regresión de Y sobre X y de X sobre Y.
6.∑ d 2
ρ = 1−
(
N. N 2 − 1 ) Siendo d las diferencias entre los valores de X e Y.
rt 2 r3 r4 a. d − b. c
rt + z. z'. + ( z 2 − 1) . ( z' 2 −1) . t + ( z 3 − 3z) . ( z' 3 −3z') . t + ... = 2
2! 3! 4! n . f ( z). f ( z' )
Como es lógico, la mayor exactitud en el cálculo rt , se obtiene al considerar un mayor número de sumandos
del desarrollo en serie anterior. Esta dificultad aconseja seguir el método abreviado descrito anteriormente.
En la ecuación que permite calcular rt :
• z valor de la curva normal tipificada N(0,1), que deja a su derecha un área m, igual a la menor de las
cantidades (a+c)/n o (b+d)/n.
• z' valor de la curva normal tipificada N(0,1), que deja a su derecha un área m, igual a la menor de las
cantidades (a+b)/n o (c+d)/n.
• f(z) y f(z') ordenadas de la curva normal, correspondientes a los valores z y z' anteriores. Tabuladas
para cada m.
X − X0 p. q Siendo :
rb = 1 . X1 la media de los valores de X que se corresponden con un 1 en Y.
sX f ( z)
X0 la media de los valores de X que se corresponden con un 0 en Y.
sX la desviación típica de X (considerados sus valores globalmente).
La ordenada f(z) :
p la proporción de unos en Y.
q=1-p la proporción de ceros en Y.
z el valor normal tipificado (N(0,1)) que deja a su derecha (o a su izquierda) el
área p.
f(z) la ordenada correspondiente a z en la curva normal.
NOTA :
Los cálculos de z y f(z) no es preciso realizarlos ya que, para cada
valor de la probabilidad p (o q indistintamente), se encuentran
tabulados los valores de p.q/f(z).
Np − Ni Siendo :
τ= • n el número de pares de valores (X , Y)
n.( n − 1) • Np el número total de "permanencias"
2 • Ni el número total de "inversiones"
∑ (Y − Y ) = ∑ (Y − Y ') + ∑ (Y '−Y )
2 2 2
En términos de varianzas :
∑ (Y − Y ) ∑ (Y − Y ') ∑ (Y '−Y )
2 2 2
= +
Varianza total Varianza no explicada por X Varianza explicada por X
(varianza de los errores o residual)
Dividiendo los sumandos anteriores por la varianza de Y obtendremos la proporción de varianza de Y no explicada y
explicada por la variable X. La manipulación de esta operación conduce a las expresiones y definiciones siguientes :
=1= = + r2
∑ (Y − Y ) ∑ (Y − Y ) ∑ (Y − Y ) ∑ (Y − Y )
2 2 2 2
∑ (Y '−Y )
2
∑ (Y − Y ') ∑ (Y − Y ) . ∑ (Y − Y ')
2 2 2
s =s
2 2
= = (
= sY2 . 1 − r 2 )
∑ (Y − Y )
Varianza de los errores o residual = e Y .X 2
N N
La raíz cuadrada de la varianza residual se denomina error típico de la predicción : s Y . X = s Y . 1 − r 2
x=
∑ n.x s 2
=
∑ n.x 2
−x 2
y=
∑ n. y s 2
=
∑ n. y 2
− y2 s xy =
∑ n.x. y − x. y
x y
N N N N N
(a = 0 ; b = r)
sxy
r= d y ' = b. d x z y ' = r. z x
sx . sy
Relación fundamental :
Varianza de y = s2y = se2 + s2y '
= Varianza residual (de errores) + Varianza de las
predicciones.
Varianza de las predicciones :
s2y' =
∑ ( y '− y ) 2
N
Proporción de varianza explicada o asociada a la s2y '
regresión, = r2
o proporción de varianza de las predicciones, s2y
o coeficiente de determinación :
6 - Regresión y correlación (F. Álvarez)
Varianza de los errores (o residual) :
se2 = s2y.x =
∑ ( y − y') 2 2
= s .( 1 − r 2 )
y
N
Error típico de la predicción (raíz de la varianza de los s y.x = s y . 1 − r 2
errores):
Proporción de varianza no explicada o no asociada a la se2
regresión, = 1− r2
o proporción de varianza de los errores :
s2y
Tabla de cálculos :
X Y n n.X n.Y n.X2 n.Y2 n.X.Y
3 4 3 9 12 27 48 36
3 5 5 15 25 45 125 75
5 5 12 60 60 300 300 300
6 6 4 24 24 144 144 144
6 7 5 30 35 180 245 210
6 8 3 18 24 108 192 144
7 7 6 42 42 294 294 294
8 8 2 16 16 128 128 128
40 214 238 1226 1476 1331
1476
Calculada la varianza de Y : sY2 = i
−Y 2 = − 5'95 2 = 1'4975
N 40
s Y . X = s Y . 1 − r = 1' 4975 . 1 − 0' 8279 2 = 0' 6864
2
2
De la distribución bivariante siguiente :
Y
0 1 2
X 2 0 1 5
4 0 9 0
6 8 0 0
a) Obtenga la recta de regresión de Y sobre X.
b) Obtenga la recta de regresión de X sobre Y.
c) Calcule e interprete el coeficiente de correlación lineal.
d) Calcule su varianza residual.
e) Calcule e interprete el coeficiente de determinación.
Como puede observarse, sólo realizamos los productos correspondientes a frecuencias y valores de variables no nulos.
∑
X . Y = 1.2.1 + 5.2.2 + 9.4.1 = 58
Utilicemos las medias y varianzas de X e Y, así como la covarianza, en los cálculos solicitados.
96 20 456 30
X= = 4' 1739 Y= = 0' 8696 s 2X = − 4' 1739 2 = 2' 4045 s Y2 = − 0' 8696 2 = 0' 5482
23 23 23 23
∑∑ n . X .Y ij i j
∑ X .Y − X .Y = 58 − 4'1739.0'8696 = −1'1078
s XY = − X .Y =
i j
Covarianza =
N N 23
3
De la siguiente distribución bivariante :
Y
[0,1) [1,2) [2,3]
X 2 1 2 1
3 3 6 3
4 1 2 1
a) Calcule e interprete el valor de la covarianza.
b) Obtenga la recta de regresión de Y sobre X.
c) Obtenga la recta de regresión de X sobre Y.
d) Calcule el coeficiente de correlación lineal y el de determinación.
e) De la varianza total de Y , determine la proporción atribuible a la variable X.
∑ X .Y = ∑∑ n .X .Y
i j
ij i j = 1.2.0'5 + 2.2.1'5 + 1.2.2'5 + 3.3.0'5 + 6.3.1'5 + 3.3.2'5 + 1.4.0'5 + 2.4.1'5 + 1.4.2'5 = 90
a) Covarianza :
60 30
X= =3 Y= = 1' 5
20 20
∑∑ n . X .Y
ij i j
∑ X .Y − X .Y = 90 − 3.1'5 = 4'5 − 4'5 = 0
s XY = − X .Y =
i j
Covarianza =
N N 20
Interpretación :
Las variables son independientes.
Siendo nula la covarianza, también los serán los coeficientes de regresión, el coeficiente de correlación
y el de determinación, dado que en sus cálculos interviene la covarianza en el numerador.
Al ser nulos los coeficientes de regresión, a coincidirá con la media de Y y a' con la de X.
4
Se desea estudiar la relación entre las calificaciones obtenidas en un test (puntuado de 0 a 5) y el sexo
del alumno que lo realiza. Los resultados observados fueron :
Test Sexo Nº de alumnos
1 Varón 3
1 Hembra 1
2 Varón 2
2 Hembra 4
3 Varón 3
4 Hembra 5
4 Varón 1
5 Hembra 1
5 Varón 2
a) Mida el grado de asociación existente entre las dos variables mediante el coeficiente más
adecuado.
b) Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el
apartado anterior.
30 34 11 11
X1 = = 2' 7273 X0 = = 3' 0909 p= = 0' 5 q= = 0' 5 = 1 − p
11 11 22 22
64 226
X= = 2' 9091 s 2X = − 2' 90912 = 1' 8099 ⇒ s X = 1' 8099 = 1' 3453
22 22
X − X0 2' 7273 − 3' 0909
Con esto : rbp = 1 . p. q = . 0' 5 . 0' 5 = − 0' 1351
sX 1' 3453
5
La siguiente tabla nos muestra la distribución por sexo de un grupo de 167 personas, indicando si
fuman o no.
Fuma No fuma
Hombre 85 12
Mujer 10 60
a) Calcule el coeficiente de más adecuado para medir el grado de asociación existente entre el sexo y
el ser o no fumador.
b) Calcule el coeficiente de correlación de Pearson y compare su valor con el calculado en el apartado
anterior.
a) Las dos variables son dicotómicas. El coeficiente específico para esta situación es el coeficiente de
correlación ϕ (phi) . Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y
1 (Fuma) 0 (No fuma)
X 1 (Hombre) a = 85 b = 12 97
0 (Mujer) c = 10 d = 60 70
95 72
ad − bc 85.60 − 12.10
ϕ= = = 0'7307
(a + b )(. c + d )(. a + c )(. b + d ) 97.70.95.72
b) Coeficiente de correlación de Pearson :
X Y n n.X n.Y n.X2 n.Y2 n.X.Y
1 1 85 85 85 85 85 85
1 0 12 12 0 12 0 0
0 1 10 0 10 0 10 0
0 0 60 0 0 0 0 0
167 97 95 97 95 85
97 97
X= = 0' 5808 s 2X = − 0' 5808 2 = 0' 2435 ⇒ s X = 0' 2435 = 0' 4934
167 167
95 95
Y= = 0' 5689 s 2Y = − 0' 5689 2 = 0' 2453 ⇒ s Y = 0' 2453 = 0' 4952
167 167
85 0' 1786
s XY = − 0' 5808 . 0' 5689 = 0' 1786 ⇒ r= = 0' 7307
167 0' 4934 . 0' 4952
Coincidente con el calculado en el apartado anterior, como era de esperar.
Nos encontramos ante dos reordenaciones distintas de los 12 individuos. Calcularemos pues el coeficiente de
correlación por el método de los rangos de Spearman.
a) Coeficiente de correlación ρ :
6.∑ d 2 6.552
ρ = 1− = 1− = −0'9301
(
N. N − 1
2
)
12. 12 2 − 1 ( ) (Ver tabla siguiente)
A continuación se ofrecen las tablas auxiliares de cálculos de ρ y r , calculados para comprobar que coinciden.
Para el cálculo de ρ Para el cálculo de r
X Y d d2 X Y X2 Y2 X.Y
1 11 -10 100 1 11 1 121 11
2 9 -7 49 2 9 4 81 18
3 10 -7 49 3 10 9 100 30
4 12 -8 64 4 12 16 144 48
5 7 -2 4 5 7 25 49 35
6 8 -2 4 6 8 36 64 48
7 6 1 1 7 6 49 36 42
8 4 4 16 8 4 64 16 32
9 5 4 16 9 5 81 25 45
10 2 8 64 10 2 100 4 20
11 3 8 64 11 3 121 9 33
12 1 11 121 12 1 144 1 12
78 78 0 552 78 78 650 650 374
7
De los archivos de la Dirección provincial de Tráfico se han seleccionado los expedientes de 64
conductores, realizando el siguiente recuento en función del sexo (M = mujer ; H = hombre) y el número
de multas impuestas durante el último año.
Sexo
M H
Nº de multas 1 9 0
en el último año 2 7 0
3 6 2
4 1 9
5 1 11
6 0 18
¿ Qué conclusión puede deducirse acerca de la relación existente entre sexo y número de denuncias ?.
Utilice para ello el índice de asociación más apropiado.
50 205 24 40
X1 = = 2' 0833 X0 = = 5' 125 p= = 0' 375 q = = 0' 625 = 1 − p
24 40 64 64
255 1217
X= = 3' 9844 s 2X = − 3' 9844 2 = 3' 1404 ⇒ s X = 3' 1404 = 1' 7721
64 64
X − X0 2' 0833 − 5' 125
Con esto : rbp = 1 . p. q = . 0' 375 . 0' 625 = − 0' 831
sX 1' 7721
Es decir existe una fuerte relación, de sentido inverso, entre ambas variables. Algo que podía advertirse al
analizar el recuento de las observaciones.
8
Para analizar si existe o no relación entre las calificaciones en materias científicas y las del área
literaria, seleccionamos ocho alumnos a los que sometemos a dos pruebas (una de cada área).
Clasificados por orden de puntuación resultó :
Alumno 1 2 3 4 5 6 7 8
P. Científica 3º 6º 7º 1º 2º 8º 5º 4º
P. Literaria 3º 5º 7º 4º 1º 8º 2º 6º
Utilizando el índice adecuado establezca el grado de relación que existe entre las calificaciones de
dichas áreas de conocimiento.
Calcularemos el coeficiente de correlación ρ (rangos de Spearman) al presentarse dos variables ordinales (dos
reordenaciones de los 8 alumnos).
Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en la prueba científica y en la
literaria . Ordenadas las primeras, calculemos sus diferencias :
X Y d d2
1 4 -3 9
2 1 1 1
3 3 0 0
4 6 -2 4
5 2 3 9
6 5 1 1
7 7 0 0
8 8 0 0
24
6.∑ d 2 6.24
ρ = 1− = 1− = 0'7143
Con ello :
(
N. N −12
) ( )
8. 8 2 − 1
Es decir, existe una alta relación entre las calificaciones. Generalmente un alumno con altas calificaciones en el
área científica tendrá altas calificaciones en el área de conocimientos literarios.
Se trata de analizar la relación que puede existir entre la especialidad (Ciencias o Letras) y el ser repetidor o no serlo.
Siendo las dos variables dicotómicas, calculamos el coeficiente de correlación ϕ (phi) .
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y
1 (Repite) 0 (No repite)
X 1 (Ciencias) a = 16 b=1 17
0 (Letras) c=2 d = 12 14
18 13
ad − bc 16.12 − 1.2
ϕ= = = 0'8051⇒ alta relación entre las variables.
(a + b )(. c + d )(. a + c )(. b + d ) 17.14.18.13
10
Se somete a 10 alumnos a dos test diferentes encaminados a medir su percepción visual. Los
resultados fueron los siguientes :
Test A 3 4 5 5 6 7 8 9 10 12
Test B 4 5 5 6 7 8 8 10 11 14
a) Obtenga las ecuaciones de las rectas de regresión del test A sobre el B, en puntuaciones directas,
diferenciales y típicas.
b) Determine la proporción de varianza residual que se presenta en dicho ajuste.
Denominando Y a las puntuaciones en el test A (variable dependiente en el ajuste) y X a las correspondientes al text B,
procedemos a realizar los cálculos necesarios :
X Y X2 Y2 X.Y
3 4 9 16 12
4 5 16 25 20
5 5 25 25 25
5 6 25 36 30
6 7 36 49 42
7 8 49 64 56
8 8 64 64 64
9 10 81 100 90
10 11 100 121 110
12 14 144 196 168
69 78 549 696 617
N .∑ X .Y − (∑ X )(
. ∑ Y ) 10.617 − 69.78
b= = = 1'0809
N .∑ X 2 − (∑ X ) 10.549 − 69 2
2
a = Y − b. X =
∑ Y − b . ∑ X = 78 − 1' 0809 . 69 = 0' 3416
N N 10 10
N .∑ X .Y − (∑ X )(
. ∑Y ) 10.617 − 69.78
r= = = 0'9861
[N .∑ X 2 2
][
− (∑ X ) . N .∑ Y − (∑ Y )
2 2
] (10.549 − 69 )(. 10.696 − 78 )
2 2
a) Rectas de regresión :
1º.- En puntuaciones directas : Y' = a + b . X Y' = 0'3416 + 1'0809 . X
2º.- En puntuaciones diferenciales : y' = b . x y' = 1'0809 . x
3º.- En puntuaciones tipificadas: zy' = r .zx zy' = 0'9861 .zx
11
A partir de los seis pares de valores, correspondientes a una variable bidimensional (X,Y) ,
(1 , 4) , (2 , 5) , (3 , 5) , (4 , 6) , (5 , 7)
a) Calcule la ecuación de la recta de regresión de Y sobre X.
b) Represente gráficamente el diagrama de dispersión y la recta de regresión.
c) Calcule e interprete el coeficiente de correlación.
Cálculos necesarios (realizados en este ejemplo a partir de las medias y varianzas de X e Y y de la covarianza) :
X Y X2 Y2 X.Y
1 4 1 16 4
2 5 4 25 10
3 5 9 25 15
4 6 16 36 24
5 7 25 49 35
15 27 55 151 88
15 55 27 151 88
X= =3 s 2X = − 32 = 2 Y= = 5' 4 s Y2 = − 5' 4 2 = 1' 04 s XY = − 3. 5' 4 = 1' 4
5 5 5 5 5
1' 4
a) b= = 0' 7 a = 5' 4 − 0' 7. 3 = 3' 3 Y = 3'3 + 0'7 . X
2
b)
Para X = 0 Y = 3'3 (0 , 3'3)
Para X = 5 Y = 6'8 (5 , 6'8)
Enlazando los dos puntos anteriores obtenemos la gráfica de la recta.
1' 4
c) r= = 0' 9707
2 . 1' 04
Elevada relación entre las variables y de signo positivo.
La recta de regresión es una buena función de ajuste, siendo creciente (r > 0).
Para representar gráficamente la recta de regresión, localizamos dos puntos cualesquiera de ella :
Y = 3'3 + 0'7 . X
Iniciamos aquí una serie de ejemplos que requieren para su resolución el empleo de las diferentes relaciones
funcionales (fórmulas para entendernos) tratadas en el tema.
Resulta de utilidad escribir las expresiones en las que intervienen los datos suministrados, sustituyendo sus valores
conocidos. Tal vez así podamos obtener los que nos pida el problema.
⎛ ⎞
1º.- Y ' = 5'4 − 0'9. X (a = Y − b. X ) 5'4 = Y + 0'9. X
s
⎜⎜ b = XY
2
= −0'9 ⎟⎟
⎝ sX ⎠
2º.- s 2Y = 1' 84 s Y = 1' 84 = 1' 3565
3º.- Y' = Y = 3'6 s 2Y' = 1' 619936
Siendo 3'6 la media de Y, la expresión de a nos permite obtener la media de X :
5' 4 − 3' 6
5' 4 = Y + 0' 9 . X 5' 4 = 3' 6 + 0' 9 . X ⇒ X= =2
0' 9
La varianza de X no puede obtenerse de momento (para extraerla del valor del coeficiente de regresión b necesitamos
conocer antes la covarianza o el coeficiente de correlación).
Partiendo, por ejemplo, de la proporción de varianza explicada (hace referencia a la varianza de las predicciones) :
s 2Y' 1' 619936
r2 = = = 0' 8804 ⇒ r = 0' 8804 = ± 0' 9383
s 2Y 1' 84
El coeficiente de correlación será negativo, ya que lo es el coeficiente de regresión b (b = -0'9), luego : r = 0'9383 .
sX
La expresión r = b . nos permitirá calcular la desviación típica de X :
sY
sX sX −0' 9383. 1' 3565
r = b. ⇒ − 0' 9383 = − 0' 9 . ⇒ sX = = 1' 4142 ⇒ s X2 = 1' 4142 2 = 2
sY 1' 3565 − 0' 9
Finalmente, calculemos la recta de ajuste de X sobre Y :
s XY s 1' 4142
b' = = r . X = − 0' 9383. = − 0' 9783 a ' = X − b' . Y = 2 − ( − 0' 9783 ). 3' 6 = 5' 5217
s Y2 sY 1' 3565
Su ecuación es :
X' = 5'5217 - 0'9783 . Y
13
La recta de regresión de Y sobre X corta a los ejes coordenados en los puntos (0'5,0) y (0,-0'4), siendo la
proporción de varianza no explicada por X del 25'58%.
a) Calcule los coeficientes de correlación y de determinación.
b) Siendo X = 5, ¿ qué pronóstico diferencial corresponde a una puntuación directa X = 4 ?.
14
A las puntuaciones directas 2 y 6 de la variable X le corresponden predicciones 3'2 y 7'2
respectivamente.
Si la proporción de varianza asociada a X es del 70'42% y los valores de la variable dependiente Y son:
1 , 3 , 5 , 6 y 11
a) obtenga las ecuaciones de las dos rectas de regresión
b) calcule el coeficiente de correlación
c) un pronóstico tipificado 1'1868 , ¿ a qué puntuación directa de X corresponde ?.
a)
En la recta de regresión de Y sobre X : Y' = a + b.X
- Para X = 2 , Y' = 3'2 : 3'2 = a + 2.b
- Para X = 6 , Y' = 7'2 : 7'2 = a + 6.b
Resolviendo el sistema obtenemos : a = 1'2 b = 1 Y' = 1'2 + X
Para el cálculo de la recta de regresión de X sobre Y no disponemos de elementos suficientes de momento.
b)
Con los valores conocidos de Y calculamos su media, varianza y desviación típica :
1 + 3 + 5 + 6 + 11 12 + 3 2 + 5 2 + 6 2 + 112
Y= = 5' 2 s 2Y = − 5' 2 2 = 11' 36 s Y = 11' 36 = 3' 3705
5 5
Si la proporción de varianza asociada es del 70'42%, deducimos que : r2 = 0'7042 y, siendo b = 1 > 0 , el
coeficiente de correlación r también será positivo. Es decir :
r = + 0' 7042 = 0' 8392
De la recta de regresión de Y sobre X deducimos (para las medias) :
Y ' = Y = 1' 2 + X ⇒ X = Y − 1' 2 = 5' 2 − 1' 2 = 4
La desviación típica de X la podemos obtener ahora de la relación :
sX r . s Y 0' 8392. 3' 3705
r = b. ⇒ sX = = = 2' 8284 ⇒ s X2 = 2' 8284 2 = 8
sY b 1
a bis)
Estamos en condiciones de calcular la recta de regresión de X sobre Y :
s r . s X 0' 8392. 2' 8284
r = b'. Y ⇒ b' = = = 0' 7042 ⇒ a = X − 0' 7042. Y = 4 − 0' 7042. 5' 2 = 0' 3380
sX sY 3' 3705
La recta de regresión de X sobre Y tiene por ecuación :
X' = 0'3380 + 0'7042 . Y
c)
La recta de regresión de Y sobre X en puntuaciones típicas es : z Y' = r . z X z Y' = 0' 8392. z X
Para el pronóstico tipificado 1'1868 deduciremos el valor tipificado de X. Teniendo en cuenta el proceso de
tipificación, deduciremos la puntuación directa de X
1' 1868 X− X X−4
z Y' = 1' 1868 zX = = 1' 4142 = = ⇒ X = 1' 4142. 2' 8284 + 4 = 8
0' 8392 sX 2' 8284
15
En un grupo de 10 sujetos se han aplicado dos pruebas (X,Y). Las puntuaciones obtenidas en X fueron
dicotomizadas por la Mediana formándose dos categorías: altos (A) y bajos (B). Los resultados son los
siguientes :
Sujeto 1 2 3 4 5 6 7 8 9 10
X B A B A A B B A A B
Y 5 3 3 0 1 3 2 0 1 2
Elija y calcule el índice de correlación adecuado para medir la relación existente entre X e Y.
18 - Regresión y correlación (F. Álvarez)
X nA nA.X nB nB.X X n n.X n.X2
0 2 0 0 0 0 2 0 0
1 2 2 0 0 1 2 2 2
2 0 0 2 4 2 2 4 8
3 1 3 2 6 3 3 9 27
4 0 0 0 0 4 0 0 0
5 0 0 1 5 5 1 5 25
5 5 5 15 10 20 62
5 15 20 62
XA = = 1; XB = = 3 ; X = = 2 ; SX = − 2 2 = 1483
'
5 5 10 10
XA − X B 1− 3 5 5
rbp = . p. q = . . = −0'674
SX 1483
' 10 10
Cierta relación entre las variables, de signo inverso. A mayor puntuación en la prueba Y menor nivel en X.
16
La puntuación estimada de la variable Y para un valor 0 de la variable X es 0’5454, siendo la varianza de
esta variable 16’5. Sabiendo que el porcentaje de varianza de la variable Y no asociada a la variación de
X es 4’545% y que la varianza del error es 0’318297, hallar :
a) la correlación de Pearson entre X e Y.
b) la ecuación de regresión para pronosticar Y a partir de X.
c) la varianza de las puntuaciones pronosticadas.
Datos :
S e2
Y' = a + b. X → 0'5454 = a + b.0 → a = 0'5454 ; S 2X = 16'5 ; = 1 − r 2 = 0'04545 ; S e2 = 0'318297
S 2y
a) 1 - r2 = 0’04545 ⇒ r2 = 1 - 0’04545 = 0’95455 ⇒ r = 0’977
b) a = 0’5454
0'318297
= 0'04545 ⇒ S 2Y = 7'003 ⇒ S Y = 2'646
S 2Y
S r.S Y 0'977.2'646
r = b. X ⇒ b = = = 0'6364 ⇒ Y' = 0'5454 + 0'6364. X
SY SX 16'5
c) S 2Y = S e2 + S Y2 ' → S Y2 ' = S Y2 − S e2 = 7'003 − 0'318297 = 6'684703
17
Las puntuaciones estimadas de la variable Y para los valores 3 y 5 de la variable X son 2’4545 y 3’7272
respectivamente. El coeficiente de correlación entre X e Y es 0’977, y la varianza de la variable X es 16’5.
Con estos datos calcular :
a) la ecuación de la recta de regresión.
b) la varianza de las puntuaciones pronosticadas.
c) la proporción de varianza de la variable Y no asociada a la variación de X.
Datos :
⎧2'4545 = a + 3. b
Y' = a + b. X → ⎨ r = 0'977 S2X = 16'5
⎩ 3'7272 = a + 5. b
a) Resolviendo el sistema anterior : a = 0’54545 b = 0’63635 Y’ = 0’54545 + 0’63635.X
s2y '
b) r2 = ⇒ s2y ' = r 2 . s2y
s2y
SX 16'5
r = b. ⇒ 0'977 = 0'63635. = 0'6364 ⇒ SY = 2'656594 ⇒ SY2 ' = 0'977 2 .2'656594 2 = 6'7366
SY SY
c) 1 - r2 = 1 - 0’9772 = 0’045471 (4’5471%)
Y = LKS X=C
X Y X2 Y2 X.Y
8 49 64 2401 392
16 40 256 1600 640
14 43 196 1849 602
20 31 400 961 620
12 37 144 1369 444
70 200 1060 8180 2698
70 200 1060
X= = 14 ; Y = = 40 ; S 2X = − 14 2 = 16 ; S X = 4
5 5 5
8180 2698
S 2Y = − 40 2 = 36 ; S Y = 6 ; S XY = − 14.40 = −20'4
5 5
b = -20’4 / 16 = -1’275 a = 40 - (.1’275).14 = 57’85
a)
Y’ = 57’85 - 1’275.X = 57’85 - 1’275 . 15 = 38’725
b) r = -20’4 / 4 . 6 = -0’85 ⇒ r2 = 0’7225 (72’25%)
c) Alta relación entre las dos pruebas (r=-0’85) y de signo inverso. Es decir, un sujeto con alta puntuación en LKS
tendrá baja puntuación en C
19
La empresa de publicidad “VENDEBIEN” quiere saber si la aceptación o rechazo dependen del sexo.
Para ello se encuesta a 200 personas de las cuáles el 50% son mujeres; 40 hombres rechazan el
producto mientras que 30 mujeres lo aceptan.
Elija y calcule el índice de correlación adecuado para interpretar estos datos.
H M
Aceptan a=60 b=30
Rechazan c=40 d=70
ad − bc 60.70 − 30.40
ϕ= = = 0'3015
( a + b).( c + d ).( a + c).( b + d ) 90110
. .100.100
Escasa relación entre la aceptación y el sexo. De aceptarla, el mayor rechazo se produce en mujeres.
20
La ecuación de la recta de regresión que permite pronosticar las calificaciones en Psicología
Matemática II (Y) a partir de las calificaciones en Psicología Matemática I (X) es la siguiente : Y’ = 0’8.X
- 0’25
Sabiendo que Sx = (4/5).Sy ; Sy = 3 y que X − Y = 1'74 , calcule :
a) rxy, X , Y.
b) la varianza de las puntuaciones pronosticadas.
c) la proporción de varianza error cometida al pronosticar, utilizando la recta de regresión
anterior.
21
La recta de regresión de Y sobre X, que permite el pronóstico en el rendimiento en un trabajo manual a
partir de las puntuaciones en un test de destreza manual, corta al eje de ordenadas en Y’ = 8 y al de
abscisas en X = -4, en puntuaciones directas.
a) Calcule la ecuación de la recta de regresión anterior en puntuaciones directas.
b) Represente gráficamente la recta de regresión anterior.
c) Calcule el coeficiente de correlación entre X e Y sabiendo que la varianza de los errores es la
cuarta parte de la varianza de Y.
a) b)
Para X = 0 , Y’ = 8 y, para X = -4, Y’ = 0
⎧ 8=a ⎧a = 8
Y' = a + b. X → ⎨ ⇒⎨ → Y' = 8 + 2. X
⎩0 = a − 4. b ⎩b = 2
1 2
.S Y 3
S 2e
⇒ S e2 = S 2Y . ( 1 − r 2 )
1 4
c) S 2e = .S 2Y ⇒ r2 = 1− 2 = 1− 2 = ⇒ r = 0'866
4 SY SY 4
22
Estudiando la relación entre las variables X e Y se obtuvieron los siguientes datos :
X = 119 , Y = 1'30 , S x = 10 , SY = 0'55 , rxy = 0'70 , n = 10
a) Elena C. obtuvo una puntuación de 130 en X. Estime su puntuación en Y.
b) Se estimó la puntuación 1’28 en la variable Y para Gonzalo S.. ¿ Cuál fue su puntuación en la
variable X ?.
c) Determinar el valor de Sy.x y la desviación típica de las puntuaciones pronosticadas (Sy’).
sy 0'55
a)
b = r. = 0'7. = 0'0385 ; a = 130
' − 0'0385x119 = −3'2815 ⇒ Y' = −3'2815 + 0'0385. X ⇒
sx 10
⇒ Y' = −3'2815 + 0'0385130
. = 1'7235
XA XB
2 2
4 4
6 5
8 6
9
10
20 36
X 2 4 6 8 2 4 5 6 9 10 56
X2 4 16 36 64 4 16 25 36 81 100 382
20 36 56 382
XA = = 5 ; XB = = 6; X = = 5'6 ; S X = − 5'6 2 = 2'61
4 6 10 10
XA − X B 5− 6 4 6
rbp = . p. q = . . = −0187
'
SX 2'61 10 10
r2 = 0’035 (3’5%)
Existe una relación muy baja (del 3’5%) entre el método seguido y las calificaciones. De aceptarse la relación
diríamos que los alumnos que siguen el método B obtienen mejores resultados (signo negativo de r).
24
Sabemos que las puntuaciones diferenciales pronosticadas (y’) son cinco veces las puntuaciones
diferenciales de la variable X, y que la proporción de varianza asociada entre X e Y es igual a 0’25.
Calcular :
a) La pendiente de la recta de regresión de Y sobre X en puntuaciones directas y diferenciales.
b) La pendiente de la recta de regresión de Y sobre X en puntuaciones típicas.
c) La pendiente de la recta de regresión de X sobre Y en puntuaciones directas.
s2y '
Datos : y’ = 5x r =
2
= 0'25
s2y
a) b=5
b) r2 = 0’25 ⇒ r = 0’5
c) b.b’ = r2 ⇒ 5.b’ = 0’25 ⇒ b’ = 0’25 / 5 = 0’05
25
Para un grupo de 100 sujetos y en dos variables X e Y, disponemos de los siguientes datos :
Σxy=480 ; Σx2=400 ; Σy2=ΣY=900.
Sabiendo además que X e Y son dos variables cuantitativas que mantienen una relación lineal y que,
lógicamente,
Σx = Σy = 0
a) ¿Cuánto valdrá el coeficiente de correlación de Pearson entre X e Y ?.
b) ¿Cuánto valdrá la desviación típica de los errores cometidos al pronosticar Y a partir de X ?.
c) ¿ Qué puntuación directa pronosticaremos en Y a un sujeto que ha obtenido una puntuación x=-2 ?.
N N N
∑ n .(X − X) ∑ n .X ∑ n .x
2 2 2
i i i i i i
S X2 = i
= i
−X2 S X2 = i
N N N
a) Para puntuaciones diferenciales :
s xy =
∑ xy = 480 = 4'8 sx =
∑ x2 =
400
=2 sy =
∑ y2 =
900
=3
n 100 n 100 n 100
r = 4’8 / 2'3 = 0’8
b) se = s y.x = s y . 1 − r 2 = 3. 1 − 0'8 2 = 18
'
sy 3
c) En puntuaciones diferenciales : y’ = b.x , con b = r . = 0'8. = 12
'
sx 2
Para x = -2 : y’ = 1’2 . (-2) = -2’4
26
La empresa de publicidad “VENDEBIEN” quiere Duración Aceptación Rechazo
saber si existe relación entre la duración de un 5-9 3 0
anuncio en T.V. y la aceptación o rechazo del 10 - 14 4 1
mismo. Los resultados de la encuesta se 15 - 19 4 2
incluyen en la siguiente tabla. 20 - 24 1 3
Elija y calcule el índice de correlación 25 - 29 0 2
adecuado para interpretar estos datos.
27
El gabinete de estudios sobre “Malestar Social” desea conocer si existe relación entre la consumición
de drogas y la comisión de delitos sobre la propiedad. Para ello se selecciona una muestra y se
comprueba que 50 individuos han consumido algún tipo de droga y a la vez han estado implicados en
delitos contra la propiedad. Teniendo en cuenta que un 20% de la muestra ha cometido delitos contra la
propiedad, que 250 no consumen drogas ni han estado implicados en delitos contra la propiedad y que
la muestra constaba de 500 individuos, ¿ qué conclusión obtendrá el gabinete de estudios ?. (Elija,
calcule e interprete el coeficiente de correlación adecuado).
28
Un grupo de hombres y mujeres responde a una X Mujeres Hombres
prueba (X). Los datos obtenidos aparecen en la 11 - 13 8 3
siguiente tabla. 8 - 10 6 5
Elija razonadamente, calcule e interprete el 5-7 5 6
coeficiente de correlación adecuado, para estudiar 2-4 1 6
la relación entre las puntuaciones de la prueba y la
variable sexo.
29
Elija el coeficiente de correlación más apropiado
entre las variables “puntuaciones en un test de Y
inteligencia” (X), y “prejuicio antiprotestante” (Y), fA fB
teniendo en cuenta el cuadro adjunto. 9 - 11 40 0
En este cuadro, fA significa frecuencia con alto X 6-8 40 0
prejuicio y fB frecuencia con bajo. Calcule el 3-5 0 10
coeficiente de correlación elegido y comente 0-2 0 10
brevemente el resultado obtenido.
sy 2
a)
b = r. = 0'8. = 0'267 ; a = 6 − 0'267 x50 = −7'35 ⇒
sx 6
⇒ Y' = −7'35 + 0'267. X ⇒ Y' = −7'35 + 0'267 x52 = 6'534
b) S Y.X = S Y . 1 − r 2 = 2. 1 − 0'8 2 = 12
' S Y2 ' = S Y2 − S Y2 .X = 4 − 144
' = 2'56
31
Estudiando una muestra de 50 alumnos de BUP se observó que una proporción de 0’10 estaba
compuesta por alumnos hijos únicos. De los 50 alumnos, una proporción de 0’6 comían en el Colegio.
Si sabemos que una proporción de 0’04, con respecto al total, son hijos únicos que no comen en el
Colegio. ¿ Existe una relación entre ser hijo único o no y comer o no en el Colegio ?. Halle el coeficiente
de correlación que corresponda e interprete el resultado.
Único SI Único NO
Comen SI a=3 b=27
Comen NO c=2 d=18
ad − bc . − 27.2
318
ϕ= = =0
(a + b).( c + d ).(a + c).( b + d ) 30.20.5.45
Las variables son independientes. No existe ningún tipo de relación entre ser hijo único y comer en el colegio.
32
La desviación típica de un determinado grupo de personas en la variable ansiedad (X) es igual a 2.
También conocemos para esta variable la media de los varones (10) y la de las mujeres (5). Sabiendo
que el índice de asociación entre las variables ansiedad y sexo es igual a +1, y que el número de
varones es superior al de mujeres :
a) ¿ Qué coeficiente de correlación habrá sido utilizado ?.
b) Interprete el valor del coeficiente de correlación.
c) Calcule la proporción de varones que componen nuestra muestra.
33
Y Con la presente distribución bivariante obtenga :
[0,10) [10,20) [20,30) [30,40] a) recta de regresión de la media de Y condicionada a X
0 0 1 0 16 b) coeficiente de correlación de la media de Y condicionada a X
X 1 0 5 20 3 c) recta de regresión de Y sobre X
2 5 18 6 0 d) coeficiente de correlación lineal (de Y sobre X)
3 3 2 1 0 e) razón de correlación.
Compare los resultados obtenidos en los apartados a), b) con los de los apartados c), d). Interprete el
significado de la razón de correlación calculada.
34
De un grupo de COU, integrado `por 40 alumnos, conocemos sus calificaciones finales en Matemáticas
y en Filosofía. El número de aprobados en ambas ascendió a 15, suspendiendo 12 las dos materias,
mientras que sólo aprobó Matemáticas el 10% de los alumnos.
a) Calcule el coeficiente de correlación más adecuado para medir el grado de asociación existente
entre las variables descritas.
b) Asumiendo que las calificaciones en Matemáticas y en Filosofía se distribuyen normalmente,
determine otro coeficiente que estudie el nivel de asociación y no esté basado en el concepto de
correlación de Pearson
Se trata de analizar la relación que puede existir entre las calificaciones en las dos materias.
a)
Siendo las dos variables dicotómicas, calculamos el coeficiente de correlación ϕ (phi) .
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y - Filosofía
1 (Aprueban) 0 (Suspenden)
X 1 (Aprueban) a = 15 b=4 19
Matemáticas 0 (Suspenden) c=9 d = 12 21
24 16
ad − bc 15.12 − 4.9
ϕ= = = 0'3679⇒ baja relación entre las variables.
(a + b )(. c + d )(. a + c )(. b + d ) 19.21.24.16
El aprobar o suspender una materia no condiciona el resultado final en la otra.
b)
Siendo las dos variables dicotómicas (normalmente distribuidas inicialmente), calculamos el coeficiente de
correlación tetracórica (rt).
1º Calculamos los productos : a.d = 15 . 12 = 180 y b.c = 4 . 9 = 36.
2º Como a.d > b.c , calculamos el cociente : C = a.d / b.c = 180 / 36 = 5 (rt será positivo)
3º Consultamos la tabla XXV, para el cálculo del coeficiente de correlación tetracórico, localizando el cociente
C=5 en el intervalo (A,B) = (4'8305 , 5'0075), al cuál corresponde un coeficiente 0'56 + R.
De aquí :
C−A 5 − 4'8305
R= = = 0'00958⇒rt = 0'56 + R = 0'56 + 0'00958 = 0'56958
100.(B − A) 100.(5'0075 − 4'8305)
NOTA :
Generalmente se verifica que el coeficiente de correlación tetracórica y el coeficiente ϕ verifican la
relación :
35
Con el fin de estudiar si existe o no relación entre las calificaciones en Matemáticas y en Filosofía de
COU, seleccionamos seis alumnos. Clasificados por orden de puntuación final en cada materia resultó :
Alumno 1 2 3 4 5 6
Matemáticas 3º 6º 4º 1º 2º 5º
Filosofía 3º 5º 6º 4º 1º 2º
a) Utilizando el índice adecuado, basado en el concepto de correlación de Pearson, establezca el grado
de relación que existe entre las calificaciones de las dos asignaturas.
b) Resuelva lo solicitado en el apartado anterior mediante un índice que no esté basado en el concepto
de correlación de Pearson
a)
Calcularemos el coeficiente de correlación ρ (rangos de Spearman) al presentarse dos variables ordinales
(dos reordenaciones de los 8 alumnos).
Denominamos X e Y a las variables que proporcionan, respectivamente, las clasificaciones en Matemáticas y
en Filosofía.
Ordenando las primeras (X), calculamos sus diferencias con las segundas :
X Y d d2
1 4 -3 9
2 1 1 1
3 3 0 0
4 6 -2 4
5 2 3 9
6 5 1 1
24
6. ∑ d 2 6 . 24
ρ = 1− = 1− = 0'3143
N. ( N 2 − 1) 6. ( 6 2 − 1)
Con ello :
a)
Al ser dicotómica la 2ª variable, obtendremos el coeficiente de correlación biserial puntual :
Y Y=1 Y=0
A=1 S=0 n n.X n.X2 n.X1 n.X0
X 2 2 1 3 6 12 4 2
3 5 0 5 15 45 15 0
4 10 2 12 48 192 40 8
5 4 0 4 20 100 20 0
6 3 1 4 24 144 18 6
8 1 1 2 16 128 8 8
25 5 N=30 129 621 105 24
105 24 25 5
X1 = = 4'2 X0 = = 4'8 p= = 0'833 q= = 0167
'
25 5 30 30
129 621
X= = 4'3 s2X = − 4'32 = 2'21 ⇒ s X = 2'21 = 1487
'
30 30
X1 − X 0 4'2 − 4'8
Con esto : rbp = . p. q = . 0'833.0167
' = −01505
'
sX 1487
'
Es decir apenas existe relación entre ambas variables.
b)
Calculemos ahora el coeficiente de correlación biserial rb :
Tomando el menor de los valores de p y q :
min (p,q) = min (0'833 , 0'167) = 0'167
p. q
obtenemos el valor tabulado del cociente (Tabla XXIII), que resulta ser igual a 0'55609 .
f ( z)
X1 − X 0 p. q 4'2 − 4'8
Con esto : rb = . = .0'55609 = −0'2244
sX f ( z) 1487
'
Aunque no coincide su valor con el coeficiente de correlación biserial puntual, también podemos concluir que
apenas existe relación entre ambas variables.
37
Hemos encontrado, utilizando el criterio de mínimos cuadrados, que las rectas de regresión de Y sobre
X en puntuaciones directas y típicas son, respectivamente :
Y' = 1'2 . X + 4 zy' = 0'8 . zx
Sabiendo que : X = 5 , Y = 10 , S X = 2 , S Y = 3 , calcular :
a) La varianza de las puntuaciones pronosticadas en Y.
b) La recta de regresión de Y sobre X, en puntuaciones directas, si sumamos 5 a todos los valores de
X.
c) La recta de regresión de Y sobre X, en puntuaciones directas, si sumamos 3 a todos los valores de Y
y multiplicamos por 2 todos los valores de X.
38
Se desea estudiar si existe relación entre `padecer diabetes y ceguera en la tercera edad. Para ello se
analiza una muestra de 1000 personas del INSERSO encontrándose que de todas ellas un 50%
presentan simultáneamente diabetes y ceguera, el 40% no presentan ninguna de ambas deficiencias y
el resto presentan en la misma medida sólo una u otra deficiencia. Con estos datos elija, calcule e
interprete el coeficiente de correlación adecuado a dicho estudio.
Se trata de analizar la relación que puede existir entre las dos enfermedades.
Siendo las dos variables dicotómicas, calculamos el coeficiente de correlación ϕ (phi) .
• Padecen ambas 50% de 1000 500
• No padecen ninguna 40% de 1000 400
• Padecen sólo diabetes La mitad de los 100 restantes 50
• Padecen sólo ceguera La mitad de los 100 restantes 50
Dispuesta la tabla como sigue (totalizando filas y columnas) obtenemos :
Y - Ceguera
1 (Padece) 0 (No padece)
X 1 (Padece) a = 500 b = 50 550
Diabetes 0 (No padece) c = 50 d = 400 450
550 450
ad − bc 500.400 − 50.50
ϕ= = = 0'798 ⇒ alta relación entre las variables.
( a + b) .( c + d).( a + c) .( b + d) 550.450.550.450
El padecer o no una dolencia condiciona el padecer la otra.
2
Y De la presente distribución conjunta de las variables (X,Y) :
2 4 6 8 a) Obtener la recta de regresión de Y sobre X.
0 3 1 0 0 b) Calcular e interpretar el coeficiente de determinación.
X 1 0 6 4 0 c) Calcular su varianza residual.
2 0 2 4 5
3
De los 10 pares de valores que se representan en el
diagrama de dispersión de la izquierda,
4
Y De la presente distribución conjunta de las variables (X,Y) :
0 1 2 3 a) Calcular la frecuencia que falta sabiendo que la me-
3 0 1 5 12 dia de X es igual a 4.
X 4 3 7 15 2 b) Obtener la recta de regresión de Y sobre X en
5 5 1 0 puntuaciones diferenciales.
c) Calcular la proporción de varianza residual.
5
Edad Hermanos n De la distribución de edades y número de hermanos de 40 jóvenes :
[10,15) 0 3
[10,15) 1 5 a) Obtener las rectas de regresión en puntuaciones directas,
[10,15) 2 9 diferenciales y tipificadas.
[15,20) 1 5 c) Calcular e interpretar el coeficiente de correlación lineal.
[15,20) 2 10
[20,25] 1 3
[20,25] 2 5
6
Las siguientes distribuciones bivariantes pretenden estudiar el grado de relación existente entre las variables :
a) Puntuación en un test de agresividad y sexo.
b) Clasificación (de mayor a menor) según la nota media obtenida en las asignaturas del curso y en una
prueba tendente a determinar su coeficiente intelectual.
c) Ser bebedor y ser fumador.
Determine y calcule en cada caso el índice adecuado que permite medir el grado de relación entre las variables
descritas.
7
La proporción de varianza residual, en un ajuste de Y sobre X, es del 22'12%.
a) Determine dicha recta de ajuste sabiendo que a una puntuación directa X=2 corresponde una
predicción 2'1 y que dicha recta corta al eje de ordenadas en el punto (0,0'3).
b) Calcule el coeficiente de correlación.
c) ¿ Qué pronóstico diferencial corresponde a una puntuación directa X=5, si X = 0 ?.
8
En el estudio de la relación lineal existente entre dos variables X e Y se observó que eran independientes.
Sabiendo que sus respectivas medias son iguales a 2 y 1, y que tienen por varianzas 0'1538 y 0'6154,
a) calcule las ecuaciones de las dos rectas de regresión
b) determine el error típico de la predicción.
9
De los cálculos realizados para estudiar la relación existente entre las variables X e Y, se conoce que :
- la recta de ajuste de Y sobre X pasa por el punto (2,2)
- las media de X es igual a 1 y la de Y vale 4
- la varianza de la variable dependiente es igual a 2'2857, y la de las predicciones es 1'9047.
A la vista de estos datos, calcule :
a) Ecuaciones de las dos rectas de regresión en puntuaciones directas, diferenciales y típicas.
b) Proporción de varianza no asociada a X.
10
Determinar las ecuaciones en puntuaciones diferenciales de las rectas de regresión correspondientes a la
distribución bivariante (X,Y), sabiendo que las varianzas de ambas variables son 4 y 9 respectivamente y que
existe una relación lineal perfecta y directa entre ellas.
11
En el estudio de la relación lineal existente entre dos variables X e Y, sabemos que a las puntuaciones directas
0 y 2 de X le corresponden unos pronósticos respectivos 3’3243 y 7’7567. Sabiendo que la proporción de
varianza asociada al ajuste es del 94’65% y que la variable dependiente tiene por media 8’2 y varianza 15’36,
calcular :
a) Ecuación de la recta de ajuste.
b) Coeficiente de correlación.
c) Media y varianza de la variable X.
d) Varianza residual y de las predicciones.
12
Analizamos las edades de 8 personas que acuden a un examen para la obtención del carnet de conducir.
Sabiendo que aprueban 5 con edades : 28, 24, 32, 45 y 30 y que los que suspenden tienen 23, 21 y 27 años,
determine el coeficiente más adecuado para medir el grado de relación de la edad con la superación o no del
examen.
13
Para los siguientes pares de valores de las variables X e Y :
(12 , 4) , (10 , 7) , (12 , 5) , ( 11 , 6’5) , (14 , 2) , (11, 8’5) , (12, 3) , (14 , 1’5) , (10, 9) , ( 11, 7)
calcular la proporción de varianza que explica el ajuste de Y sobre X.
14
X 0 1 1 1 2 3 3 5 Determine la varianza de los errores y de las
Y -6 -2 -1 1 3 8 9 12 predicciones, correspondientes al ajuste de Y
f 3 6 11 16 3 1 4 2 sobre X en la distribución anterior.
16
Para los valores 0 y 2 de la variable X se obtuvieron unos pronósticos de la variable dependiente iguales a
6’8617 y 14’0531 respectivamente.
Sabiendo que la proporción de varianza de la variable Y no asociada a la variación de X es del 17’32%, y la
varianza de la variable independiente es 2’9375, calcular :
a) la ecuación de la recta de regresión de Y sobre X.
b) la varianza de las puntuaciones pronosticadas y la varianza residual.
c) el coeficiente de correlación entre X e Y
17
Y Con la presente distribución bivariante obtenga :
1 2 3 4 5 a) recta de regresión de la media de Y condicionada a X
0 6 8 3 0 1 b) coeficiente de correlación de la media de Y condicionada a X
X 1 0 7 10 1 0 c) recta de regresión de Y sobre X
2 2 0 5 8 6 d) coeficiente de correlación lineal (de Y sobre X)
e) razón de correlación.
f) Compare los resultados obtenidos en los apartados a), b) con los de los apartados c), d). Interprete el
significado de la razón de correlación calculada.
18
Determine y calcule en cada uno de los siguioentes supuestos, el índice adecuado (no basado en el concepto
de correlación de Pearson) que permita medir el grado de asociación entre las variables X e Y.
(I) Y (II) (ordinales)
X 0 1 X A B C D E F
-2 6 1 Y C F D E A B
-1 4 4
0 2 6
1 0 5 (III) Y
2 1 8 1 0
X 1 2 40
0 50 8
2
X = 1'28 s 2X = 0'5216 Y = 5'2 s 2Y = 3'52 s XY = 1'024
a) a = 2'6871 b = 1'9632 Y' = 2'6871 + 1'9632 . X
b) R2 = r2 = 0'5711 Representa la proporción de varianza de Y explicada por X (el 57'11%)
c) s 2 = 1'5097
Y.X
3
X = 5'5 s 2X = 8'25 Y = 4'05 s 2Y = 1'8225 s XY = 3'175
a) a = 1'9333 b = 0'3848 Y' = 1'9333 + 0'3848 . X
b) r = 0'8188 Elevada relación entre las variables (de tipo directo)
c) R2 = r2 = 0'6704
d)
Y ' = Y = 4’05 s 2Y' = 1'2218
4
X =4 s 2X = 0'5714 Y = 1'6508 s 2Y = 0'9257 s XY = -0'5238
a) n = 12
b) b = -0'9167 y' = -0'9167 . x
c) 1 - r2 = 0'4813
5
X = 16'375 s 2X = 14'3594 Y = 1'525 s 2Y = 0'3994 s XY = 0'4656
a = 0'994 b = 0'0324
a' = 14'597 b' = 1'1659 r = 0'1944
a) Y' = 0'994 + 0'0324 . X y' = 0'0324 . x zy' = 0'1944 . zx
X' = 14'597 + 1'1659 . Y x' = 1'1659 .y zx' = 0'1944 . zy
b) r = 0'1944 Las variables no están relacionadas linealmente (son independientes)
6
(I) Coeficiente biserial puntual rbp = 0'0389
(II) Coeficiente ρ de los rangos de Spearman ρ = 0'8857
(III) Coeficiente ϕ ϕ = - 0'6154
7
a) Y = 0'3 + 0'9 . X b) r = 0'8825 c) y' = 4'5
8
a) Y' = 1 X' = 2 b) sY.X = sY = 0'7845
9
a) Y' = 6 - 2 . X y' = -2 . x zy' = -0'9129 . zx
X' = 2'6667 - 0'4167 . Y x' = -0'4167 .y zx' = -0'9129 . zy
b) 1 - r2 = 0'1667
10
y' = 1'5 . x x' = 0'6667 . y
12
rbp = 0’56
13
0’8331 (o bien el 83’31%)
14
1’9543 ; 15’5069
15
ρ = -0’8667
16
a) Y’ = 6’8617 + 3’5957 . X
b) 39’98 y 7’96
c) 0’9093
17
a) YM’ = 1'9317 + 0'9049 . X
b) rM = 0'9924
c) Y’ = 1'9268 + 0'8862 . X
d) r = 0'6067
e) η2 = 0’3749 (próximo a r2 = 0'3681)
18
(I) Coeficiente biserial rb = - 0'7250
(II) Coeficiente τ de Kendall τ = - 0'3333
(III) Coeficiente tetracórico rt = - 0'7744
min(p,q) 0'000 0'001 0'002 0'003 0'004 0'005 0'006 0'007 0'008 0'009
0'00 0'29788 0'31576 0'32772 0'33699 0'34469 0'35133 0'35722 0'36253 0'36738
0'01 0'37186 0'37603 0'37994 0'38363 0'38712 0'39044 0'39360 0'39663 0'39954 0'40233
0'02 0'40502 0'40762 0'41014 0'41257 0'41493 0'41722 0'41945 0'42162 0'42373 0'42579
0'03 0'42781 0'42977 0'43169 0'43357 0'43540 0'43720 0'43897 0'44069 0'44239 0'44406
0'04 0'44569 0'44729 0'44887 0'45042 0'45195 0'45345 0'45492 0'45638 0'45781 0'45922
0'05 0'46061 0'46198 0'46333 0'46466 0'46597 0'46726 0'46854 0'46980 0'47105 0'47228
0'06 0'47349 0'47469 0'47587 0'47704 0'47820 0'47934 0'48047 0'48159 0'48270 0'48379
0'07 0'48487 0'48594 0'48700 0'48804 0'48908 0'49011 0'49112 0'49213 0'49312 0'49411
0'08 0'49508 0'49605 0'49701 0'49795 0'49889 0'49982 0'50074 0'50166 0'50256 0'50346
0'09 0'50435 0'50523 0'50611 0'50697 0'50783 0'50868 0'50953 0'51036 0'51120 0'51202
0'10 0'51284 0'51365 0'51445 0'51525 0'51604 0'51682 0'51760 0'51838 0'51914 0'51990
0'11 0'52066 0'52141 0'52215 0'52289 0'52362 0'52435 0'52507 0'52579 0'52650 0'52721
0'12 0'52791 0'52860 0'52929 0'52998 0'53066 0'53134 0'53201 0'53268 0'53334 0'53400
0'13 0'53465 0'53530 0'53595 0'53659 0'53723 0'53786 0'53849 0'53911 0'53973 0'54034
0'14 0'54096 0'54156 0'54217 0'54277 0'54336 0'54396 0'54454 0'54513 0'54571 0'54629
0'15 0'54686 0'54743 0'54800 0'54856 0'54912 0'54967 0'55023 0'55078 0'55132 0'55186
0'16 0'55240 0'55294 0'55347 0'55400 0'55453 0'55505 0'55557 0'55609 0'55660 0'55711
0'17 0'55762 0'55812 0'55862 0'55912 0'55962 0'56011 0'56060 0'56109 0'56157 0'56205
0'18 0'56253 0'56301 0'56348 0'56395 0'56442 0'56488 0'56534 0'56580 0'56626 0'56671
0'19 0'56716 0'56761 0'56806 0'56850 0'56895 0'56938 0'56982 0'57025 0'57069 0'57111
0'20 0'57154 0'57196 0'57239 0'57281 0'57322 0'57364 0'57405 0'57446 0'57487 0'57527
0'21 0'57568 0'57608 0'57647 0'57687 0'57726 0'57766 0'57805 0'57843 0'57882 0'57920
0'22 0'57958 0'57996 0'58034 0'58071 0'58109 0'58146 0'58182 0'58219 0'58256 0'58292
0'23 0'58328 0'58364 0'58399 0'58435 0'58470 0'58505 0'58540 0'58574 0'58609 0'58643
0'24 0'58677 0'58711 0'58745 0'58778 0'58811 0'58845 0'58878 0'58910 0'58943 0'58975
0'25 0'59007 0'59039 0'59071 0'59103 0'59134 0'59166 0'59197 0'59228 0'59258 0'59289
0'26 0'59319 0'59350 0'59380 0'59410 0'59439 0'59469 0'59498 0'59528 0'59557 0'59585
0'27 0'59614 0'59643 0'59671 0'59699 0'59727 0'59755 0'59783 0'59811 0'59838 0'59865
0'28 0'59892 0'59919 0'59946 0'59973 0'59999 0'60025 0'60051 0'60077 0'60103 0'60129
0'29 0'60154 0'60180 0'60205 0'60230 0'60255 0'60280 0'60304 0'60329 0'60353 0'60377
0'30 0'60401 0'60425 0'60449 0'60472 0'60496 0'60519 0'60542 0'60565 0'60588 0'60611
0'31 0'60633 0'60656 0'60678 0'60700 0'60722 0'60744 0'60765 0'60787 0'60808 0'60830
0'32 0'60851 0'60872 0'60893 0'60913 0'60934 0'60954 0'60975 0'60995 0'61015 0'61035
0'33 0'61055 0'61074 0'61094 0'61113 0'61132 0'61151 0'61170 0'61189 0'61208 0'61226
0'34 0'61245 0'61263 0'61281 0'61299 0'61317 0'61335 0'61353 0'61370 0'61388 0'61405
0'35 0'61422 0'61439 0'61456 0'61473 0'61489 0'61506 0'61522 0'61538 0'61554 0'61570
0'36 0'61586 0'61602 0'61618 0'61633 0'61649 0'61664 0'61679 0'61694 0'61709 0'61724
0'37 0'61738 0'61753 0'61767 0'61781 0'61796 0'61810 0'61824 0'61837 0'61851 0'61865
0'38 0'61878 0'61891 0'61904 0'61917 0'61930 0'61943 0'61956 0'61969 0'61981 0'61993
0'39 0'62006 0'62018 0'62030 0'62042 0'62053 0'62065 0'62077 0'62088 0'62099 0'62111
0'40 0'62122 0'62133 0'62143 0'62154 0'62165 0'62175 0'62186 0'62196 0'62206 0'62216
0'41 0'62226 0'62236 0'62245 0'62255 0'62264 0'62274 0'62283 0'62292 0'62301 0'62310
0'42 0'62319 0'62328 0'62336 0'62345 0'62353 0'62361 0'62369 0'62377 0'62385 0'62393
0'43 0'62401 0'62408 0'62416 0'62423 0'62430 0'62437 0'62444 0'62451 0'62458 0'62465
0'44 0'62471 0'62478 0'62484 0'62490 0'62496 0'62502 0'62508 0'62514 0'62520 0'62525
0'45 0'62531 0'62536 0'62541 0'62547 0'62552 0'62556 0'62561 0'62566 0'62571 0'62575
0'46 0'62579 0'62584 0'62588 0'62592 0'62596 0'62600 0'62603 0'62607 0'62611 0'62614
0'47 0'62617 0'62620 0'62623 0'62626 0'62629 0'62632 0'62635 0'62637 0'62640 0'62642
0'48 0'62644 0'62646 0'62648 0'62650 0'62652 0'62654 0'62655 0'62657 0'62658 0'62659
0'49 0'62660 0'62661 0'62662 0'62663 0'62664 0'62664 0'62665 0'62665 0'62665 0'62666
0'50 0'62666