Clase 3c. Análisis de Datos - Correlación de Variables

UNIVERSIDAD NACIONAL EXPERIMENTAL DEL TÁCHIRA
VICE-RECTORADO ACADÉMICO
DECANATO DE POSTGRADO
UNIDAD CURRICULAR ESTADÍSTICA
Prof. José Alexy Moros Briceño

CONTENIDO
Coeficiente de contingencia ..................................................................................................................................3
Correlación de Spearman....................................................................................................................................26
Correlación de Phi...............................................................................................................................................32
Correlación biserial-puntual...............................................................................................................................42
Correlación biserial ............................................................................................................................................49
Coeficiente de correlación de Pearson................................................................................................................56
El coeficiente de Contingencia (C) se aplica para variables nominales, se presenta en forma de tabla de
doble entrada con variables que expresan “atributos”, donde la í-esima fila y j-esima columna, denominada
Oij, describen cada una de las frecuencias observadas asociadas a los atributos.
También se conoce como coeficiente de contingencia de Pearson y expresa la intensidad de la relación entre
dos variables cualitativas, Su valor se encuentra entre -1 y +1.
Su formula es:
C = coeficiente de contingencia
𝑿𝟐 X 2 = Chi – cuadrado
𝑪=
𝑿𝟐 + 𝒏 n = número de observaciones
Según la formula anterior, el coeficiente de Contingencia se basa en el estadístico 𝑋 2

σ𝒏𝒊=𝟏 σ𝒎 𝟐 𝑋 2 = Chi – cuadrado
𝒋=𝟏(𝒐𝒊𝒋 − 𝒆𝒊𝒋 )
𝑿𝟐 = 𝑒𝑖𝑗 = frecuencia esperada por fila y columna
𝒆𝒊𝒋 𝑜𝑖𝑗 = frecuencia observada por fila y columna
𝑓𝑓 = frecuencia marginal por fila
𝒇𝒇 ∗ 𝒇𝒄 𝑓𝑐 = frecuencia marginal por columna
𝒆𝒊𝒋 = n = número de observaciones
𝒏
𝑋 2 = 0 hay independencia entre variables
𝑋 2 > 0 hay mayor grado de asociación entre variables
𝑋 2 < 0 hay menor grado de asociación entre variables
El coeficiente de contingencia ayuda a decidir si la variable b es ‘contingente’ en la variable a. Sin embargo,
es una medida aproximada y no cuantifica exactamente la dependencia; Se puede utilizar como una guía
aproximada:
• Si C está cerca de cero (o igual a cero), puede concluir que sus variables son independientes entre sí; no
hay asociación entre ellos.
• Si C está lejos de cero , existe alguna relación; C solo puede tomar valores positivos.
Cuanto más grande sea la tabla a partir de la cual se calcula el coeficiente de chi-cuadrado, más cerca de 1
se acercará una asociación perfecta. Es por eso que algunos estadísticos sugieren usar el coeficiente de
contingencia solo si está trabajando con una tabla de 5 por 5 o más grande.
Ejemplo. Supongamos que se le preguntó a 100 estudiantes universitarios si estaban de acuerdo con la
implementación de un programa de capacitación tecnológica, obteniéndose los siguientes resultados:
Está de acuerdo con el programa de

capacitación tecnológica
De acuerdo Indeciso En desacuerdo Total
Ingeniería 10 5 41
universitaria
26
Carrera
Licenciatura 20 5 8 33
Administración 20 4 2 26
Total 66 19 15 100
Procedimiento manual para el cálculo del coeficiente de contingencia
𝑓𝑓 ∗ 𝑓𝑐
Paso 1. Hallar las frecuencias esperadas para celda 𝑒𝑖𝑗 =
𝑛
66 ∗ 41 19 ∗ 41 15 ∗ 41
𝑒11 = = 27,1 𝑒12 = = 7,8 𝑒13 = = 6,2
100 100 100
Se realiza el mismo procedimiento para las demás celdas. Luego se suma cada fila y cada columna para
verificar que se tienen los mismos datos del cuadro de las frecuencias observadas

Ingeniería 27,1 7,8 6,2 41
universitaria
Carrera
Licenciatura 21,8 6,3 5 33

Administración 17,2 4,9 3,9 26
Total 66 19 15 100
Paso 2. Se calcula el valor del 𝑿𝟐

Ingeniería 10 / 7,8 5 / 6,2 41
universitaria
26 / 27,1
Carrera
Licenciatura 20 / 21,8 5 / 6,3 8/5 33

Administración 20 / 17,2 4 / 4,9 2 / 3,9 26
Total 66 19 15 100
σ𝑛 𝑚
𝑖=1 σ𝑗=1(𝑜𝑖𝑗 −𝑒𝑖𝑗 )
2
(26−27,1)2 (10−7,8)2 (5−6,2)2 (4−4,9)2 (2−3,9)2
𝑋2 = = + + +...+ + =4,74
𝑒𝑖𝑗 27,1 7,8 6,2 4,9 3,9
𝑋 2 = 4,74
Paso 3. Se calcula el valor del coeficiente de Contingencia y se interpreta
𝑋2 4,74
𝐶= = = 0,213
𝑋2 + 𝑛 4,74 + 100
Según el C = 0,213 existe una asociación positiva baja entre las variables carrera universitaria y estar de
acuerdo con el programa de capacitación tecnológica.
Pruebas de significación estadística: Test de Chi-cuadrado (𝑿𝟐 )
Existe un contraste formal para la hipótesis nula de independencia de los atributos de las variables A y B a
un determinado nivel de significación (generalmente a =0,05) a partir de la información muestral recogida
en la tabla de contingencia. La hipótesis alternativa es la existencia de asociación entre los atributos de las
variables A y B.
Ho: Las variables A y B son independientes
H1: Las variables A y B no son independientes
Este test es conocido como test Chi-cuadrado y se basa en la distribución bajo la hipótesis nula del llamado
coeficiente de contingencia 𝑋 2 (coeficiente Chi-cuadrado).
Puede demostrarse que, bajo la hipótesis nula de independencia de los atributos, el estadístico 𝑋 2 se distribuye según
2
una 𝑋(𝑟−1)(𝑐−1) .
El criterio para aceptar la Ho es que el valor del estadístico 𝑋 2𝑟−1 𝑐−1 ,𝛼 sea mayor al 𝑋𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜
2
, de no ser
así se rechaza Ho, tal como se muestra en la grafica.
Al momento de utilizar al programa o paquete estadístico, si p-valor< a se rechaza la hipótesis nula de

independencia de los variables A y B al nivel de significación a, es decir, se acepta la hipótesis alternativa
de existencia de asociación entre los variables A y B al nivel de significación a.
Antes de aplicar el test 𝑋 2 debemos comprobar que se verifican las siguientes condiciones:
1. Ninguna frecuencia esperada es menor que 1
2. Al menos el 80% de las frecuencias esperadas son mayores que 5
Si estas condiciones no se cumplen, no se puede aplicar el test. En tales casos debemos agrupar las
modalidades o aumentar el tamaño muestral con el objetivo de que se cumplan las condiciones de validez
del test.
En las tablas 2x2, si no se cumplen estas condiciones debe aplicarse otro test conocido como test exacto de
Fisher. Si el p-valor a 2 colas correspondiente a este test es menor que el nivel de significación considerado
se rechaza la hipótesis nula de independencia.
Además, en las tablas 2x2 hay que hacer siempre una corrección por continuidad (corrección de Yates) del
estadístico de 𝑋 2 , tomando en su lugar el estadístico corregido de Yates, cuya expresión es:
𝒌 𝒑 𝟐
𝒐𝒊𝒋 − 𝒆𝒊𝒋 − 𝟎, 𝟓
𝑿𝟐𝒀𝒂𝒕𝒆𝒔 = ෍෍
𝒆𝒊𝒋
𝒊=𝒊 𝒋=𝟏
Prueba de hipótesis para el ejemplo en cuestión
De la tabla anterior, tenemos 3 filas (3 – 1) = 2 y 3 columnas (3 – 1) = 2,
Luego grados de libertad (gl) = 2 x 2 = 4
Ho: No hay asociación entre la carrera universitaria y el estar de acuerdo con el programa de capacitación
tecnológica (o La carrera universitaria es independiente el estar de acuerdo con el programa de
capacitación tecnológica)
Hi: Hay asociación entre la carrera universitaria y el estar de acuerdo con el programa de capacitación
tecnológica.
En la tabla Chi-cuadrado buscamos el valor de 𝑋 2 para un nivel de significancia de 0,05 y 4 grados de
libertad, es decir: 𝑋4;0,05
2
Como el 𝑋 2 calculado (4,74) es menor al 𝑋 2 crítico (9,49) se acepta la hipótesis nula. No hay asociación
entre las dos variables de estudio
4,74 9,49
Nota. También la prueba de 𝑋 2 se utiliza como prueba de bondad de ajuste. Consiste en ver en qué medida
se ajustan los datos observados a una distribución teórica o esperada.
Ho: Los datos se ajustan a la distribución teórica.
Hi: Los datos no se ajustan a la distribución teórica.
Si p-valor es mayor a 0,05 se acepta la Ho.
Procedimiento computarizado (SPSS) para el cálculo del coeficiente de contingencia
Paso 1. Creamos una base de datos
Sujeto V1 V2 Sujeto V1 V2 Sujeto V1 V2 Sujeto V1 V2
1 1 3 26 1 3 3 3 3
2 1 3 27 1 2
10
11
2
2
3
3 4 3 3
V1 = Variable carreras universitarias
3 1 3 28 1 2 12 2 3 5 3 3 1 = Ingeniería
13 2 3
4 1 3 29 1 2
14 2 3
6 3 3 2 = Licenciado
5 1 3 30 1 2 7 3 3
6 1 3 31 1 2 15 2 3 8 3 3 3 = Administración
7 1 3 32 1 2 16 2 3 9 3 3
8 1 3 33 1 2 17 2 3 10 3 3
9 1 3 34 1 2 18 2 3 11 3 3 V2: Estar de acuerdo con el programa de
19 2 3
10 1 3 35 1 2
20 2 3
12 3 3 capacitación tecnológica
11 1 3 36 1 2 13 3 3
12 1 3 37 1 1
21 2 2
14 3 3
3 = De acuerdo
22 2 2
13 1 3 38 1 1
23 2 2
15 3 3 2 = Indeciso
14 1 3 39 1 1
24 2 2 16 3 3 1 = En desacuerdo
15 1 3 40 1 1 25 2 2 17 3 3
16 1 3 41 1 1 26 2 1 18 3 3
17 1 3 1 2 3 27 2 1 19 3 3
18 1 3 2 2 3 28 2 1 20 3 3
19 1 3 3 2 3 29 2 1 21 3 2
20 1 3 4 2 3 30 2 1 22 3 2
21 1 3 5 2 3 31 2 1 23 3 2
22 1 3 6 2 3 32 2 1 24 3 2
23 1 3 7 2 3 33 2 1 25 3 1
24 1 3 8 2 3 1 3 3 26 3 1
25 1 3 9 2 3 2 3 3
Paso 2. Introducimos los datos en el programa SPSS
Nota. Ambas variables se introducen tipo Numérica y en Etiqueta colocamos los nombres de las dos
variables. En valores codificamos los indicadores de cada variable (ver lámina anterior).
Paso 3. Analizar → Estadísticos descriptivos → Tablas cruzadas
En Filas colocaremos la variable Carrera universitaria

y en Columnas la otra variable.
En Estadísticos damos clic en Chi cuadrado y
Coeficiente de contingencia.
En Casillas elegimos esperado.
Damos clic en aceptar y aparece los siguientes
resultados:
En esta tabla podemos observar las frecuencias observadas y

frecuencias esperadas. Compárenlas con las obtenidas de manera
manual.
En esta tabla tenemos el 𝑋 2 con su respectivo nivel de significancia.

La razón de verosimilitud 𝑋 2 es una alternativa al estadístico 𝑋 2
cuando el objetivo es contrastar la hipótesis de independencia entre las
variables.
La aplicación de los dos estadísticos pueden llevarnos a la misma
conclusión. sin embargo, en aquellos casos en los que no se produzca
esta coincidencia, elegiremos el estadístico con una significación menor
Otro elemento que reseña la tabla es la nota que aparece al final. En la
práctica se tolera un máximo del 20% de frecuencias esperadas.
Además, la salida del SPSS indica si existe alguna casilla con
frecuencia esperada menor que 5, mostrando el porcentaje que éstas
representan sobre el total de casillas de la tabla. Puede ser útil para
ser considerado un supuesto para la aplicación del Chi cuadrado..
En esta tabla podemos observar el coeficiente de contingencia

acompañado del nivel de significancia.
¿Cómo construir en SPSS una tabla de contingencia sin tener la base de datos?
Cuando no se tiene una matriz de datos procedemos de la siguiente manera para construir una tabla de
contingencia indistintamente del orden. Veamos el siguiente ejemplo:
Está de acuerdo con el programa de capacitación

tecnológica
Ingeniería 26 10 5 41
universitaria
Carrera
Licenciatura 20 5 8 33
Administración 20 4 2 26
Total 66 19 15 100
¿Cómo construir en SPSS una tabla de contingencia sin tener la base de datos?
1. Crear las variables
Se crean tres variables, dos cualitativas que corresponden a

las variables presentes en el estudio, y una variable
cuantitativa que denominaremos frecuencia.
2. Introducimos los datos en las respectivas variables

Observe que en la columna de carrera se ha repetido tres
veces cada carrera universitaria. Y en la columna
De_acuerdo se ha alternado las opciones de la otra variable.
En la columna Frecuencia hemos colocados los valores
correspondientes a los cruces de ambas variables.
Para verificar si hemos colocados los datos correctamente

se procede a generar la tabla de contingencia.
Para tener en cuenta sobre los residuos no tipificados (residuales) y residuos tipificados o estandarizados
Los residuos son las diferencias entre la frecuencia observada y la frecuencia esperada en cada casilla: 𝑟𝑖𝑗 =
𝑜𝑖𝑗 − 𝑒𝑖𝑗 .
En el caso de que el contraste de 𝑋 2 haya resultado significativo, estos residuos indicarán qué casillas
contribuyen en mayor grado al valor del estadístico. Cuanto mayor sea el valor de los residuos mayor es la
probabilidad de que una determinada combinación de valores de las variables, esto es, una casilla, sea
significativa.
Para que el análisis de los residuos resulte adecuado es necesario que previamente éstos hayan sido
ajustados y estandarizados, para lo cual se suele aplicar la fórmula propuesta por Haberman (1978), que
consiste en dividir el valor del residuo en cada casilla por su error típico.
Residuos no tipificados: Diferencia entre la frecuencia observada y la esperada.
𝒓𝒊𝒋 = 𝒐𝒊𝒋 − 𝒆𝒊𝒋
Residuos tipificados: Resulta del cociente entre el residuo no tipificado por la raíz cuadrada de su
correspondiente de su frecuencia esperada. Los residuos tipificados, que son conocidos también como los
residuos estandarizados o de Pearson, tienen una media de 0 y una desviación típica de 1.
𝒐𝒊𝒋 − 𝒆𝒊𝒋
𝒓𝒊𝒋 =
𝒆𝒊𝒋
Residuos tipificados corregidos: Estos residuos se distribuyen normalmente con media 0 y desviación típica
1. Se calculan dividiendo el residuo de cada casilla por su error típico.
𝒐𝒊𝒋 − 𝒆𝒊𝒋
𝒓𝒊𝒋 𝒆𝒊𝒋
𝒅𝒊𝒋 = =
𝑽(𝒓𝒊𝒋 ) 𝑵∎𝒋
𝑵
𝟏 − 𝑵𝒊∎ 𝟏 − 𝑵
¿Cómo analizar los residuos estandarizados corregidos?
Los comparamos con el nivel de confianza (1 – a) o nivel
de significancia (a) elegido. En nuestro ejemplo, es con
el 0,95 o 0,05 que en presenta un valor de 1,96.
Al comparar los residuos corregidos de cada casilla con
Re el valor de 1,96; si están fuera de ±1,96 decimos que
existe una alta relación.
En nuestro ejemplo, nótese que en ninguna de las
casillas los residuos estandarizados corregidos son
mayores a ± 1,96. Por tanto, hay evidencia para señalar
que no hay relación entre los indicadores de las
variables analizadas.
El valor positivo indica una relación directa, y el valor
negativo una relación inversa.
Ejercicio de repaso. A continuación se presenta la siguiente tabla en el que se desea conocer si existe
asociación entre el estilo y el rendimiento académico entre un grupo de 20 estudiantes.
Sujeto Estilos de aprendizaje Rendimiento académico
1 Visual Bajo
2 Visual Bajo
3 Kinestésico Alto
4 Auditivo Alto
5 Auditivo Medio
6 Visual Medio
7 Kinestésico Alto
8 Visual Bajo
9 Auditivo Bajo
10 Kinestésico Alto
11 Auditivo Alto
12 Visual Medio
13 Kinestésico Medio
14 Visual Medio
15 Visual Bajo
16 Kinestésico Alto
17 Visual Alto
18 Kinestésico Bajo
19 Visual Medio
20 Auditivo Medio
El coeficiente de correlación de Spearman (𝑟𝑠 ) es una medida no paramétrica de asociación lineal que utiliza los
rangos, números de orden, de cada grupo de sujetos y compara dichos rangos. Es decir, se utiliza para conocer el
grado y el sentido de la relación que existe entre dos variables medidas en un nivel ordinal.
Si la medición de ambas variables se encuentra en un nivel de intervalos pero no se cumple con las
condiciones que requiere la aplicación de la prueba de correlación de Pearson, la prueba de Spearman en
una buena alternativa pues tiene casi la misma potencia. Por tanto, no se requiere una distribución normal
de los datos para la correlación de Spearman.
La fórmula es la siguiente:
𝟔 σ 𝒅𝟐𝒊
𝒓𝒔 = 𝟏 −
𝐧(𝒏𝟐 − 𝟏)
Donde di es la diferente entre el valor ordinal de X y el valor ordinal de Y; n es el numero de observaciones
registradas.
Ejemplo. A continuación se muestra las calificaciones de 15 estudiantes obtenidas de dos asignaturas:
X1 X2
14 14
17 10
8 8
17 15
10 6
10 4
12 10
10 8
20 10
9 7
10 9
17 4
13 14
10 12
17 5
Procedimiento manual para el cálculo del coeficiente de correlación de Spearman
Paso 1. Se ordenan de Paso 2. Se enumera Paso 3. Se promedian los Paso 4.. Los valores originales de las
menor a mayor los en forma decreciente rangos empatados según variables se sustituyen por los rangos
datos los datos de cada los datos originales correspondientes. En caso de
variable empates se promedian los rangos.
X1 X2 X1 X2 X1 X2 X1 X2 X1 X2
8 4 1 1 1 1,5 14 14 10 13,5
9 4 2 2 2 1,5 17 10 12,5 10
10 5 3 3 5 3 8 8 1 6,5
10 6 4 4 5 4 17 15 12,5 15
10 7 5 5 5 5 10 6 5 4
10 8 6 6 5 6,5 10 4 5 1,5
10 8 7 7 5 6,5 12 10 8 10
12 9 8 8 8 8 10 8 5 6,5
13 10 9 9 9 10 20 10 15 10
14 10 10 10 10 10 9 7 2 5
17 10 11 11 12,5 10 10 9 5 8
17 12 12 12 12,5 12 17 4 12,5 1,5
17 14 13 13 12,5 13,5 13 14 9 13,5
17 14 14 14 12,5 13,5 10 12 5 12
20 15 15 15 15 15 17 5 12,5 3
Procedimiento manual para el cálculo del coeficiente de correlación de Spearman
Paso 5. Se elabora la siguiente Paso 6. Calculamos el Paso 7. Interpretación del

tabla y se calcula el desvío al coeficiente de correlación coeficiente de correlación
cuadrado de Spearman obtenido.
X1 X2 d 𝒅𝟐
10 13,5 -3,5 12,25 6 σ 𝑑𝑖2
12,5 10 2,5 6,25
𝑟𝑠 = 1 − El valor 0,289 obtenido
𝑛(𝑛2 − 1)
1 6,5 -5,5 30,25 evidencia un grado de
12,5 15 -2,5 6,25 asociación positiva baja entre
5 4 1 1 6 ∗ 398 las asignaturas X1 y X2. El
𝑟𝑠 = 1 − = 0,289
5 1,5 3,5 12,25 15 ∗ 152 − 1 hecho que el 𝑟𝑠 dio positivo
8 10 -2 4 indica que a puntajes altos en
5 6,5 -1,5 2,25 X1 se asocia puntajes altos en
15 10 5 25 X2.
2 5 -3 9
5 8 -3 9
12,5 1,5 11 121
9 13,5 -4,5 20,25
5 12 -7 49
12,5 3 9,5 90,25
S = 398
Procedimiento computarizado (SPSS) para el cálculo del coeficiente de correlación de Spearman
Paso 1. Colocamos las variables a analizar Paso 3. Para hallar el coeficiente de correlación de
en la vista de variables Spearman: Analizar → Correlacionar → Bivariada
Paso 2. Agregamos los datos a cada variable

en vista de datos
Pasamos las variables al recuadro Variables
Damos Aceptar y nos aparece los resultados

Procedimiento computarizado (SPSS) para el cálculo del coeficiente de correlación de Spearman
Además del coeficiente de correlación de Spearman, el SPSS nos aporta el dato de significancia, el cual
permite contrastar la hipótesis nula (Ho: No existe asociación significativa entre las variables) Vs. la
hipótesis alternativa (Hi: Existe asociación significativa entre las variables). Para aceptar la Ho el valor de
significancia debe ser mayor al valor teórico asumido, generalmente, es 0,05.
En nuestro caso, el valor de significancia (o p-valor) resultó ser mayor a 0,05; por tanto, existe evidencia
estadística para aceptar Ho, es decir, no existe asociación entre las asignaturas X1 y X2.
Ejercicio de repaso. A continuación se presentan en la tabla los datos de 15 mujeres. Indagar si existe
asociación estadísticamente significativa entre el coeficiente intelectual y el tamaño del cerebro
Coeficiente Tamaño del cerebro (miles de mega

Sujeto
intelectual pixeles en imagen de escáner)
1 133 817
2 137 952
3 99 929
4 138 991
5 92 854
6 132 834
7 140 856
8 98 879
9 83 865
10 135 791
11 91 832
12 85 799
13 77 794
14 130 867
15 133 868
La correlación de Phi (∅) es determinar si existe una asociación entre dos variables a nivel nominal con dos
valores cada una (dicotómico) y que esta relación no sea debida al azar; es decir, que la relación sea
estadísticamente significativa.
Se utiliza cuando la tabla de contingencia es de orden 2 x 2.
La fórmula del coeficiente Phi es:

𝒏𝟏,𝟏 ∗ 𝒏𝟎,𝟎 ∗ −𝒏𝟏,𝟎 + 𝒏𝟎,𝟏
𝝋= − 𝟏 ≤ 𝝋 ≤ +𝟏
𝒏𝟏,𝟏 + 𝒏𝟎,𝟏 ∗ 𝒏𝟏,𝟎 + 𝒏𝟎,𝟎 ∗ 𝒏𝟏,𝟏 + 𝒏𝟏,𝟎 ∗ (𝒏𝟎,𝟏 + 𝒏𝟎,𝟎 )
Y
Y1 = 1 Y2 = 0 𝑛1,1 = verdaderos positivos
X1 = 1 𝑛1,1 𝑛1,0 𝑛1,1 + 𝑛1,0 𝑛1,0 = falsos positivos
X 𝑛0,1 = falsos negativos
X2 = 0 𝑛0,1 𝑛0,0 𝑛0,1 + 𝑛0,0
𝑛0,0 = verdaderos negativos.
𝑛1,1 + 𝑛0,1 𝑛1,0 + 𝑛0,0 N
(1) Variable presente (0) Variable ausente

Prueba diagnóstica: A través de la tabla 2 x 2 se pueden calcular los atributos de la prueba diagnóstica,
como sigue:
1. Sensibilidad: Es la proporción de individuos enfermos en los que la prueba es positiva y se obtiene como
sigue:
𝑺𝒆𝒏𝒔𝒊𝒃𝒊𝒍𝒊𝒅𝒂𝒅 = 𝒏𝟏,𝟏 /(𝒏𝟏,𝟏 + 𝒏𝟎,𝟏 ).
2. Especificidad: Es la proporción de individuos sanos en los que la prueba es negativa y se obtiene así
𝑬𝒔𝒑𝒆𝒄𝒊𝒇𝒊𝒄𝒊𝒅𝒂𝒅 = 𝒏𝟎,𝟎 / (𝒏𝟏,𝟎 + 𝒏𝟎,𝟎 ).

3. Valor de predicción positivo: Se enuncia como la capacidad que tiene una prueba, cuando es positiva, de
predecir que el paciente tiene la enfermedad y se puede estimar dividiendo a los verdaderos positivos (a)
entre los verdaderos y falsos positivos:
𝒏𝟏,𝟏
𝑽𝑷𝑷 =
𝒏𝟏,𝟏 + 𝒏𝟏,𝟎
4. Valor de predicción negativo: Es la capacidad de una prueba diagnóstica, cuando es negativa, de
predecir que el paciente no tiene la enfermedad y se estima dividiendo a los verdaderos negativos entre
los falsos y verdaderos negativos:
𝒏𝟎,𝟎
𝑽𝑷𝑵 =
𝒏𝟎,𝟏 + 𝒏𝟎,𝟎
5. La exactitud o eficiencia de una prueba diagnóstica utiliza todos los valores de la tabla 2 X 2 y se
obtiene dividiendo la suma de los verdaderos positivos con los verdaderos negativos entre la suma de
todos los valores, de la siguiente manera:
𝒏𝟏,𝟏 + 𝒏𝟎,𝟎
𝑬𝒙𝒂𝒄𝒕𝒊𝒕𝒖𝒅 =
𝒏𝟏,𝟏 + 𝒏𝟏,𝟎 + 𝒏𝟎,𝟏 + 𝒏𝟎,𝟎
Ejemplo. Se desea saber si existe asociación entre el consumo de alcohol del padre y el consumo de alcohol
de estudiantes en la universidad.
Consumo de alcohol del padre

Bebedor No bebedor Total
Consumo de alcohol Bebedor 21 9 30
del estudiante No bebedor 30 80 110
Total 51 89 140
𝑛1,1 ∗ 𝑛0,0 ∗ −𝑛1,0 + 𝑛0,1 21 ∗ 80 − 9 ∗ 30

𝜑= = = 0,364
51 ∗ 89 ∗ 30 ∗ 110
𝑛1,1 + 𝑛0,1 ∗ 𝑛1,0 + 𝑛0,0 ∗ 𝑛1,1 + 𝑛1,0 ∗ (𝑛0,1 + 𝑛0,0 )
Ho: No existe asociación entre el consumo de alcohol del padre y el consumo de alcohol de estudiantes
universitarios.
Hi: Existe asociación entre el consumo de alcohol del padre y el consumo de alcohol de estudiantes
universitarios.
Procedimiento computarizado (SPSS) para el cálculo del coeficiente de correlación Phi
Paso 1. Colocamos las variables en Vista de Variables Paso 3. Calculamos el coeficiente Phi
Analizar → Estadísticos descriptivos → Tabla cruzadas
Paso 2. Colocamos los datos en Vista de Datos
Pasamos las variables a los recuadros. En Estadísticos

seleccionamos Phi. Luego damos Aceptar
.
Procedimiento computarizado (SPSS) para el cálculo del coeficiente de correlación Phi
Dado que el valor de significancia es menor a 0,05 se concluye que existe asociación entre el consumo de
alcohol del padre y el consumo de alcohol de estudiantes universitarios; además, la asocicipon entre ambas
variables es positiva baja (∅ = 0,364).
Ejercicio de repaso. En una investigación se estudió la aceptación o no del tratamiento psicológico por parte
de pacientes que presentaban dos tipos de trastornos psicológicos. En la tabla se muestran los resultados
del estudio Sujeto Aceptación del tratamiento Trastorno psicológico
1 Si Depresión
2 Si Depresión
3 No Trastorno de personalidad
4 Si Depresión
5 Si Trastorno de personalidad
8 No Depresión
9 No Depresión
11 Si Depresión
13 No Depresión
14 Si Depresión
17 No Depresión
19 No Depresión
La correlación biserial puntual (𝑟𝑏𝑝 ) se utiliza cuando se tiene una variable auténticamente dicotómica y
una variable (X) cuantitativa continua, no se distribuyen normalmente, por lo que no es necesario conocer
el valor de y.
Las fórmulas son las siguientes (cualquiera se puede utilizar):
𝑥ҧ𝑝 − 𝑥ҧ𝑞
𝑟𝑏𝑝 = ∗ 𝑝∗𝑞 − 1 < 𝑟𝑏𝑝 < 1
𝜎𝑋
𝑥ҧ𝑝 − 𝑥ҧ 𝑝
𝑟𝑏𝑝 = ∗
𝜎𝑋 𝑞
𝑥ҧ𝑝 = media de la muestra que acertaron el ítem (X = 1) – variable dicotómica

𝑥ҧ𝑞 = media de la muestra que no acertaron el ítem (X = 0) – variable dicotómica
𝑥ҧ = media de todos los casos en la variable X
p = proporción de personas que acertaron en el ítem – variable dicotómica
q = proporción de personas que no acertaron en el ítem – variable dicotómica
𝜎𝑋 = desviación estándar de los puntajes totales pertenecientes a la muestra con los valores de la variable
continua (X)
Si 𝑥ҧ𝑝 > 𝑥ҧ𝑞 y la diferencia 𝑥ҧ𝑝 - 𝑥ҧ𝑞 es positiva. Esto quiere decir que los sujetos que puntúen alto en Y
(variable cuantitativa) tenderán a pertenecer a la modalidad p. Los que puntúen bajo en Y tenderán a
pertenecer a la modalidad q.
Si 𝑥ҧ𝑝 < 𝑥ҧ𝑞 y la diferencia 𝑥ҧ𝑝 - 𝑥ҧ𝑞 es negativo la interpretación se realiza a la inversa: a puntuación alta en Y
le corresponderá la modalidad q y, a puntuación baja en X, la modalidad p.
Ejemplo. Supongamos que se aplicó una encuesta a un grupo de 10 empleados de la empresa DATA con la
finalidad de conocer si existe correlación entre la satisfacción personal y el rendimiento laboral (si / no). Se
asume que ambas variables no siguen una distribución normal. Los datos se muestra a continuación:
Rendimiento Satisfacción
laboral personal (X)
0 55
0 57
1 60
1 62
0 57
0 59
1 59
1 60
0 56
1 58
Si = 1 No = 0
Paso 1. Calculamos la media por grupo ( p → 1 q → 0)
60 + 62 + 59 + 60 + 58 299 55 + 57 + 57 + 59 + 56 284
𝑥ҧ𝑝 = = = 59,8 𝑥ҧ𝑞 = = = 56,8
5 5 5 5
Paso 2. Calculamos los valores de p y q
𝑛𝑝 5 𝑛𝑞 5
𝑝= = = 0,5 𝑞= = = 0,5
𝑁 10 𝑁 10
Paso 3. Calculamos la desviación estándar de la variable cuantitativa
X 𝑿𝟐
55 3025
57 3249 σ 𝑋 583
60 3600 𝑋ത = = = 58,3
𝑁 10
62 3844
57 3249
59 3481 σ 𝑋2 34029
59 3481 𝜎𝑋 = − 𝑋ത 2 = − 58,3 2 = 2,00
𝑁 10
60 3600
56 3136
58 3364
S = 583 S = 34029
Paso 4. Calculamos el coeficiente de correlación biserial – puntual
𝑥ҧ𝑝 − 𝑥ҧ𝑞
𝑟𝑏𝑝 = ∗ 𝑝∗𝑞
𝜎𝑋
59,8 − 56,8
𝑟𝑏𝑝 = ∗ 0,5 ∗ 0,5
2,00
𝑟𝑏𝑝 = 0,775
Existe una correlación positiva alta entre la satisfacción personal y el rendimiento laboral en los empleados
de la empresa DATA; es decir, en la medida que aumenta el rendimiento laboral aumenta la satisfacción
laboral del empleado.
Procedimiento mediante el uso del SPSS
Analizar → Correlación → Bivariadas Se pasan las dos variables al cuadro siguiente.

Damos Aceptar
Ho: No hay relación entre la satisfacción laboral y el rendimiento laboral en los empleados de la empresa DATA.
Hi: Existe relación entre la satisfacción laboral y el rendimiento laboral en los empleados de la empresa DATA.
Interpretación. Como el valor de significancia resultó ser menor a 0,05 se rechaza Ho. Se concluye que
existe relación positiva alta (rbp = 0,749) entre la satisfacción personal y el rendimiento laboral en los
empleados de la empresa DATA; es decir, en la medida que aumenta el rendimiento laboral aumenta la
satisfacción laboral del empleado.
El coeficiente de correlación biserial (𝑟𝑏 ), se utiliza cuando se desea conocer la correlación existente entre
dos variables, de las cuales, una ha sido considerada como escala de intervalos o de razón y la otra resulta
ser una variable dicotómica o dicotomizada. Ambas variables siguen una distribución normal.
Las fórmulas empleadas para calcular el coeficiente de correlación biserial son las siguientes:
ഥ𝒑 − 𝒙
𝒙 ഥ𝒒 𝒑 ∗ 𝒒
𝒓𝒃 = ∗ − 𝟏 < 𝒓𝒃𝒑 < 𝟏
𝝈𝒙 𝒚
ഥ 𝒑∗𝒒
ഥ𝒑 − 𝑿
𝒙
𝒓𝒃 = ∗
𝝈𝒙 𝒚
𝑥ҧ𝑝 = puntuación media para pares de datos de la categoría p
𝑥ҧ𝑞 = puntuación media para pares de datos de la categoría q
p = proporción de pares de datos para la categoría p
q = proporción de pares de datos para la categoría q
𝜎𝑥 = desviación estándar de la variable cuantitativa
y = altura de la ordenada que separa en la curva normal a las proporciones p y q
Ejemplo. Se ha medido la estatura (X) y el peso (Y) a un grupo de 10 individuos dividiéndolos según el peso
en obesos (peso superior a la mediana) y delgados (peso inferior a la mediana). Se desea conocer si existe
alguna relación entre peso y altura. Los resultados de la estatura se muestran a continuación
174 – 170 – 169 – 166 – 160 – 155 – 176 – 172 – 164 – 168
Solución. Como una de las variables cuantitativas ha sido dicotomizada (como es el caso del peso) se aplica
el coeficiente de correlación biserial.
Paso 1. Se ordenan los datos de menor a mayor y se determina la mediana.
155 – 160 – 164 – 166 – 168 – 169 – 170 – 172 – 174 – 176
Se encuentra entre los datos X5 y X6. Por tanto, las primeras cinco estatura el peso de los individuos se consideran
delgados (p) y las otras cinco estaturas el peso de los individuos se consideran obesos (q).
X 155 160 164 166 168 169 170 172 174 176
Y 0 0 0 0 0 1 1 1 1 1
Paso 2. Calculamos las medias de p y q
169 + 170 + 172 + 174 + 176 861 155 + 160 + 164 + 166 + 168 813
𝑥ҧ𝑝 = = = 172,2 𝑥ҧ𝑞 = = = 162,6
5 5 5 5
Paso 3. Calculamos p y q
𝑛𝑝 5 𝑛𝑞 5
𝑝= = = 0,5 𝑞= = = 0,5
𝑁 10 𝑁 10
Paso 4. Calculamos la desviación estándar de la variable cuantitativa
X Y 𝑿𝟐
155 0 24025
160 0 25600 σ 𝑋 1674
164 0 26896 𝑋ത = = = 167,4
166 0 27556 𝑁 10
168 0 28224
169 1 28561
170 1 28900 σ 𝑋2 280598
172 1 29584 𝜎𝑋 = − 𝑋ത 2 = − 167,4 2 = 6,09
𝑁 10
174 1 30276
176 1 30976
S = 1674 S = 280598
Paso 5. Buscamos y que es la altura de la ordenada que separa en la curva normal a las proporciones p y q
Ver Libro de Ramón

Pérez Juste.
Estadística aplicada a p = 0,50
las ciencias sociales
q = 0,50
Paso 6. Calculamos el coeficiente de correlación biserial
𝑥ҧ𝑝 − 𝑥ҧ𝑞 𝑝 ∗ 𝑞
𝑟𝑏 = ∗
𝜎𝑥 𝑦
172,2 − 162,6 0,5 ∗ 0,5

𝑟𝑏 = ∗ = 0,988
6,09 0,3989
Existe una relación positiva muy alta entre la estatura y el peso, es decir, en la medida que aumenta la
estatura aumenta el peso de la persona.
Ejercicio de repaso. Tenemos las puntuaciones totales de 10 sujetos que han contestado a una prueba objetiva (X) cuya
calificación oscila entre 1 y 10; además sabemos si han acertado (1) o fallado (0) un ítem Y. Suponga que las variables
siguen una distribución normal. Qué resultados esperaría sino siguieran una distribución normal.
X Y
1 0
1 1
2 0
2 0
3 1
4 1
6 1
6 1
8 1
10 1
El método más común de determinar si existe asociación lineal entre dos variables cuantitativas continuas
es el Análisis de Correlación de Pearson. Con este método se obtiene el Coeficiente de Correlación de
Pearson, usualmente representado por la letra R. Como suele utilizarse una muestra, lo que se obtiene en
realidad es un estimado del coeficiente de correlación poblacional, r.
Dos aspectos importantes del coeficiente de correlación son su magnitud y su signo. La magnitud refleja la
intensidad de la asociación entre las dos variables; el valor absoluto de la magnitud puede variar entre cero
y uno. Valores cercanos a cero indican que las variables no están asociadas, es decir, que el valor de una
variable es independiente del valor de la otra.
El signo, por su parte, refleja cómo están asociados los valores de ambas variables. Si el signo es positivo
indica que a valores altos de una variable corresponden valores altos de la otra, o a valores bajos de una
variable corresponden valores bajos de la otra. Si el signo es negativo, indica que a valores altos de una
variable corresponden valores bajos de la otra. Es decir, el sigo positivo indica que los valores de ambas
variables cambian en el mismo sentido, mientras que el signo negativo indica que cambian en sentido
contrario.
El valor del coeficiente de correlación de Pearson oscila entre -1 y 1

Para el caso del coeficiente de correlación poblacional o coeficiente de correlación de momento-producto o
correlación de Pearson se denota con la letra 𝝆 (rho), y en el caso de la muestra con la letra r. Este tipo de
coeficiente se utiliza para medir el grado de asociación lineal entre las variables X e Y. Se expresa de la
siguiente manera
𝑪𝒐𝒗(𝑿, 𝒀) 𝐧 σ 𝐗𝐘 − σ 𝐗 σ 𝐘
𝐫= =
𝑺𝒙 . 𝑺𝒚 𝐧 σ 𝐗 𝟐 − (σ 𝐗)𝟐 𝐧 σ 𝐘 𝟐 − (σ 𝐘)𝟐
Cov (X,Y) es la covarianza de ambas variables X, Y
Sx y Sy son las desviaciones estándares de las variables X y Y respectivamente.

Ejemplo. Se selecciona 5 estudiantes con el propósito de determinar qué tipo de relación existe entre el
rendimiento académico (X) y el tiempo dedicado al ocio (Y) (horas/semana), obteniéndose los siguientes
resultados:
Rendimiento académico, X Tiempo dedicado al ocio, Y

4 30
7 22
8 20
5 28
5 23
Procedimiento manual para el cálculo del coeficiente de correlación de Pearson
Paso 1. Hallar los siguientes datos: σ 𝑋𝑌, σ 𝑋 2 , σ 𝑌 2 , 𝑋,
ത 𝑌ത
X Y XY 𝐗𝟐 𝐘𝟐
4 30 120 16 900
7 22 154 49 484
8 20 160 64 400
5 28 140 25 784
5 23 115 25 529
S 29 123 689 179 3097
Paso 2. Aplicamos la fórmula:
n σ XY − σ X σ Y 5 𝑥 689 − 29 𝑥 123
r= = = −0,88
2 2 2
n σ X − (σ X) n σ Y − (σ Y)2 5 𝑥179 − (29)2 𝑥 5 𝑥3097 − (123)2
Procedimiento manual para el cálculo del coeficiente de correlación de Pearson
Paso 3. Interpretación del coeficiente de correlación de Pearson
El coeficiente r obtenido es -0,88; por tanto, existe una relación negativa alta entre el rendimiento
académico y tiempo dedicado al ocio.
Paso 4. Construcción del diagrama de dispersión X Vs. Y
Nótese que en el diagrama de

dispersión aparece la línea de
tendencia, con sus respectiva ecuación
de regresión lineal ( 𝒀
෡ = 𝜷𝟎 + 𝜷𝟏 𝑿 ) y
coeficiente de determinación (𝑹𝟐 ).
Procedimiento computarizado (SPSS) para el cálculo del coeficiente de correlación de Pearson
Paso 1. Colocamos las variables en Vista de Variables
Paso 2. Colocamos los datos en Vista de Datos
Paso 3. Calculamos el coeficiente de correlación de Pearson
Analizar → Correlacionar → Bivariadas
Pasamos las variables al recuadro Variables. Dejamos por defecto Pearson. Damos Aceptar
Procedimiento computarizado (SPSS) para el cálculo del coeficiente de correlación de Pearson
Paso 4. Obtenemos la siguiente tabla de resultados
Ejercicio de repaso. En la tabla siguiente se indica la edad (en años) y la conducta agresiva (medida en una
escala de cero a 10) de 12 niños
Conducta
Sujeto Edad
agresiva
1 6 2
2 7 4
3 8 3
4 10 4
5 9 5
6 11 6
7 10 7
8 8 5
9 8 5
10 9 6
11 12 7
12 7 4
Obtener el coeficiente de correlación de Pearson e interpretar el resultado.

Clase 3c. Análisis de Datos - Correlación de Variables

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase 3c. Análisis de Datos - Correlación de Variables

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL EXPERIMENTAL DEL TÁCHIRA

Prof. José Alexy Moros Briceño

Según la formula anterior, el coeficiente de Contingencia se basa en el estadístico 𝑋 2

Está de acuerdo con el programa de

Está de acuerdo con el programa de

Licenciatura 21,8 6,3 5 33

Está de acuerdo con el programa de

Licenciatura 20 / 21,8 5 / 6,3 8/5 33

Ho: Las variables A y B son independientes

H1: Las variables A y B no son independientes

Al momento de utilizar al programa o paquete estadístico, si p-valor< a se rechaza la hipótesis nula de

En Filas colocaremos la variable Carrera universitaria

En esta tabla podemos observar las frecuencias observadas y

En esta tabla tenemos el 𝑋 2 con su respectivo nivel de significancia.

En esta tabla podemos observar el coeficiente de contingencia

Está de acuerdo con el programa de capacitación

Se crean tres variables, dos cualitativas que corresponden a

2. Introducimos los datos en las respectivas variables

Para verificar si hemos colocados los datos correctamente

Paso 5. Se elabora la siguiente Paso 6. Calculamos el Paso 7. Interpretación del

Paso 2. Agregamos los datos a cada variable

Damos Aceptar y nos aparece los resultados

Coeficiente Tamaño del cerebro (miles de mega

La fórmula del coeficiente Phi es:

(1) Variable presente (0) Variable ausente

𝑺𝒆𝒏𝒔𝒊𝒃𝒊𝒍𝒊𝒅𝒂𝒅 = 𝒏𝟏,𝟏 /(𝒏𝟏,𝟏 + 𝒏𝟎,𝟏 ).

𝑬𝒔𝒑𝒆𝒄𝒊𝒇𝒊𝒄𝒊𝒅𝒂𝒅 = 𝒏𝟎,𝟎 / (𝒏𝟏,𝟎 + 𝒏𝟎,𝟎 ).

Consumo de alcohol del padre

𝑛1,1 ∗ 𝑛0,0 ∗ −𝑛1,0 + 𝑛0,1 21 ∗ 80 − 9 ∗ 30

Paso 2. Colocamos los datos en Vista de Datos

Pasamos las variables a los recuadros. En Estadísticos

𝑥ҧ𝑝 = media de la muestra que acertaron el ítem (X = 1) – variable dicotómica

Analizar → Correlación → Bivariadas Se pasan las dos variables al cuadro siguiente.

Ver Libro de Ramón

Paso 6. Calculamos el coeficiente de correlación biserial

172,2 − 162,6 0,5 ∗ 0,5

El valor del coeficiente de correlación de Pearson oscila entre -1 y 1

Cov (X,Y) es la covarianza de ambas variables X, Y

Sx y Sy son las desviaciones estándares de las variables X y Y respectivamente.

Rendimiento académico, X Tiempo dedicado al ocio, Y

Paso 4. Construcción del diagrama de dispersión X Vs. Y

Nótese que en el diagrama de

Obtener el coeficiente de correlación de Pearson e interpretar el resultado.

También podría gustarte