Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Apuntes
Apuntes
Medidas de asociación
4.1. Introducción
En el tema anterior hemos visto la manera de realizar un contraste Chi-cuadrado, para ver si dos variables
están o no asociadas. Este contraste sólo nos informa de la presencia de asociación, pero no nos dice si es
alta o baja.
En el caso de rechazar la hipótesis de independencia, el siguiente paso sería calcular algún valor que mida la
intensidad de la asociación, es decir, indique cómo de dependientes son las variables la una de la otra. A
continuación vamos a mostrar distintos coeficientes que sirven para medir esta intensidad. Diferenciamos el
caso de las tablas 2x2 y los generales de tablas rxc.
1
4.2.1. Coeficiente Phi de Pearson
Este coeficiente está basado en el valor chi-cuadrado, que vimos como se calculaba en el tema anterior.
( f ij eij ) 2
Recordamos que exp
2
. Para las tablas 2x2 podemos utilizar la forma alternativa para el
i j eij
cálculo de Chi-cuadrado:
( f11 f 22 f12 f 21 ) 2 n
exp
2
f1 . f 2 . f .1 f .2
Se define el coeficiente Phi, de la forma siguiente:
2
( f ij eij ) 2 (100 69,474) 2 (20 50,526) 2 (10 40,53) 2 (60 29,47) 2
2
exp
i j eij
69,474
50,526
40,53
29,47
=13,413
Observamos que el valor es positivo (dependencia directa) y, en efecto, aparecen muchos más datos en la
diagonal principal f11 y f22 que en la otra diagonal. Vemos que el valor es moderado-alto (cerca de 0,7).
Si tuviéramos un valor del observador A, sabiendo el tipo de resultado, podríamos tratar de predecir su
resultado por el observador B. La mayoría de los que tienen un resultado A por el observador A, también
obtienen un resultado A por el observador B (e igual con los resultados de B). Cuantos más casos en la
diagonal principal, mayor valor de Phi y más fácil la predicción.
El RRcolumnas > 1, nos dice que existe asociación positiva. Nos dice que es 5,8333 veces más fácil tener un
valor A por el observador A cuando se tiene un valor A por el observador B que si se tiene un valor B por el
observador B.
3
El riesgo relativo por filas se calcula mediante la siguiente formula:
P(ObB _ A / ObA _ A) 100 / 110 100 x80 8000
RR filas = 3,6364
P(ObB _ A / ObA _ B ) 20 / 80 20 x110 2200
El RRfilas > 1, nos dice que existe asociación positiva. Nos dice que es 3,6364 veces más fácil tener un valor
A por el observador B cuando se tiene un valor A por el observador A que si se tiene un valor B por el
observador A.
C1 es la razón de casos en que se presenta A y los que no se presenta A cuando está presente B.
C2 es la razón de casos A y no A cuando no está presente el factor B.
Conviene observar que la Razón de productos cruzados es una medida no simétrica. Es decir, A es la variable
dependiente y B la independiente. Podemos interpretarlo en la forma siguiente:
El RC = 1, implica que hay la misma razón de casos que aparece A y A , cuando está B, que cuando no
está presente B,
El RC < 1, implica que la razón entre los casos que aparecen A y A es menor cuando está presente B.
El RC > 1, implica que la razón entre los casos que aparecen A y A es mayor cuando está presente B.
C 2 /( 2 n)
Vemos como se sigue basándose en el estadístico Chi-cuadrado. Este coeficiente cuando vale 0 indica
independencia absoluta, pero el máximo, cuando la tabla tiene c columnas y r filas es:
Min{r 1, c 1}
Max {C}=
1 Min{r 1, c 1}
4
Ejemplo 4.2. Aborto
Para analizar si el estado civil no era una variable relevante a la hora de explicar las actitudes abortistas, se
ha encuestado a 500 sujetos obteniendo los resultados que aparecen en la tabla siguiente.
Calculamos las frecuencias esperadas y vemos que hay más solteros con actitud abortista de lo esperado (y
menos contrarios al aborto); hay menos casados con esta actitud que lo esperado y algunos divorciados más.
Por tanto hay relación entre las variables.
Tabla 4.3. Frecuencias esperadas
Actitud Actitud
Abortista antiabortista
Solteros (150x200)/500=60 (150x300)/500=90
Casados (250x200)/500=100 (250x300)/500=150
Divorciados (200x100)/500=40 (300x100)/500=60
Al calcular el valor Chi-cuadrado, se obtiene un valor estadísticamente significativo (se puede comprobar
mirando la tabla para 2 grados de libertad:
( f ij eij ) 2
2
exp 60 + 40 + 25 + 16,67 + 2,5 + 1,667 = 145,83
i j eij
Y el coeficiente C se calcula mediante la siguiente formula:
4.3.2. V de Cramer
Este coeficiente se calcula mediante la siguiente formula:
V 2 / n( p 1)
Siendo p = Min {número de filas, número de columnas}.
Este coeficiente varía entre 0 y 1, siendo 0 en caso de independencia y 1 en caso de dependencia perfecta.
5
V 2 / n( p 1) = 145,83 / 500 x ( 2 1) 0,29166 = 0,54
Es decir, f mj f max
n f max
Siendo: fmax es la mayor frecuencia marginal en filas y fmj es la frecuencia máxima en la columna j-ésima.
Supongamos que queremos predecir el estado civil de una persona al azar en esta muestra, sin saber
nada sobre su actitud respecto al aborto. Como la máxima frecuencia marginal en filas es la
correspondiente a casados (250), diríamos que es casado. La probabilidad de error en este caso sería
n f max 500 250
P( 1 ) =1/2; pues nos equivocaríamos con los solteros y divorciados.
n 500
6
Si nos dicen cuál es la actitud de la persona, predeciríamos que es soltero (si tiene actitud abortista) o
casado (si no la tiene). La probabilidad de error ahora sería
P ( 2 )
n f mj 500 (120 200) 180
0,36 . Hemos reducido el error de predicción,
n 500 500
ahora sólo nos equivocamos en el 36% de los casos, en vez de la mitad
1 2 0,5 0,36 0,14
El cociente =0,28
1 0,5 0,5
En resumen, el coeficiente Lambda de Goodman y Kruskal se calcula mediante la siguiente formula:
f mj f max
=
(120 200) 250
= 0,28
n f max 500 250
Siendo: fm+ es la mayor frecuencia marginal en filas y fmj es la mayor frecuencia en la columna j-ésima.
Hemos reducido un 28% con respecto al error que teníamos.
( f ij eij ) 2
El valor chi-cuadrado es:
2
exp 23,80. Los grados de libertad son 3. Para 3
i eij
j
grados de libertad, la tabla me indica que el valor 12,84 tiene una probabilidad menor que 0,005. Por tanto
el contraste es estadísticamente significativo y hay asociación entre profesor y aprobados/suspensos.
Pacientes curados
Método A Método B Método C Total
Sin hermanos disléxicos 0 6 14 20
Con hermanos 10 16 4 30
disléxicos
Total 10 22 18 50
( f ij eij ) 2
El valor chi-cuadrado es: exp 18.86
2
i j eij
Min{r 1, c 1}
El máximo es: Max {C}= = 0,7071
1 Min{r 1, c 1}
(�f mj ) f m
La lambda de Goodman y Kruskal: x = 0,5
N f m
Se puede concluir que todos los coeficientes están por encima de la mitad del rango que pueden tomar, sin
llegar a ser el máximo. Podría decirse que resulta una asociación moderada-alta.