Está en la página 1de 26

Asociación entre dos

variables categóricas
Introducción
 En la parte dos, aprendimos como tabular
una distribución de frecuencias para una
variable categórica. Esta tabulación muestra
como los individuos están distribuidos en
cada categoría de una variable.
 Por ejemplo, en una comunidad rural de
Ecatepec, a una muestra aleatorizada de 200
personas se les preguntó acerca de su índice
de nivel socioeconómico.
Introducción
 En la tabla se muestra la distribución de individuos
en cada categoría del Índice de Nivel
Socioeconómico (INSE).

INSE n %
Bajo 50 25
Regular 110 55
Alto 40 20
Total 200 100
Introducción
 Cuando queremos examinar la relación entre
dos variables categóricas, tabulamos una
contra la otra.
 Esta es una tabla de dos vías o tabulación
cruzada.
Sur Centro Norte
Bajo 33 7 10
Regular 9 81 20
Alto 2 8 30
Total 44 96 60
Interpretación de una tabla de dos vías
 Una asociación existe entre dos variables
categóricas, si la distribución de una variable,
varía de acuerdo al valor de la otra.
 La pregunta en que estamos interesados es:
 ¿El nivel de INSE varía de acuerdo al sitio de
residencia?
 Para responder esta pregunta necesitamos
valorar una tabulación cruzada.
Interpretando una tabla de dos vías
 Para comparar las distribuciones en la tabla,
necesitamos examinar los porcentajes.
 Para responder la pregunta, ¿qué debemos
examinar porcentajes de columna o de renglón?
Zona de residencia
INSE Sur Centro Norte
n % n % n %
Bajo 33 75 7 7.3 10 16.7

Regular 9 20.5 81 84.4 20 33.3

Alto 2 4.5 8 8.3 30 50

Total 44 100.0 96 100.0 60 100.0


Frecuencias esperadas
 Si la hipótesis nula es verdadera, que no hay
asociación entre INSE y zona de residencia,
los porcentajes para cada nivel de INSE en
cada zona de residencia, deberían ser las
mismas que la columna de porcentajes en la
columna total.
Ejemplo de frecuencias esperadas
 El porcentaje de personas que están en INSE
bajo en el total de la muestra es de 50 (25%).
 Si la hipótesis nula es verdadera, debemos
esperar que el 25% de las personas en sitio
de residencia del Centro estén en INSE bajo:
 25% de 96 = 24
Interpretando una tabla de dos vías

Zona de residencia
INSE Sur Centro Norte Total
n % n % n % n %
Bajo 33 75 7 7.3 10 16.7 50 25

Regular 9 20.5 81 84.4 20 33.3 110 55

Alto 2 4.5 8 8.3 30 50 40 20

Total 44 100.0 96 100.0 60 100.0 200 100.0


Ejemplo de frecuencias esperadas
 Si no hay diferencias en la distribución de
INSE por sitios de residencia, se debería
esperar que el porcentaje de personas con
INSE bajo sea el mismo en cada sitio de
residencia.
 Note que las frecuencias esperadas no
tienen que ser números enteros.
 Usando los totales de columnas y renglones,
podemos calcular el número de esperados en
cada celda
La prueba de Chi cuadrada
 Las frecuencias esperadas son las que
deberíamos esperar si la hipótesis nula fuera
verdad.
 Para probar la hipótesis nula, debemos
comparar las frecuencias esperadas con las
frecuencias observadas, usando la siguiente
fórmula.
(O – E)2
X2=Σ--------------
E
La prueba de Chi cuadrada
 De la fórmula podemos ver que:
 Si hay una importante diferencia entre los valores
observados y esperados, X2 será grande
 Si hay una diferencia pequeña entre los valores
observados y esperados, X2 será pequeña.
 Si X2 es grande, sugiere que los datos no soportan la
hipótesis nula, ya que los valores observados no son
los que esperamos bajo la hipótesis nula.
 Si X2 es pequeña, sugiere que los datos soportan la
hipótesis nula desde que los valores observados son
semejantes a los esperados, bajo la hipótesis nula.
La prueba de Chi cuadrada

Zona de residencia
INSE Sur Centro Norte Total
O E O E O E n
Bajo 33 11 7 24 10 15 50

Regular 9 24.2 81 52.8 20 33 110

Alto 2 8.8 8 19.2 30 12 40

Total 44 96 60 200
La prueba de Chi cuadrada
INSE Sitio de Observados Esperados O-E (O-E)2 (O-E)2/E
residencia
Bajo Sur 33 11 22 484 44
Bajo Centro 9 24 - 15 225 9.38
Bajo Norte 2 15 - 13 169 11.27
Regular Sur 7 24.2 -17.2 295.8 12.2
Regular Centro 81 52.8 28.2 795.2 15.1
Regular Norte 8 33 - 25 625 18.9
Alto Sur 10 8.8 1.2 1.44 0.2
Alto Centro 20 19.2 0.8 0.64 0.03
Alto Norte 30 12 18 324 27
Total 138.1
La prueba de Chi cuadrada en tablas 2 x 2

 Cuando las dos variables son binarias, la


tabulación cruzada se vuelve una tabla 2 x 2.
 La prueba de X2 se aplica de la misma forma
que para una tabla más grande.
Ejemplo
 Se hizo un estudio de la eficacia
bacteriológica contra Estreptococo Beta
hemolítico del grupo A, de la claritromicina
vs. penicilina.
 Los resultados se muestran abajo

Medicamento Curación No curación Total

Claritromicina 91 9 100

Penicilina 82 18 100

Total 173 27 200


Ejemplo
 Para usar la prueba de X2 debemos primero señalar la hipótesis
nula que en este caso sería:
 No hay diferencias en la eficacia bacteriológica entre los dos
tratamientos, contra el Estreptococo Beta hemolítico del
grupo A.
 Para probar la hipótesis nula, primero debemos calcular el
número de esperados en cada celda de la tabla.

Medicamento Curación No curación Total


O E O E
Claritromicina 91 86.5 9 13.5 100

Penicilina 82 86.5 18 13.5 100

Total 173 27 200


Ejemplo
Medicamento Efecto Observados Esperados O-E (O-E)2 (O-E)2/E
Claritromicina Curación 91 86.5 4.5 20.25 0.234
Claritromicina No 9 13.5 - 4.5 20.25 1.5
curación
Penicilina Curación 82 86.5 - 4.5 20.25 0.234
Penicilina No 18 13.5 4.5 20.25 1.5
curación
Total 3.47
Una fórmula rápida para tablas 2 x 2
 En lugar de usar los valores observados y esperados, X2 puede
ser calculada usando las frecuencias observadas dentro de la
tabla y los totales marginales.
 Si etiquetamos las celdas y los totales marginales como sigue:

Exposició Resultado Resultado Total


n Sí No
Sí a b a+b
No c d c+d
Total a+c b+d N

X2=(ad – bc)2 x N /(a+b) (c+d) (a+c) (b+d)


Probando para tendencias en tablas 2 x c

 Hemos usado la prueba de Chi cuadrada


para evaluar si dos variables categóricas
están asociadas con cada otra en la
población.
 Cuando una de esas variables es binaria y la
otra variable es categórica ordenada (ordinal)
podemos estar interesados en comprobar si
su asociación sigue una tendencia.
Probando para tendencias en tablas 2 x c
INSE
Bajo Regular Alto Total
O E O E O E
Hipertensión 18 38.5 54 54.1 78 57.4 150

Sin 100 79.5 112 111.9 98 118.6 310


hipertensión
Total 118 166 176 460

Hipertensión Efecto Observados Esperados O-E (O-E)2 (O-E)2/E


Si Bajo 18 38.5 -20.5 420.25 10.9
Si Regular 54 54.1 - 0.1 0.01 0.0002
Si Alto 78 57.4 20.6 424.36 7.4
No Bajo 100 79.5 20.5 420.25 5.3
No Regular 112 111.9 0.1 0.01 0.00009
No Alto 98 118.6 -20.6 424.36 3.6
Total 27.2
Probando para tendencias en tablas 2 x c

 Para calcular esta prueba asignamos un


puntaje numérico a cada grupo de nivel
socioeconómico.
Bajo Regular Alto Total

Hipertensión 18 54 78 150

Sin 100 112 98 310


hipertensión

Total 118 166 176 460

1 2 3
La prueba de Chi cuadrada para
tendencias
 Realizamos una prueba de Chi cuadrada para
tendencias, cuando queremos evaluar si una
característica binaria varía linealmente a través de
los niveles de otra variable, esto es, evaluar si hay un
efecto dosis-respuesta.
 La hipótesis nula para esta prueba es que la media
de los puntajes en los dos grupos (de la variable
binaria) son las mismas.
 Así la prueba de Chi cuadrada se convierte en una
prueba de comparación de dos medias por esto tiene
sólo un grado de libertad.
La prueba de Chi cuadrada para
tendencias
_ _
(X (Si) – X (No))2
X2 = ------------------- =
S2 (1/n1 + 1/n2)
_
X (Si) = media del puntaje del grupo con hipertensión
_
X (No) = media del puntaje del grupo sin hipertensión
n1 total de personas en el grupo con hipertensión
n2 total de personas en el grupo sin hipertensión
s= desviación estándar para los puntajes de ambos
grupos
Validez de las pruebas de Chi cuadrada
 Las pruebas de Chi cuadrada que hemos revisado están
basadas en la suposición de que la prueba estadística sigue
aproximadamente la distribución de X2.
 Esto es razonable para muestras grandes pero para las
pequeñas deben ser usadas las siguientes guías:
 Para tablas 2 x 2
 Si el total del tamaño de muestra es > 40, entonces X2 puede
ser usada.
 Si n está entre 20 y 40, y el valor esperado más pequeño es 5,
X2 puede ser usada.
 De otra forma, se usa el valor exacto de Fisher.
 Para tablas 2 x c
 La prueba X2 es válida si no más del 20% de los valores
esperados es menos de 5, y ninguno es menos de 1.
Bibliografía
 1.- Last JM. A dictionary of epidemiology.
New York, 4ª ed. Oxford University Press,
2001:173.
 2.- Kirkwood BR. Essentials of medical
ststistics. Oxford, Blackwell Science, 1988: 1-
4.
 3.- Altman DG. Practical statistics for medical
research. Boca Ratón, Chapman & Hall/
CRC; 1991: 1-9.

También podría gustarte