Está en la página 1de 8

Facultad

de Ingeniería y Negocios
Instituto de Matemática, Física y Estadística
AES519

Prueba de Independencia. Test Chi Cuadrado

La prueba Chi-cuadrado de Pearson una de las técnicas estadísticas más usadas en la evaluación de
datos de conteo o frecuencias, principalmente en los análisis de tablas de contingencia donde se
resumen datos categóricos.

Uno de los usos de la Prueba Chi- Cuadado es para probar la independencia de dos variables entre
sí, mediante la presentación de los datos en tablas de contingencia. Se tiene una muestra de n
individuos que se clasifican respecto a dos variables, X e Y, preferentemente cualitativas (nominales
dicotómicas o politómicas) y se desea conocer a partir de datos muestrales, si existe asociación de
estas a nivel poblacional.

Supongamos tenemos los datos resumidos en una tabla de contingencia, una de las formas más
comunes de resumir datos categóricos, están compuestas por m filas (horizontales), para la
información de una variable y k columnas (verticales) para la información de la otra variable. Estas
filas y columnas delimitan celdas donde se vuelcan las frecuencias de cada combinación de las
variables analizadas.

Se consideran X e Y dos variables con m y k categorías respectivamente, y la siguiente tabla de


contingencia de 2x2

Variable Y
Variable X
Categorías
Categorías
𝑘" 𝑘# Total
𝑚" 𝑛&' (' 𝑛&' () Fila 𝑚"
𝑚# 𝑛&) (' 𝑛&) () Fila 𝑚#
Columna Columna
Total n
𝑘" 𝑘#

Se plantea la hipótesis:

𝐻+ : 𝐸𝑥𝑖𝑠𝑡𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑑𝑎𝑠 𝑋 𝑒 𝑌


𝐻" : 𝑁𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑐𝑖𝑎 𝑒𝑛𝑡𝑟𝑒 𝑙𝑎𝑠 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑒𝑠𝑡𝑢𝑑𝑖𝑎𝑑𝑎𝑠 𝑋 𝑒 𝑌

Se considera el estadístico de prueba:

(
#
#
𝑛I − 𝑒I #
𝜒BCDBEDCFG = ~𝜒("NO,(&N")((N"))
𝑒I
IK"

Donde:
- 𝑚 = número de categorías para la variable X
- 𝑘 = número de categorías para la variable Y
- 𝑛I = frecuencia observada de una muestra, resumida en una tabla de contingencia
- 𝑒I = frecuencia esperada
Facultad de Ingeniería y Negocios
Instituto de Matemática, Física y Estadística
AES519
Se tiene que en cada frecuencia observada en una tabla de contingencia de mxk, hay una frecuencia
esperada de cada frecuencia observada, se calcula con la siguientes formula

𝑇𝑜𝑡𝑎𝑙 𝑐𝑜𝑙𝑢𝑚𝑛𝑎 𝑖 ∙ 𝑇𝑜𝑡𝑎𝑙 𝑓𝑖𝑙𝑎 𝑖


𝑒I =
𝑇𝑜𝑡𝑎𝑙 𝑔𝑒𝑛𝑒𝑟𝑎𝑙

Toda la información se puede resumir en una Tabla de contingencia

Categorías
ni : frecuencia
𝑛 & ' (' 𝑛&) (' 𝑛&' () 𝑛&) ()
observada
ei : frecuencia esperada 𝑒" 𝑒# 𝑒V 𝑒W

Se calcula el valor critico


#
𝜒("NO,(&N")((N")) ,
obtenido en una tabla de distribución de probabilidad

luego, la regla de decisión es:


# #
Se rechaza 𝐻+ al nivel de significación 𝛼, si 𝜒BCDBEDCFG > 𝜒("NO,(&N")((N"))

Se concluye que se rechaza 𝐻+ , es decir, no existe independencia entre las variables estudiadas,
𝑋 𝑒 𝑌

Observación: La muestra debe ser lo suficientemente grande. Si menos del 20% de las celdas de
la tabla de contingencia, presentan valores esperados menores o iguales a 5, no se recomienda
aplicar la prueba.

Ejemplo
A un grupo de 350 adultos que participaron en una escuela de salud, se les preguntó si llevaban o
no una dieta. Las respuestas por sexo, son las siguientes:

Dieta
Sexo Con Sin
Total
Dieta Dieta
Masculino 14 159 173
Femenino 25 152 177
Total 39 311 350

¿Sugieren estos datos que el estar o no la dieta, depende del tipo de sexo? Para un nivel de significancia del
5%.

Desarrollo
Facultad de Ingeniería y Negocios
Instituto de Matemática, Física y Estadística
AES519
Datos:
X = Tipo de sexo, con m = 2
Y = Dieta, con k = 2

Hipótesis:
H 0 : No influye que el estar o no a dieta, dependa del tipo de sexo (las dos variables en estudio son independientes)
H1 : Sí influye que el estar o no a dieta, dependa del tipo de sexo (las dos variables en estudio son dependientes)

Calculo de frecuencias esperadas y resumen en tabla de contingencia:


Calculamos las frecuncias esperadas
VZ∙"[V VZ∙"[[ V""∙"[V V""∙"[[
𝑒" = = 19,277 , 𝑒# = =19,723 , 𝑒V = = 153,723 , 𝑒W = = 157,277
V\+ V\+ V\+ V\+

resumimos en la siguiente tabla


ni
14 25 159 152
frecuencia observada
ei
19,277 19,723 153,723 157,277
frecuencia esperada

Estadístico de prueba (calculado):


(
# # # #
#
𝑛I − 𝑒I 14 − 19.277 25 − 19.723 139 − 153.723
𝜒BCDBEDCFG = = + +
𝑒I 19.277 19.723 153.723
IK"
#
152 − 157.277
+
157.277

= 1.445 + 1.412 + 0.181 + 0.177 = 3.215

Valor critico (por tabla):


#
𝜒("NO,(&N")((N")) #
= 𝜒("N+.+\,(#N")(#N")) = 𝜒 #+.Z\," = 3, 841

Decisión:
# #
Como 𝜒BCDBEDCFG = 3.215 < 𝜒("NO,(&N")((N")) = 3.841

No se puede rechazar 𝐻+ , es decir, que no existe relación entre las dos variables en estudio.

Por lo que con un 95% de confianza no hay dependencia en el estar a dieta o no, y el género de la
persona
Facultad de Ingeniería y Negocios
Instituto de Matemática, Física y Estadística
AES519

Ejercicios

1. La asociación de lesiones papilomatosas, según el sexo en delfines Tursiops truncatus,
estudiados en la costa norte central de Cuba, presenta a continuación una tabla de contingencia,
con datos de acuerdo a sexo y síntoma de la enfermedad:

Síntomas de la enfermedad
Sexo
Sintomáticos Asintomáticos Total
Hembras 27 122 149
Machos 52 62 114
Total 79 184 263

¿Influye el tipo de sexo, en los síntomas de la enfermedad? Considere un nivel de significancia de


0,05

Desarrollo
Facultad de Ingeniería y Negocios
Instituto de Matemática, Física y Estadística
AES519
2. Se desea comparar la efectividad de dos análisis de laboratorio para detectar la presencia de
bacterias en equinodermos (erizo rojo), para ello se selecciona dos muestras independientes
de Loxechinus albus (erizo rojo comestible) en un sector de caleta coloso y los resultados de
los análisis fueron los siguientes:

Detección de la
Análisis Bacteria
Si No Total
1 11 39 50
2 8 42 50
Total 19 81 100

Pruebe la hipótesis de que la detección de la bacteria es independiente del tipo de análisis usado,
con un nivel de significación de 0.05.

Desarrollo




























Facultad de Ingeniería y Negocios
Instituto de Matemática, Física y Estadística
AES519
3. Se desea conocer si existe asociación entre el hábito de fumar y el bajo peso al nacer en una
población, para lo cual se selecciona una muestra aleatoria de 100 recién nacidos,
obteniéndose los resultados siguientes:

Hábito de Bajo peso al nacer
fumar Si No Total
Presente 30 10 40
Ausente 20 40 60
Total 50 50 100

¿Permiten estos datos afirmar que el Bajo peso del recién nacido depende del hábito de fumar?
Usar un nivel de significación de 0,05

Desarrollo




























Facultad de Ingeniería y Negocios
Instituto de Matemática, Física y Estadística
AES519
Ejercicio propuesto
4. Un experimento para investigar el efecto de vacunación de animales de laboratorio refleja la siguiente
tabla:

Animal laboratorio
Vacuna
Enfermo Sano Total
Vacunado 9 42 51
No Vacunado 18 28 46
Total 27 70 97

Con un nivel de significación de 0,05, ¿Es conveniente vacunar?










Facultad de Ingeniería y Negocios
Instituto de Matemática, Física y Estadística
AES519

También podría gustarte