Está en la página 1de 35

Licenciatura en Administración de Empresas

Estadística Aplicada

ANOVA y ji cuadrada

1
Sesión 5
Contenido

Objetivo general................................................................................................................. 3
Subtema 1. La distribución ji cuadrada, X2 ........................................................................ 2
Subtema 2. Pruebas de hipótesis para la varianza de una población ................................ 6
Subtema 3. Prueba para la diferencia entre n proporciones............................................. 18
Subtema 4. Pruebas de bondad de ajuste a distribuciones teóricas ................................ 21
Subtema 5. Pruebas sobre la independencia entre dos variables .................................... 19
Subtema 6. Pruebas de homogeneidad ........................................................................... 31
Conclusiones ................................................................................................................... 34
Bibliografía ....................................................................................................................... 35

2
Objetivo general: explicar la distribución Ji cuadrada analizando sus

fundamentos para utilizarla en una prueba de hipótesis.

Los subtemas que se abordan en la presente sesión son los siguientes:

1. La distribución ji cuadrada, X2

2. Pruebas de hipótesis para la varianza de una población

3. Prueba para la diferencia entre n proporciones

4. Pruebas de bondad de ajuste a distribuciones teóricas

5. Pruebas sobre la independencia entre dos variables

6. Pruebas de homogeneidad

Subtema 1. La distribución ji cuadrada, X2

En la sesión anterior se analizó la prueba de hipótesis utilizando datos de una

o dos muestras, pero si se necesita comparar más de dos proporciones o más de

dos medias los métodos anteriores no son adecuados, se necesita usar la prueba

ji-cuadrada.

3
Las pruebas ji-cuadrada nos permiten probar si más de dos proporciones

de población pueden ser consideradas iguales (Levin, 2004, p.448):

El estadístico ji-cuadrada se calcula de la siguiente forma:

(Levin, 2004, p.451)

El valor de ji-cuadrada no puede ser negativo, porque la diferencia entre las

frecuencias observadas y esperadas siempre están al cuadrado.

Si la hipótesis nula es verdadera la distribución de muestreo del estadístico

ji-cuadrada, 𝑥 2 , puede aproximarse mediante una curva conocida como distribución

ji-cuadrada.

Propiedades importantes de la distribución ji o chi cuadrada:

4
 A diferencia de las distribuciones normal y t de Student, la distribución chi

cuadrada no es simétrica.

 Los valores de la distribución chi cuadrada pueden ser 0 o positivos, pero no

negativos.

 La distribución chi cuadrada es diferente para cada número de grados de

libertad (gl1).

(Triola, 2004, p. 566)

Figura 1 Distribución chi cuadrada para 1, 10 y 20 gl

Fuente: Triola (2004, p.567).

En la figura 1 se muestran las tres diferentes distribuciones ji-cuadrada

correspondientes a 1, 10 y 20 grados de libertad. Para un número muy pequeño de

5
grados de libertad, la distribución ji-cuadrada está muy sesgada a la derecha.

Conforme aumenta el número de grados de libertad, la curva hace cada vez más

simétrica hasta que el número de grados de libertad alcanza valores grandes, en

cuyo caso la distribución puede aproximarse con la normal (Levin, 2004, p.452).

Subtema 2. Pruebas de hipótesis para la varianza de una


población (ANOVA)

Una técnica conocida como análisis de varianza (a menudo abreviada ANOVA:

analysis of variance), permite probar la significancia de las diferencias entre más de

dos medias muestrales. Usando el análisis de varianza, podremos hacer inferencias

acerca de si nuestras muestras se tomaron de poblaciones que tienen la misma

media (Levin, 2004, p.468).

Ejemplos en los que puede ser útil:

 ¿Cuál de cuatro métodos de estudio es mejor para el aprendizaje?

 Comparación de los ingresos de graduados de cinco universidades

6
 Medir el nivel de nicotina en tres grupos, fumadores, no fumadores expuestos

al humo de tabaco y no fumadores no expuestos al humo, se pueden realizar

pruebas para analizar si tiene el mismo nivel de nicotina.

 Si a tres grupos de estudiantes se les da un curso impartido por diferentes

instructores y se les aplica un examen, determinar si tienen puntajes medios

diferentes.

En cada caso, se pueden comparar las medias de más de dos muestras.

Un factor es una característica que se utiliza para agrupar los datos en categorías,

debido a este factor ANOVA puede ser unidireccional o bidireccional.

ANOVA Unidireccional: involucra diferentes muestras clasificadas según una

sola característica.

Ejemplo.: Se agrupan 50 películas en tres categorías según la calificación

con estrellas en regular (2 estrellas), buena (3 estrellas) y excelente (4 estrellas).

7
Por lo tanto, se agrupan en categorías según un sólo factor, la calificación

con estrellas.

ANOVA Bidireccional: Se consideran dos factores o características que

sirven para diferenciar poblaciones.

Ejemplo: Si se agregara al ejemplo anterior de las películas el género de la

película o el director para agruparlas se tendrían dos factores.

Se agrupan en categorías según un sólo factor, la calificación con estrellas.

Ejemplo (Levin, 2004): se desean analizar la efectividad de tres diferentes

métodos de capacitación de empleados en una empresa.

Al terminar el periodo de capacitación, los especialistas en estadística de la

compañía tomaron 16 nuevos empleados asignados aleatoriamente a los tres

métodos de capacitación.

8
Se calcula la gran media:

5 + 18 + 19 + 22 + 11 + 22 + 27 + 18 + 21 + 17 + 18 + 24 + 19 + 16 + 22 + 15
𝑋̿ =
16
304
= = 19
16

En este caso, la razón para utilizar análisis de varianza es decidir si estas

tres muestras (una muestra es el pequeño grupo de empleados capacitados por

cualquier método) se tomaron de poblaciones que tienen las mismas medias.

Debido a que se está probando la efectividad de los tres métodos de

capacitación, se debe determinar si las tres muestras, representadas por las medias

muestrales, 𝑋̅1 =17, 𝑋̅2 =21 y 𝑋̅3=19, pudieron haberse tomado de poblaciones con la

misma media µ. Un planteamiento formal de las hipótesis nula y alternativa que

deseamos probar sería:

𝐻𝑜 = µ1 = µ2 = µ3 → Hipótesis nula

𝐻1 = µ1 , µ2 y µ3 no son todas iguales → Hipótesis alternativa

9
Si se puede concluir, a partir de esta prueba, que las medias de las muestras

no difieren significativamente, se puede inferir que la selección del método de

capacitación no influye en la productividad del empleado. Por otra parte si se

encuentra entre las medias muestrales diferencias muy grandes para atribuirlas al

error aleatorio de muestreo, se puede inferir que el método usado para capacitar a

los trabajadores sí influye en su productividad. En ese caso se ajustaría el programa

de capacitación de acuerdo con los resultados.

(Levin, 2004, p.469)

Con el fin de utilizar el análisis de varianza se supone que cada una de las

muestras se toma de una población normal y que cada una de estas poblaciones

10
tiene la misma varianza σ2 . Sin embargo, si los tamaños de muestra son lo

suficientemente grandes, no necesitamos la suposición de normalidad.

En el problema de los métodos de capacitación, la hipótesis nula establece

que las tres poblaciones tienen la misma media. Si esta hipótesis es verdadera, no

es necesario clasificar los datos en tres columnas y el conjunto entero de 16

mediciones de productividad puede considerarse como una muestra de una sola

población. Esta población total tiene también una varianza σ2 .

El análisis de varianza está basado en una comparación de dos estimaciones

diferentes de la varianza, σ2 , de la población total. En este caso, se puede calcular

una de esas estimaciones examinando la varianza entre las tres medias muestrales,

que son 17, 21 y 19. La otra estimación de la varianza de la población está

determinada por la variación dentro de las tres muestras mismas, esto es (15, 18,

19, 22, 1l), (22, 27, 18, 21, 17) y (18, 24, 19, 16, 22, 15). Entonces comparamos

estas dos estimaciones de la varianza de la población. Como ambas son

estimaciones de σ2 , deben tener un valor aproximadamente igual cuando la

hipótesis nula sea verdadera. Si la hipótesis nula no es verdadera, estas dos

estimaciones diferirán de manera considerable. Entonces, los tres pasos del análisis

de varianza son:

11
1. Determinar una estimación de la varianza de la población a partir de la varianza

entre las medias de las muestras.

2. Determinar una segunda estimación de la varianza de la población a partir de la

varianza dentro de las muestras.

3. Comparar estas dos estimaciones. Si su valor es aproximadamente igual, se

acepta la hipótesis nula.

Cálculo de la varianza entre las medias muestrales

El paso 1 en el análisis de varianza indica que debemos obtener una

estimación de la varianza de la población a partir de la varianza entre las tres medias

de las muestras. En lenguaje estadístico, esta estimación se conoce como varianza

entre columnas, por lo que se utilizará la siguiente ecuación para calcular la varianza

de la muestra: (Levin, 2004, p.470):

⅀(𝑋−𝑋̅)2
Varianza de la muestra → s2 =
𝑛−1

12
Como se está trabajando con tres medias muestrales y una gran media, se

sustituye 𝑋, 𝑋̅, por 𝑋̅, y k (el número de muestras) por n, para obtener una fórmula

para la varianza entre las medias de las muestras:

Varianza entre medias muestrales

⅀(𝑋̅ − 𝑋̅)2
𝑠𝑥2 =
𝑘−1

Ahora se puede definir el error estándar de la media como la desviación

estándar de todas las muestras posibles de un tamaño dado. La fórmula para derivar

el error estándar de la media es:

Podemos simplificar esta ecuación con la multiplicación cruzada y luego

elevando ambos lados al cuadrado para convertir la desviación estándar de la

población σ, en la varianza de la población σ2 (Levin, 2004, p.471):

13
Para el problema de los métodos de capacitación, no tenemos toda la

información necesaria para utilizar esta ecuación y encontrar σ2 . Específicamente,


2
no conocemos σ𝑥 . Sin embargo, podríamos calcular la varianza entre las medias de
2
las muestras s 𝑥 , con la ecuación de la varianza entre medias muestrales. Así, ¿por
2 2
qué no sustituir s 𝑥 en lugar de σ𝑥 en la ecuación y calculamos una estimación de la

varianza de la población?, esto nos da (Levin, 2004, p.471):

2
2 ⅀ 𝑛 (𝑥̅ − 𝑥̿ )2
σ = s𝑥 𝑥𝑛=
𝑘−1

Existe una pequeña dificultad al utilizar esta ecuación tal como está. Debido

a que n representa el tamaño de la muestra, pero ¿qué tamaño de muestra

debemos usar cuando las diferentes muestras tienen diferentes tamaños?

Resolvemos este problema con el siguiente ejemplo en la que cada (𝑋̅𝑗 −𝑋̅̿ )2 se

multiplica por su propia 𝑛𝑗 :

14
Estimación de la varianza entre columnas

⅀ 𝑛𝑗 (𝑥̅ 𝑗 − 𝑥̿ )2
Primera estimación de la varianza de la población σ2𝑏 =
→̂
𝑘−1

Donde:

σ2𝑏 = nuestra primera estimación de la varianza de la población basada en la


• ̂

varianza entre las medias de las muestras (la varianza entre columnas).

• 𝑛𝑗 = tamaño de la j-ésima muestra.

• 𝑋̅𝑗 = media muestral de la j-ésima muestra

• 𝑥̿ = gran media

• k = número de muestras.

Ahora podemos utilizar la ecuación y los datos de la tabla anteriores para

calcular la varianza entre columnas. En la tabla siguiente se muestra cómo hacer

estos cálculos:

15
(Levin, 2004, p.471).

El paso 2 en ANOVA requiere una segunda estimación de la varianza de la

población, basada en la varianza dentro de las muestras. En estadística se le puede

llamar varianza dentro de columnas.

El problema de capacitación tiene tres muestras de cinco o seis elementos

cada una. Se puede calcular la varianza dentro de estas tres muestras usando la

ecuación:

⅀ 𝑛(𝑋−𝑋̅)2
Varianza de la muestra → s2 =
𝑛−1

16
Al suponer que la varianza de las tres poblaciones es la misma, se puede

utilizar cualquiera de las tres varianzas muestrales como la segunda estimación de

la varianza de la población. En términos estadísticos, podemos obtener una mejor

estimación de la varianza de la población mediante un promedio ponderado de las

tres varianzas de muestra. La fórmula general para esta segunda estimación de

2 es:

(𝑛𝑗 − 1
Segunda estimación de la varianza de la población → 𝜎̂𝑤2 =∑ ( ) 𝑠2𝑗
(𝑛𝑇 − 𝑘

Donde:

 σ2𝑤 = nuestra segunda estimación de la varianza de la población, basada en


̂

las varianzas dentro de las muestras (la varianza dentro de columnas)

 𝑛𝑗 = tamaño de la j-ésima muestra.

 𝑠𝑗2 = varianza muestral de la j-ésima muestra

 k = número de muestras

 𝑛 𝑇 =∑ 𝑛𝑗 =tamaño de la muestra total

17
Esta fórmula utiliza toda la información que tenemos a nuestra disposición, no

nada más una parte de ella. De haber tenido seis muestras en lugar de tres,

habríamos tomado un promedio ponderado de las seis. En la tabla siguiente se

ilustra cómo calcular esta segunda estimación de la varianza de la población,

utilizando las varianzas dentro de las tres muestras.

(Levin, 2004, p.473)

Prueba de hipótesis F

En el paso 3 de ANOVA se comparan estas dos estimaciones de la varianza

de la población mediante el cálculo de su cociente como sigue:

18
Sustituyendo con la terminología estadística, en el numerador y el

denominador de este cociente, la ecuación se convierte en:

Estadístico F

varianza entre columnas σ2𝑤𝑏


̂
𝐹= = 2
varianza dentro de columnas ̂𝑤
σ

Ahora podemos encontrar el cociente F para el problema del método de

capacitación:

varianza entre columnas 20


𝐹= = = 1.354 ← 𝐶𝑜𝑐𝑖𝑒𝑛𝑡𝑒 𝐹
varianza dentro de columnas 14.769

Una vez encontrado el cociente F, 1.354, ¿cuál es su interpretación? Primero

examinamos el denominador, que está basado en la varianza dentro de las

muestras. El denominador es un buen estimador de σ2 (la varianza de la población)

19
ya sea que la hipótesis nula sea verdadera o no. ¿Qué sucede con el numerador?

Si la hipótesis nula de que los métodos de capacitación tienen el mismo efecto en

la producción es verdadera, entonces el numerador, o la variación entre las medias

de las muestras de los tres métodos, es también una buena estimación de σ2 (la

varianza de la población). Como resultado, el denominador y el numerador deben

ser aproximadamente iguales si la hipótesis nula es verdadera. Cuanto más cercano

a 1 esté el cociente F, más nos inclinamos a aceptar la hipótesis nula. En contraste

conforme el cociente F crece, nos inclinaremos más a rechazar la hipótesis nula y

a aceptar la alternativa (de que existe una diferencia en los efectos sobre la

producción de los tres métodos de capacitación).

La lógica básica que apoya el estadístico F: Cuando las poblaciones no son

las mismas, la varianza entre columnas (derivada a partir de la varianza entre las

medias muestrales) tenderá a ser mayor que la varianza dentro de columnas

(derivada a partir de la varianza dentro de las muestras), y el valor de F tenderá a

ser grande. Esto nos conducirá a rechazar la hipótesis nula.

20
Subtema 3. Prueba para la diferencia entre n proporciones

Ahora dejamos la prueba ANOVA y pasamos a la prueba de ji-cuadrada.

Suponga que tenemos proporciones de seis poblaciones en lugar de solamente dos.

Como habíamos mencionado antes, cuando se necesitan analizar más de dos

proporciones. Las pruebas ji-cuadrada nos permiten probar si más de dos

proporciones de población pueden ser consideradas iguales (Levin, 2004, p.448).

Subtema 4. Pruebas de bondad de ajuste a distribuciones


teóricas

La prueba ji-cuadrada puede utilizarse también para decidir si una distribución de

probabilidad en particular, como la binomial, la de Poisson o la normal, es la

apropiada.

La prueba ji-cuadrada es útil para probar si existe una diferencia significativa

entre una distribución de frecuencias observada y una distribución de frecuencias

teórica. De esta forma, podemos determinar la bondad de ajuste de una distribución

21
teórica (es decir, qué tan bien se ajusta a la distribución de los datos que

observamos). Así podemos determinar si debemos creer que los datos observados

constituyen una muestra obtenida de la distribución teórica hipotética.

Cálculo del estadístico ji-cuadrada

Para calcular el estadístico ji-cuadrada podemos utilizar la siguiente ecuación

(Levin, 2004, p.464):

(𝑓𝑜 − 𝑓𝑒 )2
𝑥2 = ⅀
𝑓𝑒

Determinación de los grados de libertad de una prueba de bondad de ajuste

Antes de calcular el número adecuado de grados de libertad para una prueba

ji-cuadrada de bondad de ajuste, es necesario contar el número de clases (denotado

por k) para las que se compararon las frecuencias observadas y esperadas. Si por

ejemplo el problema contiene cuatro clases, empezamos con cuatro grados de

libertad. Sin embargo, si por ejemplo las cuatro frecuencias observadas deben

22
sumar 100, el número total de frecuencias observadas que podemos especificar

libremente es sólo k–1 = 3. La cuarta queda determinada por la suma total de 100

(Levin, 2004, p.464).

Se deben imponer otras restricciones en el cálculo de los grados de libertad.

Suponga que estamos utilizando la prueba ji cuadrada como una prueba de bondad

de ajuste para determinar si una distribución normal se ajusta a un conjunto de

frecuencias observadas. Si tenemos seis clases de frecuencias observadas (k=6),

concluimos que solamente tenemos k-1 =5 grados de libertad. Sin embargo, si

también tenemos que utilizar la media de la muestra como una estimación de la

media de la población, tendremos que restar un grado de libertad adicional, lo cual

nos deja con sólo 4. Después, si tenemos que utilizar la desviación estándar de la

muestra para estimar la desviación estándar de la población, tendremos que restar

un grado de libertad más, lo que deja 3. La regla general en estos casos es: primero

aplique la regla (k-1) y luego reste un grado de libertad adicional por cada parámetro

de población que debe estimar a partir de los datos de la muestra.

Ejemplos en los que se podría utilizar la prueba de bondad de ajuste:

23
 Probar la aseveración de que los números de la lotería de Nueva York (1,2,

…, 54) ocurren con la misma frecuencia.

 Probar la aseveración de que los dulces M&M en una bolsa: 30% son cafés,

20% amarillos, 20% rojos, 10% anaranjados y 10% azules.

Subtema 5. Pruebas sobre la independencia entre dos


variables

En algunos casos estadísticos los datos a analizar son cualitativos o

categóricos, que se resumen con conteos de frecuencias, pero las celdas

corresponden a dos variables diferentes. Las tablas que consideramos se llaman

tablas de contingencia o tablas de frecuencias de dos factores.

Una tabla de contingencia (o tabla de frecuencias de dos factores) es una

tabla en donde las frecuencias corresponden a dos variables. (Una variable se utiliza

para categorizar renglones y una segunda variable para categorizar columnas)

(Triola, 2004, p.582).

24
Ejemplo: Hacer una encuesta con una pregunta en la que la gente identifique

su género (masculino/femenino) y otra en la que describan la frecuencia de su uso

de Netflix (frecuentemente/ algunas veces/nunca).

Estas tablas son útiles al analizar resultados de encuestas.

Una prueba de hipótesis basada en tablas de contingencia es la prueba de

independencia que se usa para determinar si una variable de renglón de una tabla

de contingencia es independiente de su variable de columna.

Prueba de independencia: prueba la hipótesis nula de que no hay

asociación entre la variable de renglón y la variable de columna en una tabla de

contingencia. (Para la hipótesis nula, utilizaremos la afirmación de que “las variables

de renglón y de columna son independientes”) (Triola, 2004, p. 583).

En muchas ocasiones, los administradores necesitan saber si las diferencias

que observan entre varias proporciones de la muestra son significativas o sólo se

deben al azar. Suponga que el administrador de campaña de un candidato a la

25
presidencia estudia tres regiones geográficas y encuentra que el 35, 42 y 51%,

respectivamente, de los votantes investigados de las tres regiones reconocen el

nombre del candidato. Si esta diferencia es significativa, el administrador puede

llegar a la conclusión de que el lugar afectará la forma en que debe actuar el

candidato. Pero si la diferencia no es significativa (es decir, si el administrador

concluye que la diferencia solamente se debe al azar), entonces puede decidir que

el lugar elegido para pronunciar un discurso proselitista no tendrá efecto sobre su

recepción. Para conducir la campaña con éxito, entonces, el administrador necesita

determinar si el lugar y el reconocimiento del nombre del candidato son

dependientes o independientes (Levin, 2004, p.449).

Tablas de contingencia

Levin (2004, p.450) propone el siguiente ejemplo: en cuatro regiones, la

Compañía Nacional de Cuidado de la Salud, de Estados Unidos, muestrea las

actitudes de los empleados de sus hospitales respecto a la evaluación del

desempeño en el trabajo. Los trabajadores eligen entre el método actual (dos

evaluaciones al año) y un nuevo método propuesto (evaluaciones trimestrales). La

tabla que se muestra abajo se conoce como tabla de contingencia e ilustra la

respuesta a esta pregunta que dio la muestra encuestada. Una tabla como ésta está

formada por renglones y columnas: los renglones corren de manera horizontal y las
26
columnas verticalmente. Observe que las cuatro columnas de la tabla proporcionan

una base de clasificación —regiones geográficas— y los dos renglones clasifican la

información de otra manera: preferencia por los métodos de evaluación. La tabla se

conoce como tabla de contingencia 2 X 4, ya que consta de dos renglones y cuatro

columnas. Describimos las dimensiones de una tabla de contingencia estableciendo

primero el número de renglones y luego el número de columnas. La columna y el

renglón con el “total” no cuentan como parte de las dimensiones.

Frecuencias observadas y esperadas

Suponga que ahora simbolizamos las proporciones verdaderas de la

población total de empleados que prefieren el plan actual como (Levin, 2004, p.450):

27
• PN ← Proporción de empleados en el noreste que prefieren el plan actual

• PS ← Proporción de empleados en el sureste que prefieren el plan actual

• PC ← Proporción de empleados de la región central que prefieren el plan actual

• PW ← Proporción de empleados de la región de la costa oeste que prefieren el

plan actual

Utilizando estos símbolos, podemos establecer la hipótesis nula y alternativa

de la siguiente forma:

𝐻0 : PN = PS = PC = PW ← Hipótesis nula

𝐻1 : PN, PS, PC, PW no son iguales ← Hipótesis alternativa

Si la hipótesis nula es verdadera, podemos combinar los datos de las cuatro

muestras y luego estimar la proporción de la fuerza de trabajo total (la población

total) que prefiere el método de evaluación actual (Levin, 2004, p.450):

Proporción combinada que prefiere el método actual, suponiendo que

la hipótesis nula de que no hay diferencia es verdadera

28
68+75+57+79
=
100+120+90+110

279
=
420

= 0.6643

Obviamente, si el valor 0.6643 estima la proporción de población esperada

que prefiere el método presente de evaluación, entonces 0.3357 (= 1 - 0.6643) es

la estimación de la proporción esperada de la población que prefiere el método

propuesto. Utilizando 0.6643 como estimación de la proporción de la población que

prefiere el método de evaluación actual y 0.3357 como la estimación de la

proporción de la población que prefiere el nuevo método, podemos estimar el

número de empleados de la muestra de cada región que podríamos esperar que

prefieran cada uno de los métodos de evaluación. La siguiente tabla presenta estos

cálculos:

29
(Levin, 2004, p.451)

La siguiente tabla combina toda la información contenida en las tablas

anteriores. En ella se ilustran tanto la frecuencia real u observada, como la teórica

o esperada, de trabajadores de la muestra que prefieren cada uno de los métodos

de evaluación:

(Levin, 2004, p.451)

30
Para probar la hipótesis nula, PN, PS, PC, PW, debemos comparar las

frecuencias que se observaron (números en cursivas) con las frecuencias que

esperaríamos si la hipótesis nula fuera verdadera (números en negritas). Si los

conjuntos de frecuencias observadas y esperadas son casi iguales, podemos

razonar de manera intuitiva que la hipótesis nula se acepta. Si existe una diferencia

grande entre estas frecuencias, podemos rechazar la hipótesis nula intuitivamente

y concluir que existen diferencias significativas en las proporciones de empleados

de las cuatro regiones que prefieren el nuevo método.

Subtema 6. Pruebas de homogeneidad

Otras pruebas de hipótesis basadas en tablas de contingencia son las

pruebas de homogeneidad, en casos en los que se extraen muestras de diferentes

poblaciones son utilizadas para determinar si diferentes poblaciones poseen las

mismas proporciones de alguna característica.

Homogéneo significa “que tiene la misma calidad”; en este contexto, estamos

haciendo una prueba para determinar si las proporciones son las mismas.

31
Prueba de homogeneidad: prueba la aseveración de que poblaciones

diferentes tienen las mismas proporciones de algunas características (Triola, 2004,

p.589).

Mendenhall (2010, p.610), en un experimento de prevención de gripe el

experimentador decide buscar en registros clínicos los 300 pacientes de cada una

de las tres categorías de tratamiento: sin vacuna, una vacuna y dos vacunas. Los n

= 900 pacientes se encuestarán entonces respecto a su historial de gripe en

invierno. El experimento resulta en una tabla de 2 X 3 con los totales de columna

fijos en 300, como se ve en la tabla de abajo. Al fijar los totales de columna, el

experimentador ya no tiene un experimento multinomial con 2 X 3 celdas. En

cambio, hay tres experimentos binomiales separados, llamémoslos 1, 2 y 3, cada

uno con una probabilidad 𝑝𝑗 determinada de contraer la gripe y 𝑞𝑗 de no contraer la

gripe. (Recuerde que para una población binomial, 𝑝𝑗 + 𝑞𝑗 = 1).

32
Supongamos que se utilizó la prueba ji cuadrada para la independencia de

clasificaciones de renglón y columna. Si un tratamiento particular (nivel de columna)

no afecta la incidencia de gripe, entonces cada una de las tres poblaciones

binomiales debería tener la misma incidencia de gripe para que p1 = p2 = p3 y q1 =

q2 = q3.

La clasificación de 2 X 3 del ejemplo describe una situación en la que la

prueba de ji cuadrada de independencia es equivalente a una prueba de la igualdad

de c=3 proporciones binomiales. Pruebas de este tipo se llaman pruebas de

homogeneidad y se usan para comparar diversas poblaciones binomiales. Si hay

más de dos categorías de renglón con totales fijos de columna, entonces la prueba

de independencia es equivalente a una prueba de la igualdad de c conjuntos de

proporciones multinomiales.

No es necesario preocuparse de la equivalencia teórica de las pruebas ji

cuadrada para estos dos diseños experimentales. Si las columnas (o renglones) son

fijos o no, la estadística de prueba se calcula como (Mendenhall, 2010, p.610):

(𝑂𝑖𝑗 − 𝐸̂𝑖𝑗 )2 𝑟 𝑖 𝑐𝑗
𝑥2 = ⅀ donde 𝐸̂𝑖𝑗 =
𝐸̂𝑖𝑗 𝑛

33
Que tiene una distribución ji cuadrada aproximada en muestreo repetido con

df = (r-1)(c-1).

Conclusiones

Para analizar casos estadísticos con más de dos muestras o proporciones se

utiliza la prueba de hipótesis ANOVA con la distribución F y la prueba ji cuadrada

que utiliza la distribución ji-cuadrada.

En muchos casos los datos estadísticos a analizar son datos categóricos o

cualitativos que pueden ser representados mediante variables en tablas de

contingencia y utilizando la prueba ji-cuadrada.

La prueba ji cuadrada puede usarse para la bondad del ajuste y para dos pruebas

que se basan en tablas de contingencia la prueba de independencia y la prueba de

homogeneidad.

34
Bibliografía

 Levin, R. & Rubin, D. (2004). Estadística Para Administración y Economía,


séptima edición. México: Pearson Educación.
 Mendenhall, W., & Beaver, R. J. (2010). Introducción a la probabilidad.
México, D.F.: Cengage Learning.
 Triola, M. (2004). Estadística Novena Edición. México: Pearson Educación.

35

También podría gustarte